投资团队  
投资理念  
用户类别:
证件号:

密码:        忘记密码

验证码:




扫描二维码关注涌峰微信号

用人工智能理解投资资讯(三)

2018/7/18 22:46:58 作者:中国龙团队
    上篇文章中,我们解释了最简单直白的词包模型,以及它在文本检索中的典型应用。词包模型描述词在文本中的出现次数;对每篇文本,它记录了其中出现的每个词,以及出现的次数;反过来,对每个词,记录了它的总体出现频率,以及它出现在了哪些文本之中。   
    总体感觉甚为粗糙的这项技术,仍然是几十年来搜索引擎在文本内容上的基本方法;实际上搜索引擎的进步和竞争的焦点,早已转到了分析互联网文本之间的相互链接关系(著名的PageRank技术),以及用户对搜索结果的行为反馈的挖掘(这也是为什么赢者通吃现象显著,搜索引擎总是用的人越多越好用),而这些方面的研究实际上都规避了对文本本身的挖掘分析。
    当然,即使是这样一个简单粗暴的技术,实现起来也不容易。说起来飞速发展的计算机硬件,其实跟不上人们的野心。人们的数据分析欲望会轻易的出现数量级的跳跃(10倍),此时词包模型的空间需求可能已经突破了内存的容量,不得不开始把数据写到了硬盘上,随之而来的就是再强大的CPU也只能空闲等待,速度下降超过1个数量级。经验来说,随着想要分析的数据量变大,逐渐需要扩张到更外部的存储空间时,面对的情况可能是这样:
    数据在内存:几分钟
    数据分散在网络上其他机器的内存中:几周
    数据在SSD硬盘: 几个月
    数据在普通硬盘:几十年
    这其中的差别已经不是对分析过程响应缓慢的容忍问题,而是一项研究分析是否实际可行的问题。因此如何闪转腾挪,尽量将需要分析计算的文本数据控制在容量和速度可以接受的范围内,是文本建模背后一项磨人的工作。
    总结一下词包模型的问题:
1. 能力不够
词包模型尽其所能,只描述(词,文本)的二元关系。词与词之间的任何关系,在词包模型中是不存在的。词包模型把文本中的每个词任意地转换成一个数字标签;但“光伏”和“太阳能”的数字标签,并不会因为它们含义的相关性而存在任何特别的关系,而这几乎可以认为是一个现代文本模型的基本要求,即在相关/相似的词之间,建立某种数值关系。一个更强的文本模型能否凭借自身能力找到有一定深度的非平凡的关联关系呢?比如这个著名文本模型试金石:
King – Man + Woman = Queen
2. 模型膨胀:
    随着文本规模扩大,词包模型膨胀的很厉害。究其本质,还是因为模型的稀疏特质:毕竟,指定上百万词规模的词典,对应到每篇文章仅仅是其中很小部分。在这样膨胀的模型上的任何计算分析既困难,又极不可信。
    面对词包模型这样一个规模庞大、高度稀疏、表达能力又弱的文本-词二维矩阵,无论是一名数学家、统计学家、计算机科学家、金融工程分析师,大家的一致反应都是打开线性代数这个工具箱,从里面翻出一把叫做SVD(奇异值分解)的锤子,这种冲动就好像世界杯历史上各队进攻球员抬头看见英格兰守门员就想蒙一脚远射一样难以遏制。
    词包模型的文本-词二维矩阵,我们用X表示,大概就是这样:
    每一行t,代表一个词在哪些文本中出现;每一列d,代表一篇文本中出现了哪些词。矩阵中每个元素可以取各种不同的权重值,比如上一篇文章中介绍的TF-IDF值。两个词对应的行向量ti,tj之间的相关系数,表达了它们之间的接近程度。而X与其转置相乘的XXT,就表达了所有词两两之间的接近程度。类似的,另一个方向的矩阵乘法XTX则给出了文本之间的两两接近的程度。对于尺寸惊人(轻易可达百万✖百万级别),而且其中绝大多数位置都是0的稀疏矩阵XXT,固然可以强行计算,但是用XXT每个元素表达的词与词之间的接近程度,通常大家的反应就是呵呵呵:这样的病态矩阵表达的数值关系是没人信的。必须用SVD大锤敲打一番。
SVD分解把X矩阵拆成3个部分,
其中Σ是矩阵界女神对角阵,U和V则是广受喜爱


全国客户服务专线: 400-668-8801   www.topfund.com.cn  联系我们
沪ICP备 14007645号-1 沪公网安备 31011502017994号
Topfund © Copyright 2006-2024.