投资团队  
投资理念  
用户类别:
证件号:

密码:        忘记密码

验证码:




扫描二维码关注涌峰微信号

用人工智能理解投资资讯(四)

2018/10/29 23:15:18 作者:中国龙团队
        上篇文章中,我们揭示了词包模型的两大问题,一是模型庞大,对计算和存储资源的需求难以控制;二是模型能力弱,每个词简单的用一个任意编号代表,不具有任何语义信息。从词包模型更进一步,人们把SVD应用在词包模型的巨型矩阵上,得到了LSA模型,通过统计模型的降维,把每个词表达成一个相对低维的线性空间中的向量,后续的相似度量、文本检索、分类、聚类等各种进一步计算分析就都有了数据基础。
        LSA模型的能力仍然偏弱,这很容易理解,因为它的关注点完全在于全体文本的全局统计信息,完全忽略每一个文本内部的任何局部信息。毕竟,对文本的语义理解中,虽然难以精确度量,但文本内部的局部结构信息在总的语义信息中一定占了相当的比重:词的顺序,词的性质,句子的语法结构,在每一种语言种都有重要的作用。如果把一个用于训练的文本样本,首先做一个处理:把每篇文本内的词序随机打乱,然后再交给LSA模型训练。从LSA模型的算法描述可以看出,这一步糟糕的预处理不会对结果有任何影响。由此可以看出,LSA完全放弃了任何与词序有关的语义信息。
        总结到目前为止关于文本模型的讨论,可以发现,如果模型向再向前一步,需要设计这样一个模型:
 它在一个较低维度的空间用向量来描述每个词
 这个向量能表达词和文本的相似关系:含义接近的词和文本,对应的向量之间的距离也近;甚至对含义有特定对应关系的词,它们的向量会表现出更强大的数学关系,比如King , Man ,Woman ,Queen这四个词,对应于它们的逻辑关系,它们各自的词向量能近似满足:King – Man + Woman = Queen。这里的近似是指:经由加减计算得到的向量(King – Man + Woman),在词典中所有词中,Queen对应的向量与其有最小的距离。
 这个模型不但与全篇文本的词频的统计有关,还与文本内的词语的空间位置有关。换句话说,句子中的词语的出现顺序应该在这个模型有所体现。
        达成以上目标的新一代文本模型的代表是word2vec模型。我们略过各种技术细节,从比较抽象的角度来理解一下word2vec模型是如何设计的。和先前的模型一样,我们把所有的词(假设有N个词)按一个任意的规则排成一个顺序,具体用什么规则并不重要,比如根据笔画、读音来排都可以;最简单的,可以按照它们在训练文本库中首次出现的顺序编号。然后我们按照这个顺序可以词映射成一个简单且特别的向量:向量长度是N,在每个位置都是0,只有在这个词编号的那个位置是1。比方说,假设“中国”是我们编号第一个的词,它的向量是(1,0,0,…, 0)。我们给它起个名字叫基本词向量。
        显然这样一种词的向量表示还没有任何价值。我们想要完成的任务是,能不能从这个向量表示出发,映射成另一种更有意义的、满足前述3个要求的向量表示呢?乍一看这个目标简直无从着手,但退一步更抽象的看,从一个向量映射到另一种向量,这个动作非常贴合神经网络的工作场景。新一代文本模型纷纷抛弃了全局的统计模型,而起用了神经网络。从最抽象的角度来说,典型的神经网络由一层输入节点,一层中间层节点(也可以是多层中间层),和一层输出层节点构成。每一层都包含多个节点,通常每一层节点的数量和问题的维度有关。数据从前一层节点向后一层节点流动,每一层节点接收前一层节点的输出作为自己的输入,经过计算,把结果输出,又成为下一层节点的输入。
        通常神经网络是用来做分类或是预测,把(已知的)输入数据放入网络的输入层节点,经过神经网络的层层运算,把所有输出节点的输出结果合并起来,得到我们想要的(未知的)结果向量。但现在的问题是,我们对想要的理想的词向量还没有任何想法,也就是说,虽然我们已经决定这个神经网


全国客户服务专线: 400-668-8801   www.topfund.com.cn  联系我们
沪ICP备 14007645号-1 沪公网安备 31011502017994号
Topfund © Copyright 2006-2024.