用人工智能理解投资资讯(四)-涌峰投资官网

用人工智能理解投资资讯(四)

2018/10/29 23:15:18 作者：中国龙团队

        上篇文章中，我们揭示了词包模型的两大问题，一是模型庞大，对计算和存储资源的需求难以控制；二是模型能力弱，每个词简单的用一个任意编号代表，不具有任何语义信息。从词包模型更进一步，人们把SVD应用在词包模型的巨型矩阵上，得到了LSA模型，通过统计模型的降维，把每个词表达成一个相对低维的线性空间中的向量，后续的相似度量、文本检索、分类、聚类等各种进一步计算分析就都有了数据基础。
        LSA模型的能力仍然偏弱，这很容易理解，因为它的关注点完全在于全体文本的全局统计信息，完全忽略每一个文本内部的任何局部信息。毕竟，对文本的语义理解中，虽然难以精确度量，但文本内部的局部结构信息在总的语义信息中一定占了相当的比重：词的顺序，词的性质，句子的语法结构，在每一种语言种都有重要的作用。如果把一个用于训练的文本样本，首先做一个处理：把每篇文本内的词序随机打乱，然后再交给LSA模型训练。从LSA模型的算法描述可以看出，这一步糟糕的预处理不会对结果有任何影响。由此可以看出，LSA完全放弃了任何与词序有关的语义信息。
        总结到目前为止关于文本模型的讨论，可以发现，如果模型向再向前一步，需要设计这样一个模型：
 它在一个较低维度的空间用向量来描述每个词
 这个向量能表达词和文本的相似关系：含义接近的词和文本，对应的向量之间的距离也近；甚至对含义有特定对应关系的词，它们的向量会表现出更强大的数学关系，比如King ， Man ，Woman ，Queen这四个词，对应于它们的逻辑关系，它们各自的词向量能近似满足：King – Man + Woman = Queen。这里的近似是指：经由加减计算得到的向量（King – Man + Woman），在词典中所有词中，Queen对应的向量与其有最小的距离。
 这个模型不但与全篇文本的词频的统计有关，还与文本内的词语的空间位置有关。换句话说，句子中的词语的出现顺序应该在这个模型有所体现。
        达成以上目标的新一代文本模型的代表是word2vec模型。我们略过各种技术细节，从比较抽象的角度来理解一下word2vec模型是如何设计的。和先前的模型一样，我们把所有的词（假设有N个词）按一个任意的规则排成一个顺序，具体用什么规则并不重要，比如根据笔画、读音来排都可以；最简单的，可以按照它们在训练文本库中首次出现的顺序编号。然后我们按照这个顺序可以词映射成一个简单且特别的向量：向量长度是N，在每个位置都是0，只有在这个词编号的那个位置是1。比方说，假设“中国”是我们编号第一个的词，它的向量是（1，0，0，…, 0）。我们给它起个名字叫基本词向量。
        显然这样一种词的向量表示还没有任何价值。我们想要完成的任务是，能不能从这个向量表示出发，映射成另一种更有意义的、满足前述3个要求的向量表示呢？乍一看这个目标简直无从着手，但退一步更抽象的看，从一个向量映射到另一种向量，这个动作非常贴合神经网络的工作场景。新一代文本模型纷纷抛弃了全局的统计模型，而起用了神经网络。从最抽象的角度来说，典型的神经网络由一层输入节点，一层中间层节点（也可以是多层中间层），和一层输出层节点构成。每一层都包含多个节点，通常每一层节点的数量和问题的维度有关。数据从前一层节点向后一层节点流动，每一层节点接收前一层节点的输出作为自己的输入，经过计算，把结果输出，又成为下一层节点的输入。
        通常神经网络是用来做分类或是预测，把（已知的）输入数据放入网络的输入层节点，经过神经网络的层层运算，把所有输出节点的输出结果合并起来，得到我们想要的（未知的）结果向量。但现在的问题是，我们对想要的理想的词向量还没有任何想法，也就是说，虽然我们已经决定这个神经网

返回上一级