用人工智能理解投资资讯(二)-涌峰投资官网

用人工智能理解投资资讯(二)

2018/4/12 22:37:58 作者：中国龙团队

    在第一篇文章中，我们介绍了用人工智能对大量文本进行分析和理解的困难本质，并且触及了人们尝试解决这一困难问题的第一步。
    实际上，这类方法被直观的称为“词包”模式，在这种方法中，每篇文本被表示成其中每个词出现的频率。由于不同的文本中会出现不同的词，为了把不同的文本表示成同样长度的向量（这是几乎所有机器学习方法的一个基本要求），通常我们会构造一个统一的“词典”，其中包含了待分析文本中所有可能出现的词。我们假设这个词典包含了100,000（十万）个词，而文本库中的文本的数量假设是1,000,000（一百万）。这样，我们可以把这些文本表示成一个1,000,000乘100,000的矩阵，矩阵的每一列对应词典中的一个词，而矩阵的每一行则代表文本库中的一个文本。矩阵的第i行的第j列元素，表示的是在第i个文本中，词典中的第j个词出现的次数。
    “词包”/BOW，顾名思义，把一个文本只看作一包“词”，仅仅关心文本中出现的词及其次数，完全丢弃了词出现的先后位置信息。在一定程度上，这么做是有道理的，因为出现的词及其次数的重要性一般都超过词出现的先后次序，以下这种笑话在很多自然语言中都可以重复：
    研表究明，汉字的序顺并不定一能影阅响读，比如当你看完这句话后，才发这现里的字全是都乱的。
    当然，我们也可以看出，词的顺序“不重要”，这一点一般仅在一个局部的窗口中才成立，较大范围的先后次序，仍然构成逻辑、语义的重要方面。在后面更为复杂机器学习模型中，我们会再次遇见这种利用局部窗口内的词，但并没有利用窗口内任何顺序信息的情况。
    词包模型的优点显而易见，它简单、直观、容易理解。然而，它的优点也恰是其阿喀琉斯之踵，即维度过高。因为要记录文本中每个词出现的频率，预先定义好的词典就非常重要。为了能表达广泛的文本，词典很容易变的很大。在我们自己的实验中，仅仅限定于与金融市场相关的新闻文本内，当文本数量达到数百万时，经过过滤（已经剔除了大量无效词）的词典规模仍然轻易达到了上百万（是的，尽管我们的常用汉字可能只有几千，但汉字的构词能力令人惊叹）。请注意，在词包方法的描述中，并没有任何关于怎样挑选词典中的词的规则，通常我们只能照单全收：凡是在文本样本中出现过的词，都加入到词典中，仅有少数规则可以剔除部分词语：
     词频过高的词，如中文的“的”、“得”、“这种”，英文的“the”、“a”、“of”
     词频过低的词，如在几百万的样本出现次数小于5次
    在这种情况下，表示文本的矩阵的列数就会达到百万之巨；用机器学习的术语来讲，文本的特征向量的维度达到了百万级别。机器学习方法最害怕的就是膨胀的特征维度。通常的机器学习方法或统计方法的基本要求是，如果要进行任何可靠的分析，样本的数量至少要远多于特征的维度。当我们有几百万篇文本样本，而特征维度已经达上百万时，这是一个勉强可以尝试的问题。
    所以，我们首先来考虑词包模型的一个最粗放的应用，实际上是一个“非”机器学习应用，以机器学习的一般观点，这个应用确实没有“学习”什么，如果我们认为获取词包模型的词频矩阵并不能算什么机器学习的话。
    我们考虑的是类似搜索引擎的文本检索。给定一个或多个关键词，返回文本库中的相关文本；最后，返回的相关文本是排好序的，最相关的应该排在最前面。
    我们用词包模型完成这个文本检索目标的方式非常类似谷歌、百度等搜索引擎，最显著的区别在于：
     搜索引擎分析的是相互链接的“超文本/hypertext”，文本之间的链接关系是非常重要的信息来源，对返回搜索结果中的文档的排序有非常重要的贡献
     搜索引擎在现实的使用中会获得大量用

返回上一级