投资团队  
投资理念  
用户类别:
证件号:

密码:        忘记密码

验证码:




扫描二维码关注涌峰微信号

用人工智能理解投资资讯(二)

2018/4/12 22:37:58 作者:中国龙团队
    在第一篇文章中,我们介绍了用人工智能对大量文本进行分析和理解的困难本质,并且触及了人们尝试解决这一困难问题的第一步。
    实际上,这类方法被直观的称为“词包”模式,在这种方法中,每篇文本被表示成其中每个词出现的频率。由于不同的文本中会出现不同的词,为了把不同的文本表示成同样长度的向量(这是几乎所有机器学习方法的一个基本要求),通常我们会构造一个统一的“词典”,其中包含了待分析文本中所有可能出现的词。我们假设这个词典包含了100,000(十万)个词,而文本库中的文本的数量假设是1,000,000(一百万)。这样,我们可以把这些文本表示成一个1,000,000乘100,000的矩阵,矩阵的每一列对应词典中的一个词,而矩阵的每一行则代表文本库中的一个文本。矩阵的第i行的第j列元素,表示的是在第i个文本中,词典中的第j个词出现的次数。
    “词包”/BOW,顾名思义,把一个文本只看作一包“词”,仅仅关心文本中出现的词及其次数,完全丢弃了词出现的先后位置信息。在一定程度上,这么做是有道理的,因为出现的词及其次数的重要性一般都超过词出现的先后次序,以下这种笑话在很多自然语言中都可以重复:
    研表究明,汉字的序顺并不定一能影阅响读,比如当你看完这句话后,才发这现里的字全是都乱的。
    当然,我们也可以看出,词的顺序“不重要”,这一点一般仅在一个局部的窗口中才成立,较大范围的先后次序,仍然构成逻辑、语义的重要方面。在后面更为复杂机器学习模型中,我们会再次遇见这种利用局部窗口内的词,但并没有利用窗口内任何顺序信息的情况。
    词包模型的优点显而易见,它简单、直观、容易理解。然而,它的优点也恰是其阿喀琉斯之踵,即维度过高。因为要记录文本中每个词出现的频率,预先定义好的词典就非常重要。为了能表达广泛的文本,词典很容易变的很大。在我们自己的实验中,仅仅限定于与金融市场相关的新闻文本内,当文本数量达到数百万时,经过过滤(已经剔除了大量无效词)的词典规模仍然轻易达到了上百万(是的,尽管我们的常用汉字可能只有几千,但汉字的构词能力令人惊叹)。请注意,在词包方法的描述中,并没有任何关于怎样挑选词典中的词的规则,通常我们只能照单全收:凡是在文本样本中出现过的词,都加入到词典中,仅有少数规则可以剔除部分词语:
     词频过高的词,如中文的“的”、“得”、“这种”,英文的“the”、“a”、“of”
     词频过低的词,如在几百万的样本出现次数小于5次
    在这种情况下,表示文本的矩阵的列数就会达到百万之巨;用机器学习的术语来讲,文本的特征向量的维度达到了百万级别。机器学习方法最害怕的就是膨胀的特征维度。通常的机器学习方法或统计方法的基本要求是,如果要进行任何可靠的分析,样本的数量至少要远多于特征的维度。当我们有几百万篇文本样本,而特征维度已经达上百万时,这是一个勉强可以尝试的问题。
    所以,我们首先来考虑词包模型的一个最粗放的应用,实际上是一个“非”机器学习应用,以机器学习的一般观点,这个应用确实没有“学习”什么,如果我们认为获取词包模型的词频矩阵并不能算什么机器学习的话。
    我们考虑的是类似搜索引擎的文本检索。给定一个或多个关键词,返回文本库中的相关文本;最后,返回的相关文本是排好序的,最相关的应该排在最前面。
    我们用词包模型完成这个文本检索目标的方式非常类似谷歌、百度等搜索引擎,最显著的区别在于:
     搜索引擎分析的是相互链接的“超文本/hypertext”,文本之间的链接关系是非常重要的信息来源,对返回搜索结果中的文档的排序有非常重要的贡献
     搜索引擎在现实的使用中会获得大量用


全国客户服务专线: 400-668-8801   www.topfund.com.cn  联系我们
沪ICP备 14007645号-1 沪公网安备 31011502017994号
Topfund © Copyright 2006-2024.