投资团队  
投资理念  
用户类别:
证件号:

密码:        忘记密码

验证码:




扫描二维码关注涌峰微信号

用人工智能理解投资资讯(一)

2018/1/18 8:19:35 作者:中国龙团队
    在对核心投资标的、核心信息来源进行深入研究的同时,我们也希望能对广泛的投资资讯保持关注,无论是股票、商品、期货等各种投资标的,还是公司公告、卖方研报、资讯网站、微博、微信,其中包含的各类资讯都可能对我们的投资具有潜在的意义。然而如此宽度的覆盖范围远远超出了一个投资者甚至投资团队的精力所及。在此情况下,我们不能不对人工智能技术在文本理解上的应用进行前瞻性的投入。
    显然,我们的投入是受限的。比如,我们缺乏百度级别的实时获得整个中文互联网内容的能力,所以难以像搜索引擎一样分析页面之间的互相链接、引用的关系;又比如,我们也缺乏微博、微信这样巨头的资源,可以窥视到海量用户对各种文本做出的反应和行为。通常意义上,我们能做到的或者说可以分析的,仅仅是文本本身。
    然而,文本理解的难度,在某种意义上可以看作是人工智能的核心难度。自然语言的文本是非受限文本,绝不是确定性的计算机程序能轻易理解的。对于计算机来说,文本不过是字符串,而字符串中的每个字符,实质上并不是我们人类看到的汉字、字母、数字,而只不过是一个编码数字而已,举个例子,“人工智能”这四个汉字,在unicode标准下的字节码,实际上就是20154、24037、26234、33021这4个数。至于这4个数字对应的汉字的含义,只存在人的头脑里,至少现在我们还完全没有办法把它灌输到计算机中。也许简单的想象中,只需把一部字典复制到计算机程序中,问题便迎刃而解,但这是一种完全的误解。考虑一下我们人类的字典,里面不过是用一些语句来阐述一个字或词的含义,而这语句本身还是由词组成。词典对我们人类有用,是因为我们人类本身的智能、对语言文本的理解;对计算机来说,字典的用处,恐怕和完全不懂英语的人手中的一本纯英文字典的作用一样。一本纯英文字典,或者是大量纯英文的文本,对于一个完全不懂英文的人来说,是完全无用的。
    总之,以当今的人工智能技术来理解文本的难度其实远远超过AlphaGo的难度。实际上,AlphaGo面临的问题,在某种意义上堪称简单,它面对的实际上是一个简单的19乘19的矩阵,无论是对手的每一步,还是自己的每一步,在盘面上都是清清楚楚、含义明确,围棋的胜负判定规则也是清楚明白,可以容易的用数学或者代码逻辑表达出来。这样的问题,堪称是计算机所擅长的领域。而文本理解的难度,恰在于计算机的计算与逻辑能力和人类智能之间的鸿沟,它和战胜柯洁的AlphaGo之间,恐怕还隔着100个在1997年战胜卡斯帕罗夫的IBM深蓝。否则,为什么计算机和人工智能的双重开山鼻祖—图灵,在计算机技术和人工智能的双重婴儿时代,就为人工智能下的黄金判定标准,直到今天都为人称道、且难以企及的,是能够蒙骗成年人的人机对话,这种基于语言文本的形式呢?
    但这并不能让我们轻言放弃。虽然我们拥有的是本质上只能进行0/1二进制数字计算和逻辑处理的计算机,追求的目标却是人类智能的核心-语言/文本理解能理,但我们总该能做些什么。实际上,人工智能和语言研究两界从未放弃过这方面的努力。历史上的有些努力看起来很奇葩,然而却给出了颇为惊人的结果。从这篇文章开始,我们会陆续介绍人们在这一领域的各种尝试。
    让我们回到前面提到过的一种场景,当一个完全不懂英文的人,面对一本纯英文字典,或者是大量纯英文的文本,他真的是完全的两眼一抹黑,什么都做不了吗?其实他还是可以做一些事情的。具体一些,我们假设,一个完全不懂英语的人,获得了10,000个英文段落。我们假设此人无他事可做,有充足的时间(类比于一台计算机,由于它有超快的计算能力,所以时间也不是问题)。
   此人通过仔细的阅读,认识到了这些文本由26个字母组成,若干个字母组成一个词,词之


全国客户服务专线: 400-668-8801   www.topfund.com.cn  联系我们
沪ICP备 14007645号-1 沪公网安备 31011502017994号
Topfund © Copyright 2006-2024.