投资团队  
投资理念  
用户类别:
证件号:

密码:        忘记密码

验证码:


重要提示:请在继续浏览上海涌峰投资管理有限公司前仔细阅读下文

根据《私募投资基金监督管理暂行办法》第四章第十四条规定:“私募基金管理人、私募基金销售机构不得向合格投资者之外的单位和个人募集资金,不得通过报刊、电台、电视、互联网等公众传播媒体或者讲座、报告会、分析会和布告、传单、手机短信、微信、博客和电子邮件等方式,向不特定对象宣传推介。”

涌峰投资遵循《私募投资基金监督管理暂行办法》,只能向特定的“合格投资者”宣传和推介相关私募投资基金产品。根据《私募投资基金监督管理暂行管理办法》第三章第十二条规定:“私募基金的合格投资者是指具备相应风险识别能力和风险承担能力,投资于单只私募基金的金额不低于100 万元且符合下列相关标准的单位和个人:(一)净资产不低于1000 万元的单位;(二)金融资产不低于300 万元或者最近三年个人年均收入不低于50 万元的个人。”如果您确认您或您所代表的机构是一名\"合格投资者\",并将遵守适用的有关法规,请点击“接受”键以继续浏览本公司网站。如您无法确认是一名“合格投资者”,请按"放弃"键。

本网站所载的各种信息和数据等仅供参考,并不构成广告或销售要约,或买入任何证券、基金或其它投资工具的建议,也不代表所介绍产品承诺保证最低收益,相关人员的过往业绩不代表所介绍产品未来运作的实际效果,不构成对任何人的投资建议。投资者应仔细审阅相关金融产品的合同文件等以了解其风险因素,或寻求专业的投资顾问的建议。


上海涌峰投资管理有限公司  

   

用人工智能理解投资资讯(二)

2018-4-12 22:37:58 作者:中国龙团队
    在第一篇文章中,我们介绍了用人工智能对大量文本进行分析和理解的困难本质,并且触及了人们尝试解决这一困难问题的第一步。
    实际上,这类方法被直观的称为“词包”模式,在这种方法中,每篇文本被表示成其中每个词出现的频率。由于不同的文本中会出现不同的词,为了把不同的文本表示成同样长度的向量(这是几乎所有机器学习方法的一个基本要求),通常我们会构造一个统一的“词典”,其中包含了待分析文本中所有可能出现的词。我们假设这个词典包含了100,000(十万)个词,而文本库中的文本的数量假设是1,000,000(一百万)。这样,我们可以把这些文本表示成一个1,000,000乘100,000的矩阵,矩阵的每一列对应词典中的一个词,而矩阵的每一行则代表文本库中的一个文本。矩阵的第i行的第j列元素,表示的是在第i个文本中,词典中的第j个词出现的次数。
    “词包”/BOW,顾名思义,把一个文本只看作一包“词”,仅仅关心文本中出现的词及其次数,完全丢弃了词出现的先后位置信息。在一定程度上,这么做是有道理的,因为出现的词及其次数的重要性一般都超过词出现的先后次序,以下这种笑话在很多自然语言中都可以重复:
    研表究明,汉字的序顺并不定一能影阅响读,比如当你看完这句话后,才发这现里的字全是都乱的。
    当然,我们也可以看出,词的顺序“不重要”,这一点一般仅在一个局部的窗口中才成立,较大范围的先后次序,仍然构成逻辑、语义的重要方面。在后面更为复杂机器学习模型中,我们会再次遇见这种利用局部窗口内的词,但并没有利用窗口内任何顺序信息的情况。
    词包模型的优点显而易见,它简单、直观、容易理解。然而,它的优点也恰是其阿喀琉斯之踵,即维度过高。因为要记录文本中每个词出现的频率,预先定义好的词典就非常重要。为了能表达广泛的文本,词典很容易变的很大。在我们自己的实验中,仅仅限定于与金融市场相关的新闻文本内,当文本数量达到数百万时,经过过滤(已经剔除了大量无效词)的词典规模仍然轻易达到了上百万(是的,尽管我们的常用汉字可能只有几千,但汉字的构词能力令人惊叹)。请注意,在词包方法的描述中,并没有任何关于怎样挑选词典中的词的规则,通常我们只能照单全收:凡是在文本样本中出现过的词,都加入到词典中,仅有少数规则可以剔除部分词语:
     词频过高的词,如中文的“的”、“得”、“这种”,英文的“the”、“a”、“of”
     词频过低的词,如在几百万的样本出现次数小于5次
    在这种情况下,表示文本的矩阵的列数就会达到百万之巨;用机器学习的术语来讲,文本的特征向量的维度达到了百万级别。机器学习方法最害怕的就是膨胀的特征维度。通常的机器学习方法或统计方法的基本要求是,如果要进行任何可靠的分析,样本的数量至少要远多于特征的维度。当我们有几百万篇文本样本,而特征维度已经达上百万时,这是一个勉强可以尝试的问题。
    所以,我们首先来考虑词包模型的一个最粗放的应用,实际上是一个“非”机器学习应用,以机器学习的一般观点,这个应用确实没有“学习”什么,如果我们认为获取词包模型的词频矩阵并不能算什么机器学习的话。
    我们考虑的是类似搜索引擎的文本检索。给定一个或多个关键词,返回文本库中的相关文本;最后,返回的相关文本是排好序的,最相关的应该排在最前面。
    我们用词包模型完成这个文本检索目标的方式非常类似谷歌、百度等搜索引擎,最显著的区别在于:
     搜索引擎分析的是相互链接的“超文本/hypertext”,文本之间的链接关系是非常重要的信息来源,对返回搜索结果中的文档的排序有非常重要的贡献
     搜索引擎在现实的使用中会获得大量用


全国客户服务专线: 400-668-8801   www.topfund.com.cn
China Dragon © Copyright 2006-2018. 沪ICP备14007645号-1 联系我们 友情连接