投资团队  
投资理念  
用户类别:
证件号:

密码:        忘记密码

验证码:


重要提示:请在继续浏览上海涌峰投资管理有限公司前仔细阅读下文

根据《私募投资基金监督管理暂行办法》第四章第十四条规定:“私募基金管理人、私募基金销售机构不得向合格投资者之外的单位和个人募集资金,不得通过报刊、电台、电视、互联网等公众传播媒体或者讲座、报告会、分析会和布告、传单、手机短信、微信、博客和电子邮件等方式,向不特定对象宣传推介。”

涌峰投资遵循《私募投资基金监督管理暂行办法》,只能向特定的“合格投资者”宣传和推介相关私募投资基金产品。根据《私募投资基金监督管理暂行管理办法》第三章第十二条规定:“私募基金的合格投资者是指具备相应风险识别能力和风险承担能力,投资于单只私募基金的金额不低于100 万元且符合下列相关标准的单位和个人:(一)净资产不低于1000 万元的单位;(二)金融资产不低于300 万元或者最近三年个人年均收入不低于50 万元的个人。”如果您确认您或您所代表的机构是一名\"合格投资者\",并将遵守适用的有关法规,请点击“接受”键以继续浏览本公司网站。如您无法确认是一名“合格投资者”,请按"放弃"键。

本网站所载的各种信息和数据等仅供参考,并不构成广告或销售要约,或买入任何证券、基金或其它投资工具的建议,也不代表所介绍产品承诺保证最低收益,相关人员的过往业绩不代表所介绍产品未来运作的实际效果,不构成对任何人的投资建议。投资者应仔细审阅相关金融产品的合同文件等以了解其风险因素,或寻求专业的投资顾问的建议。


上海涌峰投资管理有限公司  

   

用人工智能理解投资资讯(三)

2018-7-18 22:46:58 作者:中国龙团队
    上篇文章中,我们解释了最简单直白的词包模型,以及它在文本检索中的典型应用。词包模型描述词在文本中的出现次数;对每篇文本,它记录了其中出现的每个词,以及出现的次数;反过来,对每个词,记录了它的总体出现频率,以及它出现在了哪些文本之中。   
    总体感觉甚为粗糙的这项技术,仍然是几十年来搜索引擎在文本内容上的基本方法;实际上搜索引擎的进步和竞争的焦点,早已转到了分析互联网文本之间的相互链接关系(著名的PageRank技术),以及用户对搜索结果的行为反馈的挖掘(这也是为什么赢者通吃现象显著,搜索引擎总是用的人越多越好用),而这些方面的研究实际上都规避了对文本本身的挖掘分析。
    当然,即使是这样一个简单粗暴的技术,实现起来也不容易。说起来飞速发展的计算机硬件,其实跟不上人们的野心。人们的数据分析欲望会轻易的出现数量级的跳跃(10倍),此时词包模型的空间需求可能已经突破了内存的容量,不得不开始把数据写到了硬盘上,随之而来的就是再强大的CPU也只能空闲等待,速度下降超过1个数量级。经验来说,随着想要分析的数据量变大,逐渐需要扩张到更外部的存储空间时,面对的情况可能是这样:
    数据在内存:几分钟
    数据分散在网络上其他机器的内存中:几周
    数据在SSD硬盘: 几个月
    数据在普通硬盘:几十年
    这其中的差别已经不是对分析过程响应缓慢的容忍问题,而是一项研究分析是否实际可行的问题。因此如何闪转腾挪,尽量将需要分析计算的文本数据控制在容量和速度可以接受的范围内,是文本建模背后一项磨人的工作。
    总结一下词包模型的问题:
1. 能力不够
词包模型尽其所能,只描述(词,文本)的二元关系。词与词之间的任何关系,在词包模型中是不存在的。词包模型把文本中的每个词任意地转换成一个数字标签;但“光伏”和“太阳能”的数字标签,并不会因为它们含义的相关性而存在任何特别的关系,而这几乎可以认为是一个现代文本模型的基本要求,即在相关/相似的词之间,建立某种数值关系。一个更强的文本模型能否凭借自身能力找到有一定深度的非平凡的关联关系呢?比如这个著名文本模型试金石:
King – Man + Woman = Queen
2. 模型膨胀:
    随着文本规模扩大,词包模型膨胀的很厉害。究其本质,还是因为模型的稀疏特质:毕竟,指定上百万词规模的词典,对应到每篇文章仅仅是其中很小部分。在这样膨胀的模型上的任何计算分析既困难,又极不可信。
    面对词包模型这样一个规模庞大、高度稀疏、表达能力又弱的文本-词二维矩阵,无论是一名数学家、统计学家、计算机科学家、金融工程分析师,大家的一致反应都是打开线性代数这个工具箱,从里面翻出一把叫做SVD(奇异值分解)的锤子,这种冲动就好像世界杯历史上各队进攻球员抬头看见英格兰守门员就想蒙一脚远射一样难以遏制。
    词包模型的文本-词二维矩阵,我们用X表示,大概就是这样:
    每一行t,代表一个词在哪些文本中出现;每一列d,代表一篇文本中出现了哪些词。矩阵中每个元素可以取各种不同的权重值,比如上一篇文章中介绍的TF-IDF值。两个词对应的行向量ti,tj之间的相关系数,表达了它们之间的接近程度。而X与其转置相乘的XXT,就表达了所有词两两之间的接近程度。类似的,另一个方向的矩阵乘法XTX则给出了文本之间的两两接近的程度。对于尺寸惊人(轻易可达百万✖百万级别),而且其中绝大多数位置都是0的稀疏矩阵XXT,固然可以强行计算,但是用XXT每个元素表达的词与词之间的接近程度,通常大家的反应就是呵呵呵:这样的病态矩阵表达的数值关系是没人信的。必须用SVD大锤敲打一番。
SVD分解把X矩阵拆成3个部分,
其中Σ是矩阵界女神对角阵,U和V则是广受喜爱


全国客户服务专线: 400-668-8801   www.topfund.com.cn
China Dragon © Copyright 2006-2018. 沪ICP备14007645号-1 联系我们 友情连接