专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
宝玉xp  ·  转发微博-20241029052706 ·  2 天前  
爱可可-爱生活  ·  【mdx - ... ·  3 天前  
爱可可-爱生活  ·  【ngrid:数据浏览好帮手,就像命令行的“ ... ·  3 天前  
新智元  ·  陶哲轩神预言!Transformer破解百年 ... ·  3 天前  
爱可可-爱生活  ·  【Computer Use OOTB:基于 ... ·  5 天前  
51好读  ›  专栏  ›  机器学习研究会

【学习】股市上的深度学习:Market2Vec

机器学习研究会  · 公众号  · AI  · 2017-05-27 19:44

正文



点击上方“机器学习研究会”可以订阅哦
摘要
 

转自:Russell Lab

为什么 NLP 和股市预测相关

在很多NLP问题上我们拿到一段序列然后编码成以单个固定大小单元来表示,然后再解码表示成另一段序列。举个例子,在我们把英文翻译成法文或者把音频序列转换成文本时,我们可能会在文本中标记出多个实体。在这块领域已经有一连串的成果出现而且效果都很不错。

在我看来,NLP和金融分析的最大区别就是,语言一般会保证一定的结构,只不过结构规则是模糊的。而市场并不保证有这种先天性可学习的结构,这个项目想要做的就是证明或者反驳这个结构的存在。

假设存在这种结构,那以类似NLP编码解读语义的方式来总结市场当前状态的想法似乎就是可行的,如果感觉这一切还没有什么意义,请继续往下看,会有意义的。


你应该知道这个词

在这个领域里存在大量关于 word embeddings 的研究。 Richard Socher’s lecture 这个视频适合初学者入门了解。简单来说,我们可以把我们语言中的所有单词制作成一个图谱,在这个图谱中表示出所有单词的含义以及含义之间的联系。你也许已经看到过"King-man + woman = Queen"这个例子或者类似的东西。

Embeddings 非常酷 因为它让我们能够以一种非常浓缩的方式表达信息。以前我们表达一串单词的方式是建立一个和单词数一样长度的 vector向量(由数字组成的big list),如果这是我们正在查看的单词,则在特定的地方设置为1。这不是一个非常有效的方法,甚至没有任何意义。通过Embeddings,我们可以用固定数量的维度表示所有的单词(300个维度看起来都有点多,50个就差不多了),然后利用他们更高的维度图谱来理解他们。
下面这张图展示了一个示例。我们在网络上训练一个 embedding 模型,经过几天的密集计算以后,每个单词都被嵌入到一些高维空间里。这个“空间”有一个图谱,包含类似距离的概念,这样我们就可以问出来哪些词是靠近在一起的。该方法的作者举了个例子,下面是和Frog(青蛙)最接近的单词。


原文链接:

https://zhuanlan.zhihu.com/p/27090321

“完整内容”请点击【阅读原文】
↓↓↓