为什么 NLP 和股市预测相关在很多NLP问题上我们拿到一段序列然后编码成以单个固定大小单元来表示,然后再解码表示成另一段序列。举个例子,在我们把英文翻译成法文或者把音频序列转换成文本时,我们可能会在文本中标记出多个实体。在这块领域已经有一连串的成果出现而且效果都很不错。
在我看来,NLP和金融分析的最大区别就是,语言一般会保证一定的结构,只不过结构规则是模糊的。而市场并不保证有这种先天性可学习的结构,这个项目想要做的就是证明或者反驳这个结构的存在。
假设存在这种结构,那以类似NLP编码解读语义的方式来总结市场当前状态的想法似乎就是可行的,如果感觉这一切还没有什么意义,请继续往下看,会有意义的。
你应该知道这个词
在这个领域里存在大量关于 word embeddings 的研究。 Richard Socher’s lecture 这个视频适合初学者入门了解。简单来说,我们可以把我们语言中的所有单词制作成一个图谱,在这个图谱中表示出所有单词的含义以及含义之间的联系。你也许已经看到过"King-man + woman = Queen"这个例子或者类似的东西。
Embeddings
非常酷 因为它让我们能够以一种非常浓缩的方式表达信息。以前我们表达一串单词的方式是建立一个和单词数一样长度的
vector向量(由数字组成的big
list),如果这是我们正在查看的单词,则在特定的地方设置为1。这不是一个非常有效的方法,甚至没有任何意义。通过Embeddings,我们可以用固定数量的维度表示所有的单词(300个维度看起来都有点多,50个就差不多了),然后利用他们更高的维度图谱来理解他们。
下面这张图展示了一个示例。我们在网络上训练一个
embedding
模型,经过几天的密集计算以后,每个单词都被嵌入到一些高维空间里。这个“空间”有一个图谱,包含类似距离的概念,这样我们就可以问出来哪些词是靠近在一起的。该方法的作者举了个例子,下面是和Frog(青蛙)最接近的单词。
原文链接:
https://zhuanlan.zhihu.com/p/27090321