图: 《The Economist》 杂志五月第一期封面
经济学人五月第一期杂志中头条新闻中
将数据比作世界上最有价值的资源。
早在2014年马云董事长就说过
阿里巴巴从本质上来讲已经成为一家数据公司。
文章[4]中说现在连GE、西门子等工业巨头也开始称自己是一家数据公司了。但文章[4]中也提出需要削弱在线服务供应商对数据的掌控力,让提供数据的一方拥有更大的控制权。这自然就提到一个问题,
数据应该为谁而用?
数据既然是世界上最有价值的资源,而大多又是由个人客户提供的,那
自然应该也为客户所用,而不应只是用于那些拥有数据的公司提升市值,做各样的数据化运营等。
但如何为客户所用?如此多的数据,只有大型的具有云计算平台的公司才能处理。而那些大数据处理所需的技术也不是普通客户所能掌握的。通过更
人性化的交互接口,如智能助理,将用户的需求转换为机器学习、大数据所处理的问题
是一个不错的途径。以下将以基于金融知识图谱的智能问答为例探讨该途径。
国内的股票市场,一般认为是更加倾向于主题投资而不是基本面、价值投资的市场,
原因之一是
散户贡献了大部分成交量。
在这个信息爆炸的时代,如《信号与噪声》[2]书中描述的大多数数据都只是噪声,人们很难从干扰他们的噪声中分辨出有用的有效的投资信号。在国内证券市场也是如此,更有甚者,有些专业的市场参与者还利用这点进行炒作。
如何为个人客户处理证券市场的纷繁信息,这其实是智能助理中第一步的信息收集处理的要求。[5]所以一方面,我们
用金融市场相关数据构建知识库;
另外一方面,为了更好的人机交互,
用 NLP深度学习模型对客户问题进行处理。
模型包括问答产生式模型(sequence-to-sequence)、语义相似度计算(word/sentence embedding)、语言理解(LSTM实体标注)等[6]。将两者结合也就有基于金融知识图谱的智能问答功能:
一、 目前实现的一期的证券市场金融知识图谱以上市公司为核心,关联相关行业、概念等信息。客户可以询问股票、行业、基金的重仓概念板块、股权关系等问题。
图片来源文章[7]
二、国内证券市场受市场情绪比较重,
在大数据时代,舆情因子是专业投资机构一直在研究的方向之一
,所以也为广大的普通投资者提供上市公司分析师评级与舆情信息。
图片来源文章[7]
三、结合专业的金融量化多因子基本面研究,将上市公司信息按以下公司基本面复合因子组合进行排名,客户可以查询行业、概念板块下指定财务估值、财务成长、舆情公司排名情况。而且之后,客户还可以根据自己的偏好自定义因子进行排名。
•
财务因子:财务盈利、财务估值、财务运营、财务成长、资产负债
•
公司因子:公司市值、股东集中度
•
股价因子:换手率、相对总体市场的波动性(β系数)、波动率
•
分析师投研因子:分析师评级
•
舆情因子:
可以看出,目前还是以公司财务指标为主,财务的初衷是了解企业的财务状况、经营成果和现金流量等方面情况。但正如吴晓波老师说过的
“你永远无法从财务报表中读懂一家互联网公司。”
那些过滤了公司方方面面信息的财务信息,在这个日新月异的时代,早已不能合适的刻画公司经营情况,更何况互联网+还改变了很多行业、公司的原有商业模式。之后我们将继续完善这些企业可量化指标、包括结合大数据根据不同行业逻辑构建的因子等。
那
这些公司信息因子排序能代表真实投资价值吗? 当然不行。
哈耶克论述过:“在社会科学领域中什么是事实性信息。当我们说‘某一特定种类的事实(a certain kind of facts)’的时候…这些事实究竟是因为其属于某一特定种类的事实而对于我们来说是给定的,还是因为我们采取了一种特定的方法来看待它们而使它们成了这样一种给定的特定事实。”对于公司基本面信息,当然也并不是如同一些自然界中的事实一样是给定的,那些信息对个人来说之所以可以理解,是因为我们能理解那些数字背后的含义。因此,每个人据以构建企业价值的那些要素始终是我们自己心智所理解的范畴内的,
证券市场汇集了各样的个人对市场价值的意见,在“看不见的手”的作用下对企业价值进行定价。
对于公司基本面信息,以前往往只有专业的投资人会去分析这些数据。在人工智能的帮助下,将这些分析能力已问答的形式提供给广大普通投资者,让数据为个人客户所用,从而帮助个人投资者更方便的构建自己的理性投资。