专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
黄建同学  ·  分享一个Manus的体验总结↓AI技术的发展 ... ·  8 小时前  
新智元  ·  讯飞星火X1单挑满血版DeepSeek-R1 ... ·  2 天前  
爱可可-爱生活  ·  【[122星]Wan2GP:让普通GPU也能 ... ·  2 天前  
51好读  ›  专栏  ›  新智元

【老炮儿白硕创业了】CCIR阡寻科技聊知识图谱和NLP如何落地金融

新智元  · 公众号  · AI  · 2017-07-18 08:58

正文

1 新智元报道


来源:阡寻科技


【新智元导读】 阡寻科技(Chancein)成立一年多,由东吴证券与中国证券市场及自然语言领域泰斗级人物白硕先生所率领的团队共同发起设立。 全国信息检索学术会议上,阡寻科技执行董事、总经理熊昊博士在大会做了《Chance in 阡寻-让知识对接价值》的主题演讲,介绍了知识图谱和NLP在金融行业的落地。


2017年7月12日~14日,第二十三届全国信息检索学术会议(简称CCIR2017)在上海市召开。中国中文信息学会主办的每年一次的“全国信息检索学术会议”(CCIR)系列, 已成功举办过9届,是国内信息检索领域最主要的学术活动之一。


会议上,阡寻科技执行董事、总经理熊昊博士做了《Chance in 阡寻-让知识对接价值》的主题演讲。熊昊博士结合技术、产品及应用领域,介绍了通过自然语言处理和知识图谱等人工智能技术,在金融领域的产品以及实现场景的落地情况。



NLP+金融界老炮儿白硕创业了,踩过坑才知道痛点


阡寻科技(Chancein)于2015年12月成立, 一家专注于金融科技领域的人工智能公司, 由中国证券市场及自然语言领域泰斗级人物白硕先生所率领的团队共同发起设立,公司创始人及高管团队多拥有博士学位。


白硕现任阡寻科技董事长,曾任中科院计算所研究员、博士导师、软件室主任、软件方向首席科学家。2002年任上海证券交易所总工程师。同时白硕是新智元智库专家之一。新智元就创业和金融+AI技术等问题对白硕进行了专访,如下:


新智元 :您为什么在这个时期选择创业?


白硕 :之所以选择创业是多种因素的交汇的结果,这段时间既是中国创业氛围最好的时期,也是人工智能大有用武之地的黄金时期,更是我个人在技术和业务方面的丰富积累互相交融渗透、产生大量想法的时期。我和阡寻科技的其他创业伙伴们对此一拍即合。


新智元 :现在做金融知识图谱的公司越来越多,阡寻的知识图谱及其相关产品有什么优势?


白硕: 真理被大家认识到只是时间问题,我们绝不把希望寄托在“众人皆醉我独醒”上,这既不可能也不现实。


我很高兴有越来越多的公司认识到知识图谱对于金融基本面分析的重要作用,这既验证了我们的判断,也从一个侧面肯定了我们的前期努力。


但是认识到应用知识图谱是一个正确的方向是一回事,在一个个领域中耕耘细节,精准把握分析师最核心的静态知识关联和动态事理推理路径是另一回事。


此外还有自然语言处理和知识图谱对接这样一个受到人工智能界普遍关注的技术挑战在里面, 无论在领域知识方面、产品方面还是技术方面,都有很多很多的坑,真正踩过了才知道痛点。


新智元: 熊昊博士在演讲中举例,通过AI系统通过自动收集橡胶相关新闻,竟然成功预测了橡胶的涨跌,这个例子让人印象深刻。如此智能,是不是说明NLP在金融领域达到了人类水平?从现有数据上看,阡寻预测成功了多少案例,有没有一个成功率的指标?


白硕: 重大事件的基本面分析往往都是个案驱动的,其在现实生活中发生概率本就不高,再被系统完整捕捉到,就意味着相应的领域知识及其关联和推理方面准备必须非常充分。


目前供实验研究用的测试集的积累还很不足,在这种情况下谈指标有点奢侈。这里必须有一个大规模资源建设的过程,而资源建设全面铺开需要大量投入,这不是一个初创公司能够马上做起来的。


我们一方面要把公司经营行为、资本运作行为这类领域无关共性事理先做好,另一方面也在有序推进领域相关的资源建设, 期货、化工、汽车是我们目前在资源建设上相对聚焦的领域, 因此在橡胶事件中,与这几个领域有直接关联的推理链条被完整捕捉下来。随着领域知识图谱的资源建设进一步铺开,阡寻科技的产业链推理功能还会被进一步放大,产生更加靓丽的表现。


以下是熊昊博士的演讲内容。



金融遇上知识图谱和NLP



全球范围内,包括中国BAT等各大互联网公司都在研究自然语言处理、知识图谱和深度学习,行业目前正在争夺落地场景。阡寻让金融遇见知识图谱和NLP技术。

知识图谱作为一种大规模的知识表示形态,其核心是以图的方式存储知识并向用户返回经过加工和推理的知识。

其中行业知识图谱是数据分析从简单的量化模型走向更为复杂的价值判断和风险评估必经的一环,是把专家经验和实体关系逐步变成可重用、可演化、可验证、可传播的知识模型的方法。

对金融领域,事件的发生是有征兆的,通过对事件进行捕捉形成事理推理型的知识图谱,以描绘事件发生的顺承关系和因果关系。

据熊昊博士介绍,阡寻构建了证券领域的实体知识图谱库和事理知识图谱库。与推理引擎的相结合,形成了一个可解释、可追踪的分析体系,从而对市场上实时发生的各种事件做即时投资分析和风险预警。与此同时,在风险征兆预警方面,不仅能告诉用户危险了,还能阐明什么征兆积累到了什么程度,可能引发什么后果。

基于对金融行业的理解,他们建立了事理知识图谱,其描绘了金融事件发生的顺承关系和因果关系。运用自然语言理解、自然语言生成技术、语义分析技术对金融领域的新闻、研究报告、上市公司的公告进行分析,生成自动文摘和研究报告和机器自动写作。

自然语言处理技术,目前是人工智能进行场景落地时的一大难点重点。在面对不同领域不同场景时,需要大量的领域背景知识以提高语义分析的精准度。自然语言理解,是阡寻多个产品的重要触发源解析的关键。阡寻科技的产业链知识图谱,不仅在沿图谱进行智能推理时起到决定性作用,还能大大提高金融领域自然语言理解的准确度。

大众的情绪对金融市场有影响吗?有,通过对新闻、评论等文本中的主观性信息进行分析,来挖掘其态度和情绪。这就是情感倾向性分析和观点挖掘,也是NLP研发的内容之一。


除了互联网常用的词典,阡寻科技在金融领域长期积累了一批独有的词典,包括金融本体库,程度副词词典,以及情感词典等等。在对互联网文本进行分词、词性标注、命名实体识别、依存句法分析后,定义相应的情感计算规则来量化文本对某实体的情感倾向性。


网上资讯如何转化成“真金白银”



根据熊昊博士介绍,阡寻科技的产品蝴蝶投研,会基于市场和经济知识,沿产业链知识图谱对市场上发生的各类事件进行即时推理分析。蝴蝶投研首先自动采集新闻,通过自然语言理解将事件导入系统,然后结合行业产业链、知识图谱和推理决策系统的推理体系,运用机器语言将其翻译成自然语言,输出结论,自动生成影响、分析报告。


以橡胶期货的关键事件为例。


系统捕捉到四个关键事件,分别为:2016年2月半挂牵引车由负转正、青岛保税区天然橡胶库存下跌、天然橡胶主要产地泰国爆发特大洪水和合成橡胶价格倒挂。首先是从重点网址上捕捉到新闻,然后利用自然语言技术从此类新闻中解读关键属性,将各个关键属性输入系统处理引擎,并得出结论。通过对历史事件的回测来完善、验证系统。

2016年2月,蝴蝶投研系统采集到2016 年1月份半挂牵引车有关销量的新闻。


系统经过深度学习技术和自然语言处理的语义挖掘和分析文字含义相关技术,截取到关键字“2016年1月”“半挂牵引车”“销量”“同比增长”“18.62%”,输出需要推理分析的事件:“2016 年1月份半挂牵引车销量同比增长 18.62%”。

通过调动智能研究调度器的推理决策模型,进行数据分析推理,输出结论:


在1月份销量同比涨幅18.62%之前,半挂牵引车持续一年处于0 或负增长状态,中国的基建,货物的运输特别是大宗商品的运输都离不开重卡,所以重卡销量一直被市场当做是中国经济周期回升的先行指标。该消息的出现意味着中国经济基本面出现止跌回升态势。同时利好重卡上市公司,如A股的中国重汽、福田汽车、港股的为财动力、中国重汽。








请到「今天看啥」查看全文