专栏名称: 量化投资与机器学习
公众号主要介绍关于量化投资和机器学习的知识和应用。通过研报,论坛,博客,程序等途径全面的为大家带来知识食粮。版块语言分为:Python、Matlab、R,涉及领域有:量化投资、机器学习、深度学习、综合应用、干货分享等。
目录
相关文章推荐
爱可可-爱生活  ·  恭喜@-_-BUG-_- ... ·  昨天  
爱可可-爱生活  ·  -20250310221422 ·  2 天前  
51好读  ›  专栏  ›  量化投资与机器学习

J.P. Morgan:AI for Investing(脱水解读)

量化投资与机器学习  · 公众号  · AI  · 2022-09-15 18:32

正文


量化投资与机器学习微信公众号,是业内垂直于 量化投资、对冲基金、 Fintech、人工智能、大数据 领域的 主流自媒体 公众号拥有来自 、私募、券商、期货、银行、保险、高校 等行业 30W+ 关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2 年被腾讯云+社区评选为“年度最佳作者”。

2022世界人工智能大会于2022年9月1日至3日在上海举办。世界人工智能大会自2018年以来,已成功举办四届。2022世界人工智能大会由国家发展和改革委员会、科学技术部、工业和信息化部、国家互联网信息办公室、中国科学院、中国工程院和上海市人民政府共同主办。

作为本届世界人工智能大会承办单位之一,数库科技于9月3日下午举办以“数无疆·智无界”主题分论坛, J.P. Morgan亚太地区量化策略负责人Robert Smith先生 发表了题为 《Big Data and AI Strategies:AI for Investing》 的主题演讲,Robert Smith分别从以下三个应用领域:信号生成、风险、最优化为大家介绍了如何运用人工智能进行投资。

Robert Smith先生进行远程主题演讲

以下QIML为大家独家整理的演讲实录精编!

为什么投资要用人工智能?

最简单的回答,是因为能够使用大数据。大数据在过去5-10年中为我们量化方法的带来了巨大的性能上的提升,也让我们在策略上取得了巨大的进步。我们通过解锁如此海量的数据

获取大量有效信号,当前我们恰好身处一个大数据比以往任何时候都更容易获取的时代,数据在我们的手机上、在云上它无处不在,而且它是一种更有条理,更紧凑的形式,也更容易传输。因此,当前人工智能技术起飞的另一个原因,就在于数据的可得性提高了。在下图中我们可以看到的最后一件事是: 人工智能使用的模型的复杂性要大得多,在大数据领域,模型的复杂性往往与更好的模型表现是正相关的。

在这里,X轴表示训练数据规模,Y轴表示模型表现。事实证明,如果模型具有足够的复杂性,那么你在训练中使用的数据越多,模型表现就越好,这就是我们在右边展示的内容。换一种说法,如果你使用线性回归,可能是最简单的统计优化模型之一,在达到一定数据规模后,你的模型表现可能会达到顶峰。但事实并非如此,当你在神经网络上运用深度学习时

这些更复杂模型的非线性性质,能够帮助你获得更多性能。随着你添加的数据越来越多,你能够从模型中提取更多的性能。所以,正如我已经说过的, 数据至关重要!

什么是大数据?

在很多人的直观理解中,大数据中的这个“大”字,代表数据的容量很大。其实大数据的特征,包括了三个V:

  • 即容量(Volume)

  • 速度(Velocity)

  • 多样性(Variety)


容量(Volume)是三大特征中的一个;速度(Velocity)是另一种重要特征,它代表了数据进入和到达你面前的速度;第三大特征是数据的多样性。

它的结构有多少种不同的形式?是结构化的还是非结构化的?我们希望能够实时地理解这些信息,以便能够将其应用到投资中。我习惯把数据分为三类:

  • 第一类是个人的数据

  • 第二类是企业的数据

  • 第三类是来自传感器的数据

个人的数据,举例来说,可以从社交媒体中获得;企业数据可能包括销售数据,销售产品评论,或交易数据等;传感器数据可能是来自卫星图像的数据。在任何情况下,我们要做的是试图将这些数据纳入我们的投资过程,我们真正要做的,是跑在传统数据的前面。

今天我要谈的就是如何运用人工智能进行投资,并且我会从以下三个应用领域来介绍:

  • 信号生成

  • 风险

  • 最优化

如何建立人工智能信号来告诉我们哪个资产。例如股票中,我们最喜欢哪支股票,一旦我们有了所有股票的信号,我们就可以对它们进行排名,我们可以看看我们最喜欢哪支股票。

但于此同时我们会考虑风险,比如我们的投资组合有多大的风险、我们希望它有多大的波动性、什么样的宏观事件是我们可能希望避免的等等。在投资组合中,哪些股票特有的风险也许是我们可以最大限度地降低的,这就是在风险方面的考量。最后,最优化是至关重要的。

我们的交易额是多少、交易成本和市场影响又是多少等等。因此当我们使用人工智能时,我们确实需要使这一过程更加高效,现在让我们在旧数据上使用新技术来创建信号,同时我们也在新数据上使用旧技术。

当我们谈论人工智能时,我们通常使用的是大数据和机器学习的技术来打造更好更稳健的量化策略。 以上就是关于这个主题的概述,接下来,我们聊聊信号生成。

信号生成

举两个例子,一个例子是关于使用自然语言处理来阅读文本来建立投资组合和进行交易,它们是如何跑在传统数据前面的。

在我们开始之前,先来看看机器是如何投资主题的。

首先,机器必须以一种它可以理解并且我们可以与之交互的格式来表示词语和概念。如果你回到20年,30年,甚至40年前,自然语言处理的原始方法就是使用这样的语料库。

例如,如果我想表示西班牙,在四个单词的字典中,西班牙的编码可能是0100,这是一个矢量编码,不是很简单,但也不是很有用,因为它做不了什么。更有趣的是,当我可以开始创建词语之间的关系时,它为我提供不同词语如何相互作用的丰富性。例如,马德里之于西班牙就像巴黎之于法国。机器学习的这些维度是相当模糊的,它们可能与大陆、国家或城市有关,这些词语中的每一个,都在这一维度上有所指示,但我们并不真正知道,也不真正关心,因为我们真正感兴趣的是:这些词语相互定位的方式,然后我们可以对模型进行一些有趣的询问,我们可以问它问题,西班牙减去马德里再加上巴黎是什么?答案是:法国。

这是一个相当简单的例子,关于首都城市和国家的,但当你训练机器去阅读股票报告和电话会议记录时它会变得更好,更有趣。然后它可以帮助我们建立对这些公司之间关系的理解,我们可以用它来探索供应链和同行竞争对手,以及一切我们能够在模型中找到的不同公司和股票之间各种有趣的联系。

这带来了一个重要的观点,或者说我想真正强调的观点: 你喂给机器什么材料来学习是最重要的一件事!

如果你希望拥有一个人工智能,希望它能够在金融领域进行思考、推理或者使用逻辑,那么你就应该喂给它金融相关的文本。作为它的学习材料,在我们的案例中,我们使用了J. P. Morgan分析师撰写的报告,这些报告都是10多年以前的,我们有100多万份报告,我们可以训练机器对观点进行分类,并对金融词汇和用语进行总结。

这一过程是完全专注在金融领域的,因此我希望英语中的“driver”一词,指的是催化剂或推动股价的驱动因素,而不希望它是指汽车司机,我不想让它代表与运输相关的任何含义,关于一个词语的意义。人工智能对于它的涵义可能产生相当不同的结果,而这取决于我们喂给机器什么样的学习材料。另一个经典的例子就是“超重”这个词,如果我问机器,它认为有哪些词语应该与“overweight”这个词联系在一起。在阅读了J. P. Morgan的报告后,AI返回的结果是:它将与“看涨”、“累积”和“做多股票”等词语联系起来,然而,如果是在新闻或者非金融的语境中“overweight”则更可能与“肥胖”或体重相关的词汇关联,通常是指体重过重,而这不是我们想要的。因此,我们希望能够训练和使用我们的机器,我们必须提供给它正确的信息。

在这里我们可以有一个结论: 就是有时我们会发现人工智能学得很差,甚至学错了,这通常是数据的问题,要么没有足够的数据,要么不够多样化。所以实际上没有足够的数据可供机器恰当地学习。

有个很好的例子,是关于词语“strong”和“weak”。我们知道它们一对反义词,但如果它只是阅读分析师报告,一位分析师写一家公司取得了“strong”的业绩,另一个分析师写另一家公司取得了“weak”的业绩,这并不足以让机器知道“strong”和“weak”是两个含义不同的词语。所以我们能做的我称之为脑外科手术,你可以将信息注入人工智能学习的语言模型。例如,在二维空间中我们有这样一个问题,所有这些词语都被归为一类。第三个维度中,“strong”和“weak”不应该被分在一起,我们可以注入一些元数据将这些词语很好地分为正面词语和负面词语,重要的是你要找到正确的元数据。在我们的案例中,我们可以问这样一个问题:“strong”这个词在我们的看涨报告和看跌报告中分别出现了多少次?“weak”这个词在看涨和看跌报告中分别出现了多少次?这可能是一个简单的例子,你可以注入一个新的维度,瞬间你就有了一个更强大的模型。我们还可以注入其他维度,如关于一个词语的新近性,一个主题如何随着时间的推移而演变。现在我们已经讲了如何帮助机器去分析一个数据集的基础要点, 接下来我们来谈谈如何使用自然语言处理技术。

如何使用人工智能进行主题投资?

有一件事需要提一下,不是所有的主题都是一样的。有一些主题我们认为是结构性主题,如ESG、无人驾驶汽车、加密货币等主题。但更多的是战术性主题,如关于通胀、利润率或供应链问题的主题。我们需要用不同的方式来处理这两类主题,围绕这些主题的一个重要信息是情绪,提到它的文本是什么情绪,是积极的还是消极的,这一点我们后面马上会展开讲。如果我们通过一段时间追踪一个主题,我们可以观察到一些信息,相对于历史,它的未来趋势如何、噪音、新闻、信息量有多大等。

左图是关于通货膨胀的主题,你可以看到在过去的一年里,特别是过去的6个月里,关于通货膨胀的新闻大幅增加。同样在右图,我们有关于经济衰退的主题也出现了上升。但奇怪的是,它没有达到2020年二季度那么高的水平,新冠疫情开始成为一个全球普遍关注的大事件,当时市场上有很多关于经济衰退的恐慌,我们可以追踪这些信息了解事情是如何发展的。







请到「今天看啥」查看全文