专栏名称: 量化投资与机器学习

公众号主要介绍关于量化投资和机器学习的知识和应用。通过研报，论坛，博客，程序等途径全面的为大家带来知识食粮。版块语言分为：Python、Matlab、R，涉及领域有：量化投资、机器学习、深度学习、综合应用、干货分享等。

半鞅的『机器学习』世界

量化投资与机器学习 · 公众号 · AI · 2025-01-09 18:58

正文

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、金融科技、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业 40W+ 关注者，曾荣获AMMA优秀品牌力、优秀洞察力大奖，连续4 年被腾讯云+社区评选为“年度最佳作者”。

量化投资与机器学习公众号独家出品

何为半鞅？

一个定义在带域流的概率空间 的实值随机过程 被称为半鞅。

用更加通俗易懂的话来说就是： 金融定价理论中的布朗运动和莱维过程都是半鞅，半鞅是最大的无套利随机过程，超过半鞅以外将存在套利的空间。

很多量化私募会以数理概念或定义来命名自己， 半鞅私募基金 （以下简称“半鞅”）就是其中之一。半鞅希望 通过量化技术获得市场中的套利机会，推动金融市场不断逼进半鞅。

早在2017年，半鞅就开始探索机器学习在金融领域的应用，成为国内最早一批将这一前沿技术引入量化投资的团队之一。

半鞅在创立之初，其主要集中于技术积累与研究工作，因此并未立即注册备案，而是花费了近两年的时间构建独特的底层技术架构和投资逻辑框架，这种与传统机构完全不同的路径使得半鞅能够专注于技术的创新。加上 多策略 分散化的策略理念，使得半鞅在过去几年中，即使在市场波动较大的情况下，也依然保持了平稳的业绩表现。

近日，量化投资与机器学习公众号（QIML）采访了 半鞅的投资总监王芹女士 ，我们将 通过Quant的视角 ，为大家解读不一样的半鞅。

机器学习在量化投资中的应用

对于这个问题，QIML 从创立至今，就采访过很管理人，而大家的回答也各不相同。现如今，随着软硬件的提升和大模型的涌现，当我们再次问起这个问题时，想必大家会有和10年前不同的答案，半鞅亦是如此。

▌在股票和期货策略研究中，机器学习的使用有哪些不同？

在这两者的研究中，最大的区别主要在于 数据源 的不同。

股票的数据比较丰富，例如包括快照、逐笔委托和逐笔成交等。而期货的数据主要来源于交易所提供的500毫秒级切片数据。正因如此，当构建模型时，我们够捕捉到的数据量与信息是完全不同的。

说到这里，我们提出了一个疑问—— 但对于传统的量价数据，如果大家都基于此做因子挖掘，势必会出现一些同质化或者失效、拥挤的情况 ，对于这一点，王芹总给出了不一样的回答：

目前半鞅的 股票端完全拥抱量价数 据，没有使用任何其他类型的数据。

例如你在因子加工端，假设我们与另外一家管理人的因子集或者特征集90%是重叠的，那么，无论后端我们怎么去设计模型，其实都很难学出不一样的东西。原因在于这样的因子本身就自带了很强的信息量，它会引导模型去往该方向收敛，所以大家训练出来的结果与别人训练出来的结果差异性就会特别小。

早在4-5年前，半鞅就发现这个问题，也正因如此，便着手开始构建构属于半鞅的端到端策略模型框架。

其中的一个动作就是 把前面的因子端完全拿掉，半鞅希望喂到模型里的数据是一些简单原始的线性变换， 这也是为什么目前半鞅并没有大规模使用其他类型的数据。正因如此，在同一时期如果大家去比较不同管理人的业绩曲线，你就会发现半鞅的不同。

▌ 机器学习如何改进传统因子模型的不足？有哪些具体的实战案例？

传统因子模型通常假设因子与收益之间存在线性关系，但市场中许多非线性关系无法被捕捉，限制了模型的表现。机器学习通过强大的非线性建模能力，可以有效挖掘复杂的因子关系。同时，传统因子模型依赖人工筛选因子，效率低且容易受到主观偏见的影响，而机器学习能够自动处理大规模因子库，快速筛选出重要因子，显著提升效率。此外，传统因子模型基于静态逻辑框架，难以适应快速变化的市场环境。相比之下，机器学习模型能够动态调整权重和结构，更及时地响应市场变化，从而优化因子的组合效果，提升投资策略的整体表现。

王芹总给出了一个她当年的心得体会：

在2017年，她自己建立的因子库已积累超过1000个因子，当他们对这1000+个因子通过机器学习后发现，仅需简单叠加两层神经网络，就可以捕捉到这些因子的核心信息，这让他们深受鼓舞与启发。

▌ 如何看待端到端的机器学习策略？比如原始数据直接到股票权重，还是会结合传统的金融投资理论？

端到端的机器学习策略，即直接从原始数据生成股票权重，是量化投资领域中备受关注的一种方法。这种策略通过减少人为干预和模型流程中的中间步骤，展现了高效和简洁的潜力。然而，在实际应用中，端到端策略尚未完全取代结合传统金融投资理论的模型，原因在于它既有显著的优势，也面临现实中的挑战。

半鞅目前并没有把所有的策略都通过端到端生成股票权重，原因有两点：

1、如果直接生成到股票权重，那么样本的多样性就会有很大的牺牲。例如你只需300只股票，最终我们得到的就只有300只股票的权重，这也就意味着剩下5000多只股票的多样性就会被埋没，这对于模型的泛化能力是一个很大的损失。

2、目前整个量化产品线是非常多元化的，这就要求其风控也是要多元化的。在应对不同的风控要求或推出新产品时，端到端模型通常需要重新进行大规模训练，这增加了很多开发和应用的成本。

因此，在实际应用中，端到端策略通常会与传统金融理论相结合使用。模型通过生成交易信号，交由优化器结合传统的投资约束（如风险分散和行业分布）处理，从而生成最终的股票权重。这种“技术与理论结合”的方式既发挥了端到端模型的数据处理能力，也保留了传统理论的指导价值。

▌如何平衡因子的可解释性及因子多样性？

对于这个问题，也是业内十分关注的一个话题。

在半鞅看来，他们并没有过多关注因子的可解释性，因为半鞅所做的机器学习模型与传统的多因子框架是两个完全不同的概念。前文也提到过，半鞅喂给机器学习模型的数据都是原始数据的简单变换， 半鞅在乎的是数据量纲的匹配与时序的平稳性。

反过来说，如果 从样本多样性 的角度来看，经历大的波动行情其实对机器学习模型是有益的，因为我们可以让模型看到更多样的数据，以后再遇到类似数据时会更加从容。同时，我们只要 保证数据来源和变化方式的多样性，模型会自行判断数据的价值，而无需过多地从可解释性的角度去考虑问题。

最后在模型上线之前，半鞅也会在内部对模型的可解释性进行拆解，但这种拆解也有别于多因子框架，他们的目的很简单，就是清楚模型在什么市场环境下适应，在什么情况下可能面临压力。

如果我们一直用多因子框架的角度来思考这个问题，有时会难以接受。因为 从本质来说，机器学习模型和多因子框架是完全不同的两条赛道，技术壁垒也是不同的。

▌ 实盘过程中，如何应对市场风格切换导致的失效风险？

半鞅回答的核心主要是以下几点：

1、多策略的优势；

2、异常情况下的模型定制化；

3、 坚定提升日内收益率占比 ，降低对风格切换的依赖和影响。

对于第三点，半鞅认为极其重要，因为你的收益不是因为你偏离在某一种风格上面赚到的！

▌ 对于短周期日内策略，如何平衡换手率与交易成本？

对于每一笔交易，只要你的预期收益大于预期成本，交易便具备执行价值 。

因此，半鞅的策略优先提升模型对市场变化的 预测能力 ，确保每笔交易都有足够的利润空间。尽管单笔交易可能收益有限，但通过高频次的交易累积，使得策略能够实现整体的高收益。

此外，半鞅也注重交易成本的精细化管理，例如通过优化执行算法降低滑点等方式，从而进一步提升策略的盈利能力。这种以预测精度为核心，辅以成本优化的方式，确保了短周期日内策略在高换手率的情况下依然能够保持稳健的盈利表现。

▌ 如何看待机器学习在量化投资中应用的天花板？

对于技术的迭代，还有很长的路要走，未来还是一片蓝海！

这是半鞅给出的答案。

原因是目前的应用主要集中在深度学习和基本的模型优化，而更前沿的技术如强化学习和生成式模型在量化领域的普及度仍然较低。

在半鞅看来，AI只是一个工具，一个用来赚钱的工具。关键是不要陷入另一种固定思维，反而被局限，而是要真正做到“为我所用”。在这个市场中， 最终的竞争可能还是对投资的深刻认知。

技术架构与差异化优势

除了机器学习，QIML还对大家关心的 技术、风控与投研 进行了采访，让我们看看半鞅是如何回答的。

▌ QIML了解到半鞅专门为量化投资场景打造了一个大数据平台。为此，QIML好奇的点在于，其 自主研发的大数据平台与其他市场通用的方案相比，性能提升的关键点在哪里？

王芹谈到，在半鞅在初期，他们就测试了市面上几乎所有的开源数据库平台，但金融数据是一种有状态的流数据，从交易所到平台，其历史数据是不会被更改的。也因此通用数据库的功能对于其半鞅来说是不实用的。

根据半鞅的实践经验，如果是做日频的交易策略，实际上开源的工具就足够了。虽然可能会带来一些复杂性，带来一些时间损耗，但这对于日频策略的损耗其实是有限的。

但如果做更加快速的预测，例如分钟级别或者毫秒级别等，此时的开源工具就会给模型带来很大的

半鞅的『机器学习』世界

正文

请到「今天看啥」查看全文