近期DeepSeek系列开源大模型凭借低成本高性能的优势,引发全球关注。随着大模型训练和推理成本的快速下降,在投研场景下运用大模型技术对关键步骤进行赋能的可行性也在不断提升。当前,如何将大模型深度融入投研工作以提高投资决策的效率和质量仍然处在探索期。本文将梳理大模型的发展路径、关键技术和面向金融领域的应用案例以供参考。
-
随着模型能力的不断提升以及模型训练成本的不断降低,AI大模型的应用范围正在不断扩大。
-
Deepseek R1模型在性能和价格上的优势使其成为日常工作的最佳选择之一。R1蒸馏系列模型可以在本地较低的硬件条件下进行部署并满足简单的日常工作,14B参数以下的蒸馏模型可能存在明显的指令理解问题,建议部署14B以上的模型。
-
通用大模型在金融场景下的表现可能并不能达到预期,因此需要面向金融领域的大模型。金融大模型可以通过重新在大规模金融语料训练得到,也可以通过在通用大模型的基础上利用LoRA等高效的微调技术进一步微调得到。
-
预训练的大模型存在知识局限性且存在幻觉,思维链(CoT)和检索增强技术是大模型获取新知识,提高逻辑推理能力并减轻幻觉的关键。
-
AI Agent是基于大模型的AI应用主要方式之一。多Agent系统通常能够比单Agent系统体现出更多的智能。
-
在主动投研场景下,大模型可以模拟人的角色提供投研决策支持。例如,研究表明基于不同分工角色的多智能体系统通过相互协同产生投资决策的框架展现出优秀的绩效表现。
-
在量化投研场景下,大模型可以帮助量化研究提高因子挖掘效率。例如,以LLM为核心的人机交互的因子系统可以快速将量化研究员的想法转化为因子并评估其表现。
*风险提示:
AI大语言模型技术发展迅速,结论存在失效的可能性。
1948年香农发表开创性的论文《A Mathematical Theory of Communication》,首次在论文中提出了信息熵的概念,
并通过统计方法研究英语文本的冗余度,引入了预测下一个字符概率的思想
,这一思想也奠定了语言模型的理论基础。从1948年开始计算,语言模型已经发展了70余年。图1中展示了语言模型的主要技术演进路线。
从按照语言模型的演进路线来看,主要分为四个阶段:
-
统计语言模型时代(1948-2012)
, 安德烈·马尔科夫(Andrey Markov)在1913年首次将马尔科夫链应用于语言分析,通过研究普希金的《叶甫盖尼·奥涅金》中元音和辅音的转换序列,开创了用概率模型处理语言序列的先河。这种处理方法后来发展成为了N-gram模型的理论基础。1976年,Frederick Jelinek等人在语音识别研究中首次系统地提出并应用了统计语言模型,通过N-gram模型来计算词序列的概率,这标志着现代统计语言模型的正式诞生。
-
神经网络语言模型时代(2013-2017)
,Bengio等人在2003年提出通过神经网络实现词的分布式表示的方法,开创了深度学习在自然语言处理领域的先河。2013年,Mikolov等人提出Word2Vec,通过高效的训练方法获得词向量表示,极大推动了词嵌入技术的发展和应用。这一时期的主要贡献是解决了传统统计语言模型中的维度灾难问题,实现了词的低维稠密表示。
-
Transformer革命时代(2017-2019)
,2017年Google团队发表了里程碑论文《Attention is All You Need》,通过自注意力机制取代了传统的循环和卷积结构,实现了更高效的并行计算和长距离依赖建模。这一创新引发了预训练语言模型的第一波发展浪潮。这一阶段的主要成果主要以BERT和GPT为代表。BERT采用双向编码器架构,通过掩码语言模型(Masked Language Model)和下一句预测(Next Sentence Prediction)两个预训练任务,在多个自然语言理解任务上取得突破性进展。与此同时,GPT采用单向解码器架构,通过自回归语言建模进行预训练,在生成任务上展现出强大能力。
-
大规模预训练模型时代(2020-至今)
,以GPT-3的出现为标志性事件,该模型首次将参数规模扩展到1750亿,展示出显著的few-shot学习能力,验证了"规模即智能"的可能性。这一时期的发展特点是训练范式的演进,从基础预训练发展出指令微调和人类反馈强化学习(RLHF)等更复杂的训练方法。在开源生态方面,以LLaMA、Qwen和DeepSeek为代表的开源大模型推动了社区创新,同时带来了架构优化、训练效率提升等技术创新。模型能力也实现了质的飞跃,在上下文理解、推理能力、代码生成和多模态理解等方面取得重要突破。表1中展示了大模型技术发展的主要阶段。
以ChatGPT应用的火爆为标志,大语言模型逐渐从实验室阶段开始进入商业应用阶段。而随着模型能力的不断提升以及模型训练成本的不断降低,AI大模型的应用范围正在不断扩大。
在当下的时间节点,国内外的大模型已呈现出百花齐放的状况。从整体表现来看,大模型在不同类型的数据集上的表现已经接近人类的表现,有部分数据集甚至超过人类的表现。
从图2中SuperCLUE给出的测试基准 的历史数据来看,国内外主流的大模型综合评分从2022年以来整体呈现出不断上升的趋势,这说明模型不同维度的能力正在不断提升。OpenAI在基准测试中整体保持了领先的优势。国内的大模型例如DeepSeek-V3仍有一定差距(随着2025年1月20日DeepSeek-R1正式发布,根据最新的Chatbot Arena LLM Leaderboard 的综合得分来看,R1的综合表现与OpenAI-O1接近)
图3展示了国内外主流大模型在SuperCLUE 定义的通用能力和应用能力(编码、搜索、特定行业信息理解等)方面的综合表现。
AI大模型当前正处于快速发展的阶段,上述的得分排名仅代表特定时间节点的表现,2025年大模型之间的竞争更加激烈。但还是可以得出两点结论:
-
大模型的各方面能力都在持续提升;
-
国内大模型的能力与国际一流模型处于同一梯队。
虽然国外大模型在综合性能表现有小幅的优势,但在涉及自主可控、信息安全的领域,国内大模型可能是更好的选择。图4展示了2024年值得关注的中文大模型图景。
大模型的性能表现是最重要的指标,但在大规模应用落地的过程中,成本也是重要的考虑因素,不过令人鼓舞的是随着AI算法的不断升级,大模型的成本也在快速降低。如图5所示,根据Semianalysis 的测算,过去几年,每年AI算法效率提升约 4 倍,这意味着要达到相同的能力,所需计算量每年减少 75%。如图6所示,根据Latent Space测算的LMSys Elo得分的成本曲线得分来看,截止2025年1月,
过去3个月OpenAI-O1水平的模型使用成本下降了27倍。OpenAI-GPT4水平的模型在过去1.5年内下降了1000倍
。
图7中展示了当前Artificial Analysis根据不同大模型在MMLU,、GPQA、MATH-500、HumanEval等数据集上的表现得分计算的平均分作为模型质量指数的结果与模型价格的比值的散点图。从图中的结果来看DeepSeek-R1与OpenAI-O3-mini的性能/价格比最高。OpenAI-O1在与DeepSeek-R1输出质量接近的情况下成本过高。
在上述章节中,本文回顾了大语言模型的技术发展历程。当前大模型的技术主要以Transformer结构为骨干网络,通过Pre-Training – Post-Finetuning的范式获得在不同场景下都能符合预期的大型语言模型。在当前时间节点,大语言模型在不同领域的能力(文本理解、编程、数学、推理等)正在快速提升,同时成本也在快速下降,这为AI应用的普及提供了可能性。在下一章节中,本文将重点聚焦对当下大语言模型在金融场景/投资研究领域的应用如何落地进行探讨。
利用大模型的能力的前提是接入大模型。通常接入大模型通常有两种方式,一是通过ChatBot形式交互,例如ChatGPT,DeepSeek等都提供了以文本对话为主要形式的交互方式,适用于基础的日常工作。二是通过API接入,这种方式更具有灵活性,可以嵌入各种工作流和Agent之中,适用于更加定制化和复杂化的场景。
为了构建定制化的AI应用,ChatBot这样的交互方式在与其他模块进行集成的场景下就显得捉襟见肘。本文主要探讨通过API交互的方式。当前国内以DeepSeek为代表的大模型性能表现不俗,成本相比于OpenAI等国外厂商也具有一定优势,在大模型选型的时候主要考虑国内的大模型。
图8展示了OpenAI主推模型O3-mini-high,O1与国内主流模型的LiveBench 得分的能力圈对比。其中DeepSeek-R1为DeepSeek开发的模型,Qwen的开发厂商为阿里巴巴,Step为阶跃星辰,GLM为智谱,Ernie为百度,Hunyuan为腾讯,DeepSeek-R1-distill-qwen-32b为DeepSeek利用Qwen模型蒸馏得到的模型。总体来看,O3-mini-high得分最高,然后是O1,其次是DeepSeek-R1以及Qwen-Max-32k。
图9展示了OpenAI的主推模型与国内主流模型的API调用价格对比(汇率按照7.3计算)可以看出o1虽然性能突出,但成本远超其他模型,o3-mini的价格则与国内模型基本处于同一水平,
综合性能和价格,国内大模型中DeepSeek-R1仍然是首选,Qwen和GLM同样值得考虑
。
使用官方API方便简单在日常研究中可以比较好的满足需求,但是在涉及到数据隐私安全和定制化的需求(后期训练和微调)的时候,本地部署开源的大模型可能是更好的选择。开源的大模型中相对主流的有DeepSeek系列、阿里的Qwen系列、Meta的Llama系列等。
在本地部署大模型已经有比较成熟的工具可用,当前主流的本地模型部署框架主要是vLLM和Ollama,两个框架都有一定的优缺点。表2展示了两个框架的一些特性对比。对于个人用户来说,Ollama框架简单易用,可能更适合一些。另外,LLM Studio 提供了集成的桌面UI和本地API接口也是一个不错的选择。
这里以DeepSeek开源的蒸馏模型为例,展示本地Ollama部署的结果。表3中展示了利用R1蒸馏的一系列小模型和完整R1的部署硬件要求。这些小模型按照参数规模从1.5b到70b能力越来越强,需要的硬件资源也最多,761B的R1为“满血版”DeepSeek-R1综合能力与OpenAI的O1模型接近,部署难度也最大。
本文按照Ollama框架本地部署DeepSeek-R1不同参数的蒸馏模型并简单对比。表4中展示了本地部署 的R1蒸馏模型的资源占用和输出速度。受限于显存大小,本地最大可以运行32b参数的模型。37 token/s的速度较为理想(>10 token/s可以日常使用)。
本文在测试中发现1.5b模型在指令理解方面存在比较明显的缺陷,7b模型在规范的prompt格式下能够理解指令。推荐本地部署14B以上的版本。图10和图11中展示了1.5b模型和32b模型在文言文翻译任务中的输出结果。
本节分析了当前国内主流模型与OpenAI主流模型在LiveBench测试中的表现和API价格对比,总体来看Deepseek-R1以较低的价格达到接近openai-o1的能力水平,在日常工作中是一个比较好的选择。同时,在对API稳定性、数据安全和模型后续可微调有要求的场景下,本地部署大模型是更好的选择。
本文利用Ollama框架在本地环境中部署了Deepseek-R1利用开源qwen模型蒸馏的版本,包括1.5b到32b的模型。在简单测试中发现,模型主要依赖显存运行,
更大的GPU显存是支持部署更大模型的主要条件之一
。同时本文发现7b及以下的模型可能存在比较明显的指令理解问题,
在投研工作中,14b以上的模型可能是更佳的选择
。
在投研场景下大模型与人的协同也遵循AI应用的主流范式,主要包括三类:
-
Embedding模式,人类作为决策者和指挥者,例如报告撰写中人通过prompt模板来进行自动化的图表生成,AI作为工具执行人的命令。
-
Copilot模式,人类与AI作为合作者,例如程序代码的自动生成、错误检查和性能优化,在 这一模式下AI的知识与人的知识形成互补,共同完成工作目标。
-
Agent模式,人类为AI设定工作目标并提供必要资源(计算能力、相关数据等)并监督和评估AI的工作结果,AI通过拆解目标,规划过程,选择工具,完成大部分的工作。投研Agent系统可能是未来大模型在投研场景中应用的主要范式之一。
当前大模型已经具备参与投研工作流的各个环节的能力,在本章节中本文将结合当下的相关实践来探讨AI大模型的在投研工作中应用方式。
面向金融领域的大模型相比于通用模型的特点是在金融领域的特定任务上的关注度更高,对于金融知识、金融文本理解、投研应用等领域的能力有特化的要求。
SuperCLUE等提供了大模型在不同金融场景下的表现的基准测试项目,表5中展示了不同类别的测试包含的测试内容。此外PIXIU 项目也提供了较为全面的金融领域任务的基准测试。基于这些金融领域的基准任务测试,我们可以比较全面地了解大模型在不同场景的表现对比。
图13展示了2024年SuperCLUE基准测试中,OpenAI的模型与国内部分大模型在投研应用中的表现。总体来看,OpenAI 的GPT-4 Turbo作为通用模型在不同细分方向都有不错的表现(2025年初各家厂商发布了一系列新模型,整体表现排名可能会发生改变)。
通用模型在特定领域的表现可能不佳,例如上述图表13中GPT4-Turbo及其他大模型在个股分析领域全都表现较差,在行业分析层面也表现不佳。为了改进大模型在金融细分领域的能力。通常有两类方法:
-
利用大规模金融数据集和金融行业的垂直任务重新训练模型
,例如Bloomberg利用自身的数据优势,通过构建世界上最大的特定领域数据集之一来训练一个金融行业大模型BloombergGPT。Bloomberg宣传在当年(2023年)的内部和外部金融任务基准测试中都大幅击败了所对比的通用模型,如图14和15所示。
-
利用通用模型+微调的方式构建金融大模型
,例如AI4Finance社区通过开源驱动的FinGPT 。与BloombergGPT类似 ,FinGPT的训练也是以数据为中心,区别在于FinGPT主要通过公开的金融数据来进行训练。通过清洗、校验等预处理后得到训练用的金融语料,然后利用这些语料微调预训练的开源大模型(包括Llama、Falcon、MPT等)而不是重新训练一个大模型。
从FinGPT技术文档中可以得知,FinGPT使用了LoRA(Low-Rank Adaptation)技术来微调开源的大模型(FinGPT v3.3利用llama2-13b微调)。LoRA的基本原理是在需要训练的模型层上增加一个LoRA旁路并冻结原始模型层的参数来降低训练开销。图17展示了LoRA的原理。
LoRA相当于对原始的参数矩阵W做了低秩分解,r为LoRA的秩,这样大大降低了需要训练的参数使得使用很少的硬件资源来对大模型进行微调成为可能。此外FinGPT还使用了基于股票价格的强化学习技术(RLSP),这一技术通过将新闻舆情与相关股票的后续表现联系起来进一步改进模型的表现。
相比于重新训练一个大模型,LoRA这种参数高效的微调方法极大地降低了训练一个金融领域大模型的成本。FinGPT表示在单次训练成本少于30美元且仅使用单卡的情况下便在公开金融任务测试中超过了BloombergGPT,GPT-4等模型的表现,如图18所示。
通用的大模型由于预训练阶段主要在大规模的通用任务语料上进行训练,在投研关注的领域/任务中的表现不一定能够达到预期。为了训练得到面向特定金融场景的大模型,一种方式收集大量的金融语料重新训练一个垂直领域的大模型,例如BloombergGPT;另一种方式是利用现有的通用的大模型结合LoRA等参数高效的训练方式结合金融语料进行微调。
在经过预训练+针对性微调之后大模型在金融场景下任务(例如股票、行业分析)的表现通常能够有比较明显的提升,从而能够更好地完成投研工作任务。
在上一节中,本文介绍了训练面向金融场景大模型的主流方法,这些大模型在面向特定的金融任务,例如金融文本的情感分析、财报摘要总结等能取得相比于通用大模型比更好的表现。但所有大模型都有其知识局限性即训练的语料。
面对不断变化的金融市场,预训练大模型的知识无法及时更新,其应用也会受到限制;另一方面,在涉及严谨的数学推理和事实描述的时候,大模型中普遍存在的幻觉现象又会使得模型输出不可靠。
为了解决大模型的这些局限性,思路链和检索增强技术是其中的关键
。
大模型的幻觉一般是指模型的输出与事实不符(事实性幻觉)或者与用户指令或输入提供的上下文的出现分歧(忠实性幻觉)。Huang L et al. 2023在其论文中比较详细地研究了大模型幻觉出现的原因。文中提到大模型幻觉的出现主要是由于: