度小满大模型训练与对齐技术探索

DataFunSummit · 公众号 · · 2024-08-08 17:58

正文

8月31日，在DataFunSummit2024： 数智金融技术峰会 ，将邀请 度小满AI算法研究员霍亮宇 在 金融大模型落地论坛 分享 「金融大模型训练与对齐技术探索」 感兴趣的小伙伴欢迎 识别二维码免费报名 ，收看直播：

扫码免费报名，收看直播

详细介绍：

霍亮宇度小满 AI算法研究员

个人介绍： 7 博士毕业于北京航空航天大学，博士期间主要从事深度强化学习、模仿学习研究工作，相关研究成果发表在TPAMI、TCOM、AAAI等国际知名期刊和会议。博士毕业后进入度小满和中科院自动化所联合培养的博士后工作站，主要从事AI算法研发工作。工作期间主要负责轩辕金融大模型的强化对齐工作。构建了完善的RLHF训练框架，重点突破奖励模型存在的问题与难点，通过强化训练改善轩辕大模型的有用性、安全性和金融能力，显著提高与人类价值观的对齐程度。

演讲题目：金融大模型训练与对齐技术探索

演讲介绍：近年来，大语言模型已逐渐成为AI领域的研发热点。通过增加模型尺寸，并使用海量数据进行训练后，模型可获得各项知识并展现出了较强的通用能力，包括知识、理解、逻辑推理等。大语言模型有望为金融行业创造新的价值增量。然而在实践中我们发现目前的通用大语言模型难以胜任金融任务，其仍欠缺专业的金融知识，金融能力也不能满足金融任务的需求。此外通用大语言模型的训练和部署成本极高，这给其在金融领域的应用落地也带来了一系列挑战。为了解决这些问题，我们研发了金融领域的轩辕大模型。通过补充大量的高质量金融数据并采用一系列创新性做法对大模型进行预训练和SFT，显著提升了大模型金融知识和金融能力，同时保证了模型的通用性。在此基础上，我们通过RLHF技术进一步对齐了模型价值观与人类偏好，在保证金融能力的同时，减少潜在的安全性风险，显著提升了模型体验。

我们先后研发并发布了6B、13B和70B的轩辕金融大模型，在一系列测试基准中表现优异，覆盖了不同模型尺寸范围，构建了完整的大模型能力矩阵。本次分享主要介绍轩辕大模型研发过程中采取的相关技术，包括预训练、SFT、偏好奖励训练及RLHF等。此外也会介绍轩辕大模型的开源情况及其在金融业务中的应用落地情况。主要内容包括：

1. 从通用大模型到金融大模型的挑战

2. 度小满轩辕大模型的诞生之路

3. 金融大模型的训练与对齐经验探索

4. 金融大模型的落地与展望

听众收益：