专栏名称: Founder Park

来自极客公园，专注与科技创业者聊「真问题」。

百川发布推理思考模型M1-preview，行业首个开源医疗增强大模型M1-14B

Founder Park · 公众号 · 科技自媒体 · 2025-01-24 15:29

主要观点总结

百川智能发布了两款人工智能模型：国内首个全场景深度思考模型Baichuan-M1-preview和行业首个开源医疗增强大模型Baichuan-M1-14B。其中Baichuan-M1-preview具备语言、视觉和搜索三大领域推理能力，并在多项权威评测中表现超越o1-preview。Baichuan-M1-14B则是小尺寸版本，开源且行业首个医疗增强大模型。两款模型在医疗领域具有卓越表现，推动AI医疗领域的发展。

关键观点总结

关键观点1: Baichuan-M1-preview的特点和优势

作为全场景深度思考模型，具备语言、视觉和搜索推理能力；在多项权威评测中表现超越o1-preview；解锁了“医疗循证模式”，提供从证据检索到深度推理的完整服务。

关键观点2: Baichuan-M1-14B的特点和优势

作为行业首个开源医疗增强大模型，Baichuan-M1-14B在医疗能力上超越了Qwen2.5-72B；通过多管齐下进行大量的优化和创新工作，包括数据收集、合成数据以及模型训练等。

关键观点3: 医疗循证模式的解释

医疗循证模式借鉴了“循证医学”的理念，在面对复杂医学问题时，以专业可靠的医疗知识作为推理依据。实现这一模式需要海量可靠的“专业医学知识”和证据分级能力。

正文

1 月 24 日，年底这波国内大模型的发布季，加入一名新选手——百川智能。

本次百川智能发布了两款模型：

国内首个全场景深度思考模型Baichuan-M1-preview
行业首个开源医疗增强大模型Baichuan-M1-14B

Baichuan-M1-preview是国内目前唯一同时具备语言、视觉和搜索三大领域推理能力的模型。在数学、代码等多个权威评测中，Baichuan-M1-preview的表现均超越了o1-preview。

此外，它还解锁了“医疗循证模式”，实现了从证据检索到深度推理的完整端到端服务，能够快速、精准地回答医疗临床、科研问题。

并且Baichuan-M1-preview发布即可用。现已正式上线到了百小应中。

在深度思考模式下百小应不仅能准确解答数学、代码、逻辑推理等问题。

即使面对复杂医疗问题，也可以像资深医疗专家一样，通过深度思考构建严谨的医学推理过程，为用户提供全面的疾病分析和个性化健康建议。

而Baichuan-M1-14B则是Baichuan-M1-preview的小尺寸版本，同时也是行业首个开源的医疗增强大模型，它的医疗能力超越了更大参数量的Qwen2.5-72B，与o1-mini相差无几。

Github:https：https//github.com/baichuan-inc/Baichuan-M1-14B

Huggingface(base)：https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Base

Huggingface(Instruct)：https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Instruct

NPU版本支持BF16推理：https://modelers.cn/models/MindIE/Baichuan-M1-14B-Base

文章转自「百川智能」官方稿件，略有调整。

01 Baichuan-M1-preview：

多项能力超越o1-preview，

解锁医疗循证模式

作为国内首个能力全面的全场景深度思考模型，Baichuan-M1-preview具备强大的语言推理、视觉推理及搜索推理能力。

语言推理方面，其在AIME 和 Math 等数学基准测试，以及 LiveCodeBench 代码任务上的成绩均超越了o1-preview等模型。

视觉推理能力方面，在MMMU-val、MathVista等权威评测中的成绩，超越了GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview等模型。

众所周知，成立以来我们一直专注于AI医疗领域。模型的医疗能力也一直是我们的强项，本次的Baichuan-M1-preview也不例外，除了推理能力全面之外，相比其他模型，它还有一大亮点——“医疗循证模式”。

那么什么是“医疗循证模式”呢？简单来说就是，在医学问题推理上借鉴了“循证医学”的理念，在面对复杂医学问题时，Baichuan-M1-preview会将专业可靠的医疗知识作为推理依据，帮助用户做出最佳的医疗决策。

虽然听起来很简单，但是要想实现这一模式必须得先有海量可靠的“专业医学知识”，让模型有“据”可循。

对此，我们自建了涵盖亿级条目的循证医学知识库，囊括了国内外海量医学论文、权威指南、专家共识、疾病与症状解析、药品说明等专业医疗内容，并以天为单位进行动态更新，及时收录医疗领域的新突破、新进展。

但有了循证医学知识库还不够，医学知识磅礴复杂，其中有很多医学知识、医学理论等信息并不一致，甚至有些是冲突的，尤其在互联网上，权威医疗信息和医疗谣言真假难辨，想要问答结果准确，必须要解决“证据”可靠性的问题。

这就不得不提到，医疗循证模式的另一个能力“证据分级”。它能运用医学知识和证据评估标准，对证据进行多层分级，并对不同权威等级的证据进行专业分析与整合，识别各类权威信息的来源和可信度，避免因信息混杂导致的误判，从而形成全面、连贯的医学结论。

解决了以上两个问题之后，遇到复杂的医疗问题时，Baichuan-M1-preview便能够自主调用搜索能力，在循证医学知识库中和互联网上实时获取权威医学证据、临床指南和研究进展，然后通过丰富医学证据进行可靠、准确的医学推理，最终为用户提供可信赖的医疗答案。

无论是医生面对复杂病案，还是患者寻求权威建议，它都能通过“摆事实、讲道理”的循证方式提供言之有物、有理有据的解答。

不仅能在临床场景中帮助医生提升诊疗效率，在医学科研场景中大幅缩短科研探索时间，还能帮助普通用户更好地理解自身健康状况，帮助患者科学管理生活方式，提升治疗效果。

02 Baichuan-M1-14B：

行业首个开源医疗增强通用大模型，

医疗能力超越Qwen2.5-72B

一花独放不是春，百花齐放春满园。AI医疗是一项事关大众健康，利国利民，涉及技术领域众多，需要全社会共同努力的伟大事业。

为了推动AI技术在医疗领域的创新发展，增强AI医疗技术的透明度和可信性，提高医疗服务的可及性，繁荣AI医疗生态，我们开源了Baichuan-M1的小尺寸版本模型Baichuan-M1-14B。

作为行业首个医疗增强开源模型，Baichuan-M1-14B的表现非常优异，不仅在cmexam、clinicalbench_hos、clinicalbench_hos、erke等权威医学知识和临床能力评测的成绩超越了更大参数量的Qwen2.5-72B-Instruct，与o1-mini也相差无几。

为了提升Baichuan-M1-14B的医疗能力，我们多管齐下做了大量的优化、创新工作。

数据收集方面：面向细分医疗场景，收集了万亿级 token 的严肃医疗数据，涵盖了千万级的中/英文专业医疗论文、院内真实中/英文医疗病例，亿级的医疗问答、医疗问诊、临床数据等，还对全网数据进行了包括医疗科室、医疗内容以及医疗价值在内的分类评估，确保模型能学习到有价值且全面的医疗知识。

合成数据方面：针对病例、医学教材、医学指南等不同类别的高质量医疗数据，生成了超100B token包含了医疗复杂决策推理链条、决策依据以及问答对形式的多样化数据，进一步强化了Baichuan-M1-14B的医学知识能力和医疗推理能力。

模型训练阶段：我们运用行业首创的多阶段领域提升方案，将整个训练分为通识提升、医疗基础知识提升、医疗进阶知识提升三阶段，依次提升基础语言、高阶及疑难病症应对等能力。此外还在 CoT 训练框架中创新的引入了ELO 强化学习法，优化思维链路径，避免传统奖励模型偏差，有效提升了模型的生成质量与逻辑推理能力。