专栏名称: Founder Park
来自极客公园,专注与科技创业者聊「真问题」。
目录
相关文章推荐
财联社AI daily  ·  5G无人机化身配送员! ·  16 小时前  
秦皇岛晚报  ·  截至2024年12月,河北省两化融合水平首次 ... ·  昨天  
科技美学官方  ·  全球500强 中国品牌占多少 ·  2 天前  
科技美学官方  ·  6499三星S25正式发布 ·  3 天前  
51好读  ›  专栏  ›  Founder Park

百川发布推理思考模型M1-preview,行业首个开源医疗增强大模型M1-14B

Founder Park  · 公众号  · 科技自媒体  · 2025-01-24 15:29

主要观点总结

百川智能发布了两款人工智能模型:国内首个全场景深度思考模型Baichuan-M1-preview和行业首个开源医疗增强大模型Baichuan-M1-14B。其中Baichuan-M1-preview具备语言、视觉和搜索三大领域推理能力,并在多项权威评测中表现超越o1-preview。Baichuan-M1-14B则是小尺寸版本,开源且行业首个医疗增强大模型。两款模型在医疗领域具有卓越表现,推动AI医疗领域的发展。

关键观点总结

关键观点1: Baichuan-M1-preview的特点和优势

作为全场景深度思考模型,具备语言、视觉和搜索推理能力;在多项权威评测中表现超越o1-preview;解锁了“医疗循证模式”,提供从证据检索到深度推理的完整服务。

关键观点2: Baichuan-M1-14B的特点和优势

作为行业首个开源医疗增强大模型,Baichuan-M1-14B在医疗能力上超越了Qwen2.5-72B;通过多管齐下进行大量的优化和创新工作,包括数据收集、合成数据以及模型训练等。

关键观点3: 医疗循证模式的解释

医疗循证模式借鉴了“循证医学”的理念,在面对复杂医学问题时,以专业可靠的医疗知识作为推理依据。实现这一模式需要海量可靠的“专业医学知识”和证据分级能力。


正文

1 月 24 日,年底这波国内大模型的发布季,加入一名新选手——百川智能。
本次百川智能发布了两款模型:
  • 国内首个全场景深度思考模型Baichuan-M1-preview
  • 行业首个开源医疗增强大模型Baichuan-M1-14B
Baichuan-M1-preview是国内目前唯一同时具备语言、视觉和搜索三大领域推理能力的模型。在数学、代码等多个权威评测中,Baichuan-M1-preview的表现均超越了o1-preview。

此外,它还解锁了“医疗循证模式”,实现了从证据检索到深度推理的完整端到端服务,能够快速、精准地回答医疗临床、科研问题。
并且Baichuan-M1-preview发布即可用。现已正式上线到了百小应中。
在深度思考模式下百小应不仅能准确解答数学、代码、逻辑推理等问题。
即使面对复杂医疗问题,也可以像资深医疗专家一样,通过深度思考构建严谨的医学推理过程,为用户提供全面的疾病分析和个性化健康建议。

而Baichuan-M1-14B则是Baichuan-M1-preview的小尺寸版本,同时也是行业首个开源的医疗增强大模型,它的医疗能力超越了更大参数量的Qwen2.5-72B,与o1-mini相差无几。

Github:https:https//github.com/baichuan-inc/Baichuan-M1-14B

Huggingface(base):https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Base

Huggingface(Instruct):https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Instruct

NPU版本支持BF16推理:https://modelers.cn/models/MindIE/Baichuan-M1-14B-Base
文章转自「百川智能」官方稿件,略有调整。

01

Baichuan-M1-preview:

多项能力超越o1-preview,

解锁医疗循证模式

作为国内首个能力全面的全场景深度思考模型,Baichuan-M1-preview具备强大的语言推理、视觉推理及搜索推理能力。

语言推理方面,其在AIME 和 Math 等数学基准测试,以及 LiveCodeBench 代码任务上的成绩均超越了o1-preview等模型。

视觉推理能力方面,在MMMU-val、MathVista等权威评测中的成绩,超越了GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview等模型。

众所周知,成立以来我们一直专注于AI医疗领域。模型的医疗能力也一直是我们的强项,本次的Baichuan-M1-preview也不例外,除了推理能力全面之外,相比其他模型,它还有一大亮点——“医疗循证模式”

那么什么是“医疗循证模式”呢?简单来说就是,在医学问题推理上借鉴了“循证医学”的理念,在面对复杂医学问题时,Baichuan-M1-preview会将专业可靠的医疗知识作为推理依据,帮助用户做出最佳的医疗决策。

虽然听起来很简单,但是要想实现这一模式必须得先有海量可靠的“专业医学知识”,让模型有“据”可循。

对此,我们自建了涵盖亿级条目的循证医学知识库,囊括了国内外海量医学论文、权威指南、专家共识、疾病与症状解析、药品说明等专业医疗内容,并以天为单位进行动态更新,及时收录医疗领域的新突破、新进展。

但有了循证医学知识库还不够,医学知识磅礴复杂,其中有很多医学知识、医学理论等信息并不一致,甚至有些是冲突的,尤其在互联网上,权威医疗信息和医疗谣言真假难辨,想要问答结果准确,必须要解决“证据”可靠性的问题。

这就不得不提到,医疗循证模式的另一个能力“证据分级”。它能运用医学知识和证据评估标准,对证据进行多层分级,并对不同权威等级的证据进行专业分析与整合,识别各类权威信息的来源和可信度,避免因信息混杂导致的误判,从而形成全面、连贯的医学结论。

解决了以上两个问题之后,遇到复杂的医疗问题时,Baichuan-M1-preview便能够自主调用搜索能力,在循证医学知识库中和互联网上实时获取权威医学证据、临床指南和研究进展,然后通过丰富医学证据进行可靠、准确的医学推理,最终为用户提供可信赖的医疗答案。
无论是医生面对复杂病案,还是患者寻求权威建议,它都能通过“摆事实、讲道理”的循证方式提供言之有物、有理有据的解答。
不仅能在临床场景中帮助医生提升诊疗效率,在医学科研场景中大幅缩短科研探索时间,还能帮助普通用户更好地理解自身健康状况,帮助患者科学管理生活方式,提升治疗效果。


02 

Baichuan-M1-14B:

行业首个开源医疗增强通用大模型 ,

医疗能力超越Qwen2.5-72B

一花独放不是春,百花齐放春满园。AI医疗是一项事关大众健康,利国利民,涉及技术领域众多,需要全社会共同努力的伟大事业。

为了推动AI技术在医疗领域的创新发展,增强AI医疗技术的透明度和可信性,提高医疗服务的可及性,繁荣AI医疗生态,我们开源了Baichuan-M1的小尺寸版本模型Baichuan-M1-14B。

作为行业首个医疗增强开源模型,Baichuan-M1-14B的表现非常优异,不仅在cmexam、clinicalbench_hos、clinicalbench_hos、erke等权威医学知识和临床能力评测的成绩超越了更大参数量的Qwen2.5-72B-Instruct,与o1-mini也相差无几。

为了提升Baichuan-M1-14B的医疗能力,我们多管齐下做了大量的优化、创新工作。

数据收集方面:面向细分医疗场景,收集了万亿级 token 的严肃医疗数据,涵盖了千万级的中/英文专业医疗论文、院内真实中/英文医疗病例,亿级的医疗问答、医疗问诊、临床数据等,还对全网数据进行了包括医疗科室、医疗内容以及医疗价值在内的分类评估,确保模型能学习到有价值且全面的医疗知识。

合成数据方面:针对病例、医学教材、医学指南等不同类别的高质量医疗数据,生成了超100B token包含了医疗复杂决策推理链条、决策依据以及问答对形式的多样化数据,进一步强化了Baichuan-M1-14B的医学知识能力和医疗推理能力。

模型训练阶段:我们运用行业首创的多阶段领域提升方案,将整个训练分为通识提升、医疗基础知识提升、医疗进阶知识提升三阶段,依次提升基础语言、高阶及疑难病症应对等能力。此外还在 CoT 训练框架中创新的引入了ELO 强化学习法,优化思维链路径,避免传统奖励模型偏差,有效提升了模型的生成质量与逻辑推理能力。

Baichuan-M1-preview是我们在AI医疗领域的又一次重要突破,让我们在实现“造医生、改路径、促医学”愿景的道路上又迈出了坚实的一步。而Baichuan-M1-14B开源模型也将为中国AI医疗健康生态建设提供强大助力。


更多阅读

2024年,出海做得好的AI产品有哪些共识与反共识?
跟硅谷的核心AI公司聊完后,得到了这 60 条关键洞察
Kimi 发布k1.5思考模型:首个达到o1满血水平的多模态模型,还有完整训练技术报告
DeepSeek开源推理模型 R1,比肩OpenAI o1正式版。
对话生数科技Vidu产品负责人:100天千万用户之后,2025年视频生成产品会变成怎样?

转载原创文章请添加微信:founderparker