DeepSeek、通义千问、文心一言哪家强？| 法观

天同诉讼圈 · 公众号 · 法律 · 2025-02-25 21:20

正文

DeepSeek 解了 RL 的谜题，推进大模型业态进入了新范式，吹起的新风暴，广泛拂动了整个行业。

随着人工智能技术的迅猛发展，各类大模型在不同领域被广泛应用，为法律垂类大模型的进一步发展带来了契机。法律领域有着极高的专业性和精确性要求，通用大模型在应用过程中，容易出现偏差，无法满足法律工作的实际需求。因此，建设法律大模型必须遵循 “专业化、精细化” 原则，借助专业语料进行针对性优化。

为进一步探究法律垂类大模型的能力边界与迭代方向，中国司法大数据研究院、天同律师事务所、数智枫桥研究院拟联合组织一次测评，以 DeepSeek 、通义千问、文心一言作为研究对象，旨在通过客观、全面、科学的测评手段，深入对比这两个Ai开源领先的大模型，在法律专业方面的能力表现，为法律行业的数字化转型与发展提供有力的方向指引。

本文将向大家汇报本次测评的方案纲要，亦 意在邀请广大法律实务界同仁参与评审 （报名方式见“02 专家评审招募”） ，为大模型在法律领域的水平、潜力、提升方向等关键问题，提供更加全面、多元的审视 。

测评方案

测评目的： 本次测评旨在对比不同大模型，在是否叠加知识库的不同状态下，在法律领域的应用效果。
对比模型：
DeepSeek ，杭州深度求索人工智能基础技术研究有限公司推出的一系列人工智能产品及相关技术的统称，采用混合专家模型等先进技术，在自然语言处理、图像与视频分析、语音交互、编程辅助等多个领域均有出色表现，本次测评采用DeepSeek-R1-671B版本；
通义千问 ，阿里云研发的先进人工智能语言模型，凭借强大的自然语言处理能力、广泛的知识覆盖面以及持续的学习进化能力，在教育、咨询、内容创作、多语言翻译等多个领域展现出巨大潜力和价值，本次测评采用qwen-max-latest（闭源，api接口）及qwen2.5-72B-Instruct两个版本；
文心一言 ，百度打造的人工智能大语言模型，基于飞桨深度学习平台和文心知识增强大模型，具备跨模态、跨语言的深度语义理解与生成能力，可应用于文学创作、商业文案创作、数理逻辑推算、数据分析、代码生成等诸多场景，本次测评采用文心4.0版本。
测评内容： 涵盖法条背诵、纠纷焦点识别等八类客观问题和法律问答、诉讼请求生成等四类主观问题， 总计600个问题 ，覆盖民商事、刑事、行政、执行、国家赔偿和法律伦理六大领域，全方位、多角度地评估模型在记忆、理解、生成和逻辑推理能力上的表现。
评分标准 ：根据不同题型，分为客观题及主观题两大类。
其中，客观题将由 机器判分 ，部分题型将请专家评审将参与答案审定；
主观题将全部请 专家评审投票 计分，机器随机为每位评委抽取 10 至 20 道问答，由专家评审对每道问题的不同回答进行投票。