专栏名称: 法学学术前沿

识时务有情怀讲方法结善缘 —— 易明法律研究院

魏斌：法律大语言模型能与不能的冷思考 | 最高法发布法律基座大语言模型

法学学术前沿 · 公众号 · 法律 · 2024-11-21 11:06

主要观点总结

法律大语言模型是法学学术前沿中重要的研究方向，具有法律语言理解、法律知识问答、法律预测和法律文本生成的能力，但在法律推理、司法证明、法律解释、法律论证和司法自由裁量等领域存在局限性。文章提出，法律大语言模型应在严格的规范下合理使用，并应建立评估机制、审查机制和数据安全保护机制以确保其准确性和安全性。尽管大语言模型展现出在法律领域的潜力，但它无法完全替代法律人的核心工作，尤其是在处理疑难案件和进行道德判断时。

关键观点总结

关键观点1: 法律大语言模型的能力

法律大语言模型在法律语言理解、法律知识问答、法律预测和法律文本生成等领域表现出卓越能力，但在法律推理、司法证明、法律解释、法律论证和司法自由裁量等方面存在局限性。

关键观点2: 法律大语言模型的规范使用

法律大语言模型应在严格的规范下合理使用，需要建立评估机制、审查机制和数据安全保护机制以确保其准确性和安全性。

关键观点3: 大语言模型与法律人的关系

尽管大语言模型在法律领域展现出潜力，但它无法完全替代法律人的核心工作，尤其是在处理疑难案件和进行道德判断时。

正文

L _L L 法学学术前沿

法律大语言模型的司法应用及其规范

作者：魏斌，浙江大学光华法学院、数字法治实验室研究员，博士生导师。

来源：《东方法学》2024年第5期。

为塑造法学学术前沿微信公众平台的风格，微信推送的外标题系编辑根据文章理解所加，不代表作者立场。

背景

2024年11月15日，最高人民法院举行新闻发布会，发布“法信法律基座大模型”。这一国家级法律AI基础设施一经发布即获得广泛关注，神秘的“法信法律基座大模型”到底是个啥？有什么用？一张图，带您了解。

来源：最高人民法院微信公众平台

摘要

法律大语言模型因其超级学习和“涌现”能力，在法律任务中表现出卓越的性能，引发了法律科技领域的新一轮革命。法律大语言模型的司法应用主要体现在法律语言理解、法律知识问答、法律预测和法律文本生成等领域。然而，随着其在审判等司法实践中的应用，暴露出可解释性弱和“幻觉”等问题。法律大语言模型仍然难以胜任法律人的核心工作，包括法律推理、司法证明、法律解释、法律论证和疑难案件中的道德判断等。法律大语言模型在情感、道德、逻辑推理、决策机制和经验学习等方面仍然与法律人有本质的差异，因此，法律大语言模型的司法应用需要在严格的规范之下合理使用。

一、问题的提出

法律大语言模型赋能司法，是指面向司法领域的生成式人工智能因其在法律语言理解、法律知识问答、法律预测和法律文本生成等领域表现突出，从而支持法律人进行更高效和精准的司法决策，为公众提供智能化的法律咨询服务等过程。与通用大语言模型相比，法律大语言模型具备更强大的法律大数据分析和处理能力，更专注于解决法律问题。在全球范围内，大语言模型已经在法律工作中展现出应用价值。哥伦比亚法官在审理一起自闭症儿童医保案时使用了ChatGPT，这被认为是“全球大语言模型审判第一案”。近期，英国发布了《人工智能司法人员使用指南》，为法官和书记员等司法人员使用人工智能提供指导，该国也已有法官使用ChatGPT辅助生成了一起知识产权纠纷案件的裁判文书。我国苏州市中级人民法院在国内率先开展了生成式人工智能辅助办案系统的试点建设工作。深圳市中级人民法院推出了全国首个司法审判垂直领域大模型。应当说，在当前法律行业的需求推动下，大语言模型展现出了其在司法领域的强大潜力，使得法律大语言模型迅速成为领域大语言模型研发的主流方向之一。

然而，大语言模型的兴起也引发了对其能力和适用性的误解。美国纽约两名律师向法院提交了六份由ChatGPT生成的司法判决，其中包含错误引用和生成不实的内容。巴西一位联邦法官因使用ChatGPT生成裁判文书出错而受到国家司法委员会的审查。这类事件反映了大语言模型可能被不当使用，导致其作用被过度夸大，造成了公众期望与实际应用效果之间的巨大鸿沟。这种误解给大语言模型的研发和应用带来了巨大挑战，反而阻碍了其长远发展。在司法领域，生成式人工智能有广阔的运用前景，如可用于法律文书的生成，甚至带来裁判方式的变革。从技术逻辑来看，法律行业所强调的法律自然语言处理与法律内容生成能力和大语言模型具有内在逻辑的契合性。然而，有观点认为大语言模型的底层运作原理决定了它只是一款运算程序和机器学习模型，并不具有人类的自我意识和自由意志。人类决策是有意识的内容生成，在规则理解、价值判断和司法经验上反映着人类理性和法治人文精神，而机器则是依概率猜测的内容生成，算法决策很难作出伦理道德善良风俗和经验理性等方面的考量。因而，法律大语言模型有其能，亦有其所不能。为厘清大语言模型的功能和局限，需要从其开发原理着手，审视其技术优势与不足，由此明确大语言模型的适用场景，同时也辨别其无法胜任的领域。澄清大语言模型的应用边界能够促进其在合理的范围内被正确使用，从而最大限度发挥它的应用潜能。

二、法律大语言模型的训练原理

法律大语言模型是基于通用大语言模型（如ChatGPT或通义千问等）的框架构建的垂类大语言模型，它通过对法律大数据集（包括法律文书、司法案例和法律法规等）进行二次训练和指令微调（又称精调），并将专门的法律知识融入模型，最终形成了具备解决法律任务能力的生成式人工智能。通过分析各种开源大语言模型的训练方法，不难归纳出一个共性的模型训练框架。以“智海—录问”法律大语言模型为例，法律大语言模型的训练过程可以概括为四个步骤。

1.步骤一：二次预训练

二次预训练的目标是将通用大语言模型训练转化为适用于司法领域的专业化模型。训练过程始于构建包括法律法规、判例、法律文书等内容的法律文本大数据。通过严格的数据清洗和去重工作，确保训练数据集的高度准确性和一致性。随后，采用句子嵌入技术将文本转换为向量格式，以便机器捕获语义层面的信息。在此基础上，通过聚类算法对向量进行分析，揭示文本中的模式、主题和关键词。在预训练阶段，选用深度双向变换器模型（如Bert）或上下文敏感的词嵌入模型（如ELMO）等深度学习模型，采用无监督学习方法以增强机器对复杂语言结构和术语的理解能力。二次预训练的方法提升了模型在司法领域中的性能，使得模型具备处理专业法律文本大数据的能力，特别是在解析法律文书和案例时，能够一定程度地理解法言法语。

2.步骤二：指令微调训练

为提高模型在处理法律任务时的性能，模型还需要进行指令微调。首先，需要构造一个微调数据集，这些数据集应包含多样化的法律指令，包括案情摘要、法律适用、罪名预测和刑期预测等多类法律任务。其次，利用二次预训练后的通用大语言模型来再生成与法律任务相关的指令。这一步骤旨在增强模型在不同法律问答场景下的应对能力。通过对特定任务进行指令微调，可以有效提高模型在这些任务上的性能。在微调阶段，需要对模型的关键参数和结构进行精细调整，以优化模型的学习过程，使其适应特定的法律问答任务。这包括调整学习率、选择适合的优化器以及定义合适的损失函数等。最后，在完成参数调整后，模型需继续接受针对法律问答数据的训练。这一阶段的训练将进一步提升模型的语言理解能力，并使模型的权重向更适应特定法律任务的方向转变。

3.步骤三：检索增强生成（RAG）

为增强输出结果的可解释性，法律大语言模型通常采用检索增强生成的策略。该策略通过提供先验知识作为输入的上下文来增强大型语言模型的输出。具体而言，检索增强生成首先从法律知识库中检索出与提问相关的文本片段，然后大语言模型结合这些检索到的文本片段生成更准确和相关的回答。在这一方法中，构建一个高质量的法律知识库至关重要。法律知识库通过数据处理，将法律大数据转换成统一格式，并提取摘要和关键词等信息，以便快速检索。这一知识库为大语言模型提供了必要的案例和法律法规，帮助模型在生成回答时引用相关的法律知识。此外，为了提升大语言模型在复杂法律问答场景中的性能，还需要优化知识检索模型。通过机器学习训练检索模型，可以提高其在关键词匹配和语义相似度检索方面的准确性，从而确保检索到的信息高相关且有用。

4.步骤四：多轮对话数据生成和测试评估

法律大语言模型训练的最后一步是模拟真实的法律问答场景，采用人类反馈强化学习（RLHF）来增强模型在实际问答中的表现。这种模拟通过神经会话模型进行多轮对话实验，以精确重现和测试模型在真实对话环境中的交互能力。在性能测试阶段，模型通过专门设计的测试集进行评估，量化其在案件信息抽取、法律文本摘要、法律检索等法律任务中的表现，并获得准确率和召回率等性能指标。专家评估阶段由领域专家测试模型的输出，目的是评估模型在实验中和实际应用中的可靠性和有效性，帮助验证模型在现实情境中的适用性。最后阶段是误差分析，此过程包括识别和分类模型输出中的错误（如逻辑或事实错误），并分析这些错误的原因，例如数据偏见或模型架构限制等。误差分析的目的是深入了解模型的局限，并为其下一步优化和改进提供指引。

综上，法律大语言模型的训练过程可以概括如图1所示。

图1 法律大语言模型的训练过程

三、法律大语言模型的技术优缺点

法律大语言模型较传统的法律人工智能有其技术优缺点，分析它们对于厘清法律大语言模型的边界有重要作用。大语言模型的优点是其能够胜任法律任务的直接原因，而缺点则限制了它在处理复杂法律问题上的能力。

（一）

法律大语言模型的优势

1.高级自然语言处理能力

大语言模型通常基于深层神经网络架构，如Transformer模型，尤其是Bert和GPT深度学习架构。这些模型通过自注意力机制，能够捕捉文本的长距离依赖关系和复杂的语言结构，从而更有效地理解法律文本。在自然语言处理领域，大语言模型不仅能解码句子结构，还能初步理解法律文本中的微妙语义和统计意义上的逻辑关系。经过大规模数据的训练，这些模型甚至能够理解法言法语的特征和法律文本的语义结构。

2.超大规模数据处理能力

法律大语言模型需要运用法律大数据进行二次训练，其因深层神经网络架构而具备超大规模法律数据处理能力。大语言模型利用无监督的学习方法从法律大数据中提取法律语言特征，再通过对特定的法律任务进行微调，从而提高在法律任务上的性能。大语言模型还被特别训练以适应国际上不同法律体系的法律大数据，以增强在多元法律体系中的通用能力。

3.司法领域的“通用性”能力

法律大语言模型继承了其基础大语言模型的“通用性”特点，使其能够处理基础模型所能胜任的文本生成任务。通过使用法律大数据进行二次训练，大语言模型得以适应并执行多种法律任务。这种“通用性”赋予了它在处理新任务时的强大泛化能力，通过对特定法律数据的进一步微调或再训练，模型能够灵活适应不同的法律问题。然而，需要注意的是，这种“通用性”主要适用于常见的法律任务，并不能处理所有类型的法律任务，尤其是复杂的法律任务。

4.基于提示词的个性化问答能力

基于提示词或指令（prompt）的问答机制允许使用者以自然语言形式提出问题，而模型则通过理解问题并迅速检索相关信息来响应。这种方式不仅让使用者交互更加直观和友好，还能够根据使用者的交互历史提供个性化体验，引导使用者成为“提问工程师”。随着个性化问答的频次增加，大语言模型通过持续的学习和优化，能够更好地适应使用者的个性化需求。

5.基于预测的文书生成能力

法律大语言模型运用自然语言处理和生成技术来分析和模仿不同类型法律文本的结构和内容。模型通过大规模的法律文本训练，掌握法律写作的特定格式和惯用表达。这种训练涵盖从基础的词汇学习到高级的语义理解，通过深入学习法律术语、格式和先例，能够自动产生符合专业标准的诉状、合同和判决书等法律文书。在生成法律文书时，模型会采用特定的策略来确保文本的准确性和专业性，包括使用预先定义的模板，或根据先前案例和标准格式自动调整文本结构。

（二）

法律大语言模型的缺陷

1.法律知识的深度理解缺陷

法律大语言模型善于归纳由法律大数据所得到的一般性法律知识，但仍不能够深度理解法律知识背后的真正含义。法律知识不仅是描述性的，更是规范性的。它不仅关乎法律应该是什么，还关乎法律是如何运行的。“法律知识表达的核心问题是法律解释。”法律体系包含非常复杂的知识体系，由法律概念、法律原则、法律规则、判例以及法律解释所构成。这些元素相互关联，构成了一个密集的法律知识网络。理解法律知识体系需要深入的法学专业学习和丰富的法律实践经验。大语言模型擅长为法律人提供知识检索和专家辅助决策，但是仍无法真正理解法律知识的含义，也难以解释疑难案件裁判中所蕴含的法律知识。基于法律体系的开放性，法律知识不是静态的，而是不断变化和发展的。大语言模型的大数据学习方式显然存在知识更新的滞后性，因而导致预测的结果失准。

2.解释和推理能力上的限制

法律大语言模型同样受到通用大语言模型的可解释性问题的影响，仍然无法对预测的结果作出合理的解释。人工智能法官更像是一个难以说服的黑匣子权威，即使它确实通过在其司法“意见”中提供理由来模仿人类。大语言模型的算法模型类似于“黑箱”，其内部决策过程对使用者来说不透明，很难确定算法如何以及为何作出特定的决策、建议或预测。法律问题可能具有高度的复杂性和模糊性，解决问题需要处理矛盾的证据，评估不同的法律观点，以及在不完全信息下作出合理的推断。大语言模型在处理这些复杂和模糊情况时可能遇到困难，特别是在需要权衡多个相互冲突的法律原则或解释含糊的法律条文时。而且，大语言模型的训练依赖于现有的数据集，其推断和解释主要基于已有数据，这可能导致模型在处理未覆盖或偏离训练数据集的新问题时，无法提供充分的解释。

3.检索增强（RAG）的局限性

法律大语言模型在使用检索增强方法时存在显著局限性，其生成结果高度依赖于检索到的法律文本片段质量。如果法律知识库中的数据不完整、不准确或不相关，生成答案的质量将显著受影响。此外，不同来源的法律文本在语言风格和术语使用上可能有所差异，模型在处理这些法律文本时，可能会产生混杂表达，导致答案的连贯性问题。尽管检索增强方法通过获取外部知识库中的相关信息增强了模型对司法领域知识的访问能力，但这些信息主要用于补充生成模型的知识，而不是用于推理或逻辑分析。因此，检索增强方法在知识丰富度上有所提升，但在知识推理方面仍有不足。知识库的构建需要高质量的语料库和精细的索引机制，如果知识库内容不够完善或索引机制存在问题，会影响检索的精准性，直接导致召回率和命中率降低，使模型的回答准确率下降。

4.法律语境理解的局限性

法律语境在法律判断中起着关键作用，如社会背景、文化、地域、时间，甚至是当事人的心理状态等。大语言模型在理解和分析这些多维因素上存在局限，因为模型通常依赖于可量化和明确的数据，而这些语境因素往往难以被完全量化或明确界定。司法裁判不能忽略法律语境，尤其是在疑难案件中。大语言模型无法深入理解和分析案件中的模糊和非量化因素，如个人经历、心理状态、文化信仰和地域特殊性等。司法裁判往往需要深入的洞察和细致的语境分析，这是当前大语言模型难以完成的。只有结合法律人的专业知识和经验，才能更准确地评估和解释法律语境。

5.内容生成的真实性限制

法律大语言模型无法保证生成完全准确或与现实完全相符的信息，导致生成的内容可能是虚构或不符合事实的。其一，训练数据的不规范会导致生成内容虚假。如果训练数据中包含了错误或失效的信息，那么模型在生成内容时可能会复制这些错误，极可能产生错误的案例和法律法规。其二，偏见会导致生成的内容不真实。人工智能会产生偏见，即便程序员没有设置任何的偏见。大语言模型因为“涌现”属性而出现设计者从未预料到的行为模式，这种能力会放大偏见所带来的不真实结果。其三，创造性生成会引发“反噬”作用。大语言模型因其生成文本的特点而具备一定的“创造性”，然而，这种“创造性”极可能会创造完全虚构的案例、事件或解释，导致生成的内容偏离事实或现实情况，尤其是在没有足够相关数据支撑的情况下。

四、法律大语言模型的司法应用

法律大语言模型的司法应用可以分为四个方面：（1）法律语言理解是运用大语言模型对法律大数据进行文本清洗、实体及其关系抽取、句法分析和语义分析之后，实现案例要素抽取、法律文本摘要、法律文书检查和法律论证挖掘的应用；（2）法律知识问答是运用大语言模型来增强检索能力，从而回答法律法规、案件检索和法律程序等问题的应用；（3）法律预测是运用大语言模型来增强模式识别和结果预测的能力，实现判决结果预测、量刑预测和案情分析的应用；（4）法律文本生成是运用大语言模型的“创造性”能力，根据需求输出不同类型的法律文本。

（一）

法律语言理解

1.案件要素抽取

大语言模型通过信息抽取技术从法律文本中精准提取案件要素，辅助法律人聚焦案件的关键信息。信息抽取是通过实体识别技术来识别文本中的命名实体，既包括人物、地点、组织名等实体名称，也包括证据识别、法律条款和判决结果等实质信息。接着利用关系抽取技术进一步抽取这些标注实体之间的关联，揭示证据之间的相关性、双方的诉辩陈述、案件的关键特征以及争议焦点等，从而辅助判断文本中隐含的案件事实。

2.法律文本摘要

法律文本摘要是对法律文本进行归纳和总结，从中提取关键信息并形成精炼、准确的内容摘要。在数据预处理和特征提取阶段，从清洗后的数据中提取合适的特征，而后选择合适的深度学习模型来训练和优化模型。在预测输出阶段，模型根据已训练的数据对新文本进行预测并生成摘要。这个过程不仅涉及关键词的提取和排序，还要将提取的信息转化为连贯、简洁的摘要文本。这样生成的摘要既要覆盖法律文书的核心内容，同时也要保持原始信息的准确性和完整性。

3.法律文书检查

法律文书检查是在给定文本中自动识别出语法、法律术语或法律规范的错误，并对错误进行修正的应用。法律文书检查既检查文本自身的语法，包括对字词、句子、标点和表述等进行正确性和规范性检查，对不符合语法规则的句子进行提示和修正；还包含对待审核文本中的法律条款进行详细校验，以识别与现行法律法规的相似性和差异。如果检测到法律文本中的内容与法律法规相矛盾，那么输出结果会提出警示。

4.法律论证挖掘

法律论证挖掘专注于从法律文本中自动提取论证，它包含了证据推理挖掘。它的主要任务是通过识别、分类和分析法律话语中的论证来自动检测和还原文本中的论证结构。法律论证挖掘的过程首先对法律文本中论证的基本单元（前提、结论和推论关系等）进行精确标记，并识别不同类型和结构的法律论证。随后，挖掘过程聚焦于识别文本中的论辩性成分，包括确定论辩性句子及其在文本中的起始位置。接着，使用神经网络算法识别论证间的关系，包括论点间的支持和攻击关系。

（二）

法律知识问答

1.法律法规问答

法律法规问答是一种以法律法规检索为目标的问答，既包括对法律法规自身的检索，也包括对法律法规适用和解释的问答。大语言模型首先分析提示词中的关键词，提取出问题的核心信息并理解搜索需求。随后，在法律法规数据库进行全文搜索和关键词匹配。大语言模型不仅检索查询的法律条文，还运用上下文分析技术理解查询的深层含义及可能的法律解释，再根据相关性、时效性等多种标准对结果进行精确排序，评估每个检索结果与查询的相关性。检索的输出结果以法律条文的摘要或相关条款的解读形式呈现给使用者。

2.法律程序问答

法律程序问答专注于提供与法律程序及其相关任务的解答，包括立案程序、起诉程序、受理程序和审理程序等。大语言模型通过在法律法规和案例大数据库中的二次训练，具备了精确匹配法律程序相关法律法规和先例的能力。当使用者发起关于法律程序的查询请求时，大语言模型使用深度学习和语义分析算法定位最相关的法律信息，并根据这些信息检索最相关的法律程序并生成解决方案。法律程序问答的输出结果通常表现为法律程序的流程说明、步骤指导或程序性条款解读等。

3.类案检索问答

类案检索问答是一种面向案例的法律信息检索方法，在数据库中查找与案例具有法律上或事实上相似性的案例，推送类案的判决结果与适用的法律规则。大语言模型首先对使用者的检索需求问题进行分词、词性标注和句法解析，进而识别文本中的关键实体（如案由、当事人和法律法规等）及其关系。随后，通过信息检索技术来创建对案件标题、关键词、引用法律条款等的索引，再采用布尔搜索或向量搜索等算法在案例数据库中执行搜索。大语言模型还可以根据新的检索需求，通过提示词数据分析来优化搜索算法，提升搜索结果的精确性。

（三）

法律预测

1.判决结果预测

判决结果预测是运用大语言模型的大数据推断能力来预测判决的结果。大语言模型擅长分析和处理庞大的法律数据集，包括案例、法律法规和诉讼文书等，再通过机器学习算法从这些数据中识别模式，从而预测案件的裁判趋势。机器学习算法自动检测有关过去法律场景的数据模式，然后据此推断以预测未来法律情景的结果。大语言模型从法律大数据中提取关键特征，包括案由和适用的法律法规等。然后，使用大语言模型算法来训练判决结果的预测模型，使其学会识别案件特征与判决结果之间的关系，从而为新案件预测判决结果。

2.刑期预测

刑期预测是刑事案件事实认定之后的量刑预测问题，既可以是检察机关的量刑建议，也可以是法官作出的量刑裁判。刑期预测不仅需收集犯罪嫌疑人或被告人的基本信息和历史犯罪记录等资料，还包括罪名定性、犯罪金额、犯罪情节以及自首、认罪认罚等量刑情节。大语言模型首先通过特征工程提取量刑要素，然后运用大语言模型算法来进行特征训练，学习先例数据中案件特征与刑期之间的关系。而后基于这种关系预测模型，对新案件的刑期进行预测。

3.案情分析

案情分析是对案件信息进行深入挖掘，从中发现隐藏的信息和规律，并据此预测得到合理的结论。案情分析首先要收集和整理案件信息，包括案件当事人的背景资料、主观动机、行为方式和案件情节等各种细节。然后，需要对这些信息进行分类、筛选和归纳，尝试构建相应的假设和理论框架。而后使用大语言模型对之进行测试和检验。

（四）

法律文本生成

法律文本生成是运用法律信息抽取和法律预测等技术，结合自然语言生成技术，生成规范性法律文书的应用。法律文本生成的类型包括裁判文书、起诉书、公诉书、答辩状、办案报告等。这些法律文本的结构不同，但是生成的原理相似。首先，大语言模型理解使用者的指令，通过法律信息抽取技术进行分词（将文本分解成词汇或短语）和句法分析（理解每个词汇在句子中的作用），而后利用命名实体识别技术来识别文本中的实体及其关系。其次，在模型训练阶段，使用神经网络模型来处理和生成自然语言文本。这个训练过程会结合法律知识库进行知识增强。在生成法律文本时，需要将抽取的信息与知识库中的知识进行关联，通过法律预测获取文本的关键要素，包括案件中的因果关系和法律适用等。在此基础上再使用自然语言生成技术来生成规范性文本，包括文书的排版、语法结构、法律术语的使用等，保证文书语言的自然流畅和专业准确。最后，法律文本生成不仅需要符合特定的格式规范，还要在生成内容上满足指令的要求，这就需要对模型进行微调，使用特定的指令来调整模型，以提高模型的预测准确性和相关性。大语言模型还通过人类强化反馈机制，经过多轮次的强化学习来不断改进模型，包括错误检测和纠正机制。

五、法律大语言模型司法应用的挑战

尽管大语言模型在司法领域表现出强劲的应用潜力，但在法律推理、司法证明、法律论证以及司法自由裁量等领域仍然面临极大的挑战。这些挑战不仅源于生成式人工智能技术层面的局限性，还由于法律实践本身的复杂性和人类认知的独特性所致。司法决策不仅涉及对文字和语言的处理，更需要对法律概念、原则和规则的深刻理解，以及在具体司法情境中的灵活应用。

（一）

法律推理之所不能

大语言模型擅长法律大数据推断（inference），这是一种基于概率拟合的统计学推断，其发生原理与法律人的法律逻辑推理（reasoning）有本质的差别。大语言模型的推断能力源于其海量数据训练和复杂的神经网络架构，超大规模参数赋予了大语言模型“涌现”的能力。思维链（chain-of-thought）方法的引入提升了大语言模型解决复杂问题的能力，使得模型能够生成一系列的中间步骤，这类似于人类解决问题时的逻辑思维过程。然而，大语言模型推断能力背后的生成机理仍然模糊不清。因此，大语言模型继承通用大语言模型的逻辑推理能力并不可靠，更无法满足司法对透明性和可解释性的要求。比较而言，法律人的逻辑思维与生俱来，经过法学专业学习和法律职业锻炼又形成了特有的法律逻辑思维。霍尔姆斯认为法律逻辑思维是法律人的基本素养，他在《法律的道路》一书中说道：“法律人的训练，是逻辑的训练。类推、区别、演绎等方法，都是法律人拿手的绝活。司法判决所使用的语言，主要都是逻辑语言。”在传统逻辑的各个分支当中，演绎推理最受法学家的关注，司法三段论被奉为是法律推理的“圭臬”。类比推理和归纳推理在英美法系国家是判例推理的逻辑基础。无论是演绎推理还是类比推理或归纳推理，法律逻辑推理的基本特征是可解释性，即由前提推理得到结论的过程是可解释的。如果推理出现错误，那么可以追溯找到推理的错误所在。

大语言模型还远不能够替代法律人的法律推理。首先，法律专业人员在处理案件时依赖于对法律原则和规则的深入理解以及对个案事实的综合考量。他们不仅分析案件材料，还将法律知识和经验应用于具体情境，进行更为深入和个案化的分析。其次，大语言模型虽然能够处理某些逻辑结构（如模式识别或数据驱动的因果关系等），但在更复杂的法律推理方面，如包含复杂证据和推论的深层次逻辑分析和严密的证明过程，其推理能力有限。大语言模型的“推理”是基于模式匹配和概率推断，而不是由高阶智能产生的逻辑推演。再次，大数据推理的逻辑不同于人类推理的思维逻辑，两者有本质上的区别。以类比推理为例，它是一种扩展性推理，这种比较源于人类对相似性的判断，它是从常识和经验中获得的。最后，法律人的法律逻辑推理除了形式推理之外还有实质推理的因素，法律人的决策往往依赖于过往的经验和直觉来作出判断，它们是在长期的法律工作中积累的。大语言模型无法从大数据视角来理解个案的情境，也无法像法律人那样通过长期的法律实践和经验积累来提升法律决策的质量。因而，大语言模型仍无法通过抽象的逻辑思维来理解法律概念及其之间的关系并将其应用于新的情境。

（二）

司法证明之所不能

“司法证明指事实主张者（一切案件中的当事人、公诉人）或反驳者（往往是另外的事实的主张者）在诉讼（特别是庭审）中通过举出人证和物证的方式，对待证事实（诉争事实）进行证明。”司法证明以证明案件事实为目标。对待证事实的证明首先要采纳证据，常见的标准包括：关联性标准，即证据的自然属性是证据与案件事实之间客观存在的联系；合法性标准，即证据必须在取证的主体、程序、手段以及证据的形式等方面都符合法律的要求或规定。证据还需要进一步得到采信，最基础的标准是真实性标准，即证据经过查证属实才能作为定案的根据。显然，对证据的采纳和采信都离不开法律人对证据的主观性评估。例如，在评估证据的关联性时，需要借助经验和对因果关联的判断来认定证据与事实之间是否有关联；又如，真实性标准最终还要依赖人来判断法律事实是否足够逼近客观事实。然而，大语言模型依靠机器学习算法来实现自主学习和迭代优化的性能，其设计和运行机制决定了它只能通过数据训练和算法计算来预测和辅助决策，而不具备像人类一样去感知、思考和判断事物的能力。这意味着大语言模型无法通过观察、分析和比较等方式来感知证据的存在，同样也无法确定证据来源的可靠性、证据内容的完整性、证据间的矛盾点等更深层次的问题，因而，大语言模型难以处理司法证明中的证据认定。

除了对证据本身的认定，司法证明还需要深入探讨证据与案件事实之间的联系。现有司法解释明确要求裁判者“运用证据进行的推理符合逻辑和经验”。法官需要运用其丰富的法律专业知识，审判经验以及逻辑思维能力，对控辩双方提供的证据进行审查和评估，最终确定案件的基本事实。“与存在的客观性相比，经验性是事实的本质特性。事实是人通过感官和思维所把握的真实存在。”案件事实认定需要遵循一定的程序规则。法院审理案件通常采用的是“控辩式”模式，即控方负责提供证据，辩护方则有权提出质疑和反驳。因此，法官需要在庭审中听取双方的陈述和质证，并对证据进行严格的审查和判断。同时，案件事实认定还需要具有说理性。法官需要将自己的内心确信转化为释法说理，使得审判能够被理解和接受。这种说理性不仅体现在法官的判决书中，还应该贯穿整个审判流程中的所有法律文书之中。然而，大语言模型难以准确识别和处理与案件相关的复杂法律问题和细微的事实差别。同样，大语言模型也无法避免算法偏见所带来的歧视问题，甚至会因为算法的偏见导致预测结果的不公正。“事实乃是对呈现于感官之前的事物或现象的某种实际情况的一种断定或陈述。”人工智能能够解决语法问题，但尚未逾越语义和语用两道屏障，因而，人工智能对事实认定结论的表达目前尚属一种理想。因此，虽然大语言模型可以在一定程度上辅助司法证明的工作，但最终的判断还是要依赖于法律人的智慧。

（三）

法律解释之所不能

法无解释不得适用。“法律解释是指定特定法律规定意义的说明。”为了避免法律的机械适用，必须对法律进行解释。法律解释有利于实现立法目的、统一法律适用、约束法官的自由裁量权，并保障人们对法律安定性的合理预期。作为一种法律方法，法律解释衍生出多样化的理论阐释。萨维尼将法律解释方法概括为文义解释、体系解释、目的解释和历史解释。例如，文义解释又被认为是法律解释的最基本方法，具体涵盖了字面、限缩、扩张、法意、合宪、体系、语法和比较等解释方法。但法律解释并不能简单等同于对法律文字本身的解释。阿列克西的外部证成理论旨在对解释进行证成，解释的准则可以分为六组：语义学解释、发生学解释、历史解释、比较解释、体系解释和目的论解释。苏力教授还将法律解释方法归纳为文义解释、法意解释和目的解释、语境解释和体系解释等。显然，大语言模型虽然能进行基本的文本分析，但缺乏理解法律文本背后深层含义的能力，包括理解法律条文的目的、法意，及其在特定社会、历史语境中的意义。大语言模型无法像法律人一样捕捉法律语言的微妙性和复杂性，无法进行原创性思考和创新解释，缺少对法律原则的深入理解。因而，大语言模型尚不能够胜任通过法律解释来阐释法律规定的意义。

法律解释的最直接含义是法官在法律文义的可能范围之内进行解释。文义解释是对法律文本的字面含义所进行的解释。通常有两种理解：一是针对法律文本的字面含义，按照语法结构和语言规则、通常理解等方法所进行的解释；二是使文本的字面含义具体化，阐释其字面含义，确定文本的意思。由于文义解释通常不考虑法条字面以外的因素，因而大语言模型可以在一定程度上对法律概念、法律条款和法律案例进行文义解释，这主要涉及对语言的理解、语法结构的分析以及在一般语境中的常规理解。然而，对于需要借助法理、复杂语境和生活经验的文义解释，大语言模型仍然不能够胜任。比较而言，大语言模型在复杂的法律解释方法上更不尽如人意。以体系解释为例，体系解释是通过整体来解释某一具体法律规范的含义，它以法律的外在体系为基础进行解释。换言之，体系解释就是将法律条文放置在整个法律体系中进行解读，通过考察其与其他条文的关联来进行法律解释。体系解释依赖于法律人对法律体系的充分了解以及案件本身相关的法律法规，由此作出合乎逻辑的解释。大语言模型难以根据对法律体系的内在关系的理解来进行合理的关联性解释，因而对于这类任务不能够给出合理的系统解释。同理，在当然解释、目的解释、历史解释和社会学解释等方面，大语言模型也尚不具备法律解释的能力。

（四）

法律论证之所不能

魏斌：法律大语言模型能与不能的冷思考 | 最高法发布法律基座大语言模型

主要观点总结

关键观点总结

关键观点1: 法律大语言模型的能力

关键观点2: 法律大语言模型的规范使用

关键观点3: 大语言模型与法律人的关系

正文

请到「今天看啥」查看全文