专栏名称: 人工智能学家

致力成为权威的人工智能科技媒体和前沿科技研究机构

复旦大学：2024大语言模型的能力边界与发展思考报告

人工智能学家 · 公众号 · AI · 2024-11-15 17:58

正文

“欧米伽未来研究所”关注科技未来发展趋势，研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展和未来趋势研究。（ 关于欧米伽理论）

来源：欧米伽未来研究所

一、引言

在当今科技飞速发展的时代，大语言模型如 ChatGPT 等成为了人们关注的焦点。它们在诸多领域展现出了惊人的能力，从写诗、写代码到辅助医疗诊断，似乎无所不能。然而，随着应用的深入，人们也逐渐发现大语言模型并非万能，其在落地应用中面临着诸多挑战，其能力边界也逐渐成为研究的重要课题。复旦大学的这份报告对大语言模型的能力边界与发展进行了深入探讨，有助于我们更全面、深入地了解这一前沿技术。

二、大语言模型的基本原理与训练过程

（一）基本原理
大语言模型的核心任务是根据已有的文本生成合理的延续内容。它通过对数十亿个网页、数字化书籍等人类撰写内容的统计规律进行学习，推测接下来可能出现的文字。例如，当给定一段文本 “今天天气真好”，模型会基于其学习到的语言模式和常见搭配，生成诸如 “适合出去游玩”“让人心情愉悦” 等合理的后续内容。

（二）训练过程

预训练阶段

知识记忆与表示学习：在这个阶段，模型接触数千亿单词的图书、百科、网页等海量数据。通过对这些数据的学习，模型进行知识压缩和表示学习，将知识以一种特定的方式存储在模型参数中。例如，对于一些常见的知识，如历史事件、科学概念等，模型会学习到其相关的表述方式和语义关系。
能力提升：模型能够对输入的文本进行初步的理解和处理，学习到语言的基本结构和语义信息。同时，通过大规模的数据训练，模型可以达到一定程度的知识存储能力，如 2bit / 参数的知识存储能力（在有足够训练的情况下）。

有监督微调阶段

任务能力注入：利用少量数据训练模型具备特定任务能力。例如，在知识问答任务中，针对 “复旦大学有几个校区？” 这样的问题，标注人员构造目标答案 “复旦大学现有 4 个校区，分别是邯郸校区、新江湾校区、枫林校区和张江校区。其中邯郸校区是复旦大学的主校区，邯郸校区与新江湾校区都位于杨浦区，枫林校区位于徐汇区，张江校区位于浦东新区。” 模型通过学习这些标注数据，逐渐掌握回答此类问题的能力。
训练策略：包括多种方式，如多任务学习、顺序训练等。不同的训练策略对模型性能有不同影响。例如，在一些实验中发现，参数量大的模型在使用相同数量的数据进行训练时表现出更优越的性能；混合数据来源在低资源场景中可能提高性能，但在高资源场景中性能可能下降。

奖励函数与强化学习阶段

提升表现：通过奖励函数和强化学习，模型进一步优化其输出。例如，在回答问题时，如果模型给出了准确、有用的答案，就会得到较高的奖励，从而引导模型在后续的生成中更倾向于给出高质量的回答。
训练框架：如 RLHF（基于人类反馈的强化学习）训练框架，通过人类对模型输出的偏好标注，不断调整模型参数，使模型的输出更符合人类期望。

三、大语言模型的能力边界

（一）知识记忆与运用

知识记忆能力

模型在预训练阶段能够记住大量知识，但需要足够多的 “曝光” 才能完成记忆。对于每个知识，要达到 1000 次曝光才能较好地存储，如果只有 100 次曝光，知识记忆能力会显著下降。例如，一些生僻的专业知识，如果在训练数据中出现次数较少，模型可能无法准确记忆和运用。
训练数据的质量对知识记忆至关重要。高质量、高知识密度的数据有助于模型更好地学习知识，而 “垃圾数据” 会对知识获取产生显著影响。例如，在含有大量错误信息或无关信息的数据中，模型难以准确提取有用知识。

知识运用能力

检索能力：模型在一定程度上可以回答如 “person A 的属性 X 是什么？” 这样的问题，但准确性取决于模型对相关知识的记忆和理解。例如，询问 “爱因斯坦的出生日期”，模型可能能够给出正确答案，但对于一些更复杂、模糊的检索问题，可能会出现错误。
分类和比较能力：语言模型在分类和比较任务上表现较差。如对于 “Is A 的属性 X 是偶数还是奇数？”“Is A 在属性 X 上大于 B？” 这样的问题，模型的准确率较低。例如，判断两个人的出生月份谁更早这样的比较任务，GPT4 的准确率仅为 52.3%（在 1900 - 1910 年出生的人群中）。
逆向搜索能力：模型通常无法进行逆向知识搜索，除非知识以逆序出现在预训练数据中。例如，对于 “哪个人的属性 X 等于 T？” 这样的逆向问题，模型很难准确回答。

（二）推理能力

逻辑推理

在一些简单的逻辑推理任务中，大语言模型能够表现出一定的能力。但在需要复杂逻辑推理的任务中，模型的准确率会显著下降。例如，在数学推理中，面对一些需要多步推理的问题，模型可能会出错。如在高考数学题的测试中，大模型虽然能回答部分题目，但即便正确回答的题目，计算过程和答案不相符的比例也很高。

在处理分布外数据集时，模型的逻辑推理能力面临挑战。例如，GPT - 4 擅长解决著名的逻辑推理阅读理解基准，但在处理新创建的分布外数据集合时，性能明显下降。

归纳推理

当任务复杂程度增大时，模型的归纳推理能力有限。例如，在乘法计算任务中，随着数字位数的增加，模型的准确率接近为 0。即使在训练过程中加入过程解释（如在计算 35 乘以 90 时，详细列出计算步骤），其作用也十分有限。

演绎推理

大模型在多跳知识问题的推理中可能存在问题。例如，在涉及多步推理的知识问答中，模型可能会应用在预训练阶段学习到的事实捷径，而不是进行准确的逻辑推导。如在询问下一届奥运会举办地相关问题时，即使知识被编辑修改，模型可能仍给出错误答案。

（三）文本生成能力

语言生成的多样性与准确性

模型可以生成看似合理的文本，但在语言多样性方面存在一定问题。同样的语义可以用多种不同文字描述，但模型可能无法完全涵盖所有合理的表达方式。例如，在创作故事时，可能会生成较为常规的情节和表述，缺乏创新性和独特性。
生成的文本可能存在事实性错误或逻辑不连贯的情况。尤其是在涉及专业知识或复杂情境时，模型可能会生成不准确的内容。

对特定领域知识的理解与应用

在一些需要专业知识的领域，模型虽然能生成相关文本，但可能缺乏深入的理解。例如，在医学领域，虽然能提供一些疾病的基本信息，但对于复杂疾病的诊断和治疗建议可能不准确。
在处理特定格式或要求严格的文本时，模型可能无法完全满足需求。如在起草合同等法律文件时，即使具备一定的知识，也难以生成完全符合法律规范和实际需求的文本。

（四）任务执行能力

单一模型多任务处理

单个大语言模型可以处理数千种任务，但仍需要逐项进行优化。不同任务对模型的要求不同，模型在不同任务上的表现也有差异。例如，在知识问答任务中表现较好的模型，在规划任务中可能表现不佳。

规划能力

在规划任务中，如在 Mystery Blocks World 的规划任务测试中，模型的表现并不理想。例如，对于让橙色积木在蓝色积木上面这样的简单规划目标，不同模型的成功率都较低，Claude 3.5 Sonnet 在 One Shot 情况下的成功率仅为 3.1%，GPT - 4o 在 Zero Shot 情况下成功率为 0%。

四、大语言模型的发展思考

（一）当前面临的问题

训练数据与模型性能

训练数据的规模和质量对模型性能影响巨大。虽然大规模数据有助于模型学习更多知识，但同时也带来了数据管理和筛选的挑战。例如，如何确保数据的准确性、多样性和时效性，避免 “垃圾数据” 的干扰，是当前需要解决的问题。
模型在不同任务上对数据量的需求不同，如何确定最优的数据量和数据分布，以提高模型在各种任务上的性能，仍需进一步研究。

模型的可解释性与安全性

大语言模型的决策过程和输出结果往往难以解释。这在一些关键应用领域，如医疗、金融等，可能会带来风险。例如，在医疗诊断中，如果模型给出了诊断建议，但无法解释其依据，医生和患者难以信任和应用。
模型可能会生成有害、不道德或不符合社会规范的内容。如何确保模型的输出安全、合规，是发展过程中需要关注的重要问题。例如，防止模型生成歧视性、虚假宣传等内容。

模型的能力边界与应用场景适配

对模型能力边界的清晰认知有助于更好地选择应用场景。但目前在实际应用中，往往存在对模型能力过度期望或错误应用的情况。例如，在一些需要高精度和专业知识的场景中，如设计资料审核，如果仅依赖大语言模型，可能无法达到预期效果，还需要结合专业人员的判断。

（二）未来发展路径

追求 AGI（通用人工智能）

目标：OpenAI 等机构致力于发展 AGI，旨在让模型代替人类完成所有脑力劳动，具有自我学习、自我进化能力。例如，像人类一样能够自主学习新知识、适应新环境、解决各种复杂问题。
挑战：这需要不断扩大模型的参数规模（如达到 1 万亿、5 万亿、10 万亿等）、增加训练数据量（10TB、20TB、40TB、100TB 等）以及扩大 GPU 卡规模（1 万、5 万、10 万甚至 100 万卡）。然而，目前在模型的推理和世界知识建模能力构建方面面临巨大挑战，并且资本消耗巨大。

聚焦特定任务应用

目标：针对特定任务进行优化，用相对较小规模的模型（如 1B、3B、7B、14B、30B、70B 等参数规模），结合几千到几万条训练数据，在特定领域或任务中发挥作用。例如，在智能客服、简单文本生成等领域。
挑战：需要准确判断模型在不同任务上的能力边界，选择合适的应用场景。同时，要确保在特定任务中的应用具有实际价值，能够真正提高效率或解决问题。

（三）推动发展的策略

基础理论研究

深入研究大语言模型的基础理论，如知识存储、表示学习、推理机制等。例如，通过对知识容量缩放定律等的研究，更好地理解模型如何学习和运用知识，为模型的改进提供理论依据。

改进训练方法

探索更有效的训练方法，如优化有监督微调的策略、改进强化学习算法等。例如，研究如何在不影响模型世界知识的前提下，提高模型在特定任务上的性能，避免大规模微调导致的知识遗忘等问题。

建立评估与验证体系

建立完善的评估和验证体系，对模型的性能、能力边界、安全性等进行全面评估。例如，在模型应用前，通过各种测试数据集和实际场景测试，准确评估模型的适用性和可靠性，确保模型在实际应用中的有效性和安全性。

五、结论

大语言模型在过去几年中取得了显著的发展，展现出了强大的文本生成和一定程度的知识处理能力。然而，通过对其能力边界的深入分析，我们发现它们在知识运用、推理、任务执行等多方面仍然存在局限性。在未来的发展中，无论是追求 AGI 还是聚焦特定任务应用，都需要克服诸多挑战。一方面，要不断投入资源进行基础理论研究和技术创新，提高模型的性能和能力；另一方面，要理性看待模型的能力，合理选择应用场景，充分发挥其优势，避免盲目应用带来的风险。只有这样，大语言模型才能在科技发展和社会进步中发挥更大的、积极的作用。同时，社会各界也需要共同关注模型的发展，加强监管和引导，确保其安全、可靠、有益地发展。

阅读最新前沿科技研究 报告，欢迎访问欧米 伽研究所的“未来知识库”

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000 篇重要资料。 每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或点击本文左下角“阅读原文”进入。

截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告

1. 牛津大学博士论文《深度具身智能体的空间推理与规划》230页

2. 2024低空经济场景白皮书v1.0（167页）

3. 战略与国际研究中心（CSIS）人类地月空间探索的总体状况研究报告（2024）

4. 人工智能与物理学相遇的综述（86页）

5. 麦肯锡：全球难题，应对能源转型的现实问题（196页）

6. 欧米伽理论，智能科学视野下的万物理论新探索（50页报告）

复旦大学：2024大语言模型的能力边界与发展思考报告

正文

请到「今天看啥」查看全文