“欧米伽未来研究所”关注科技未来发展趋势,研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展和未来趋势研究。(
关于欧米伽理论)
来源: 欧米伽未来研究所
在当今科技飞速发展的时代,大语言模型如 ChatGPT 等成为了人们关注的焦点。它们在诸多领域展现出了惊人的能力,从写诗、写代码到辅助医疗诊断,似乎无所不能。然而,随着应用的深入,人们也逐渐发现大语言模型并非万能,其在落地应用中面临着诸多挑战,其能力边界也逐渐成为研究的重要课题。复旦大学的这份报告对大语言模型的能力边界与发展进行了深入探讨,有助于我们更全面、深入地了解这一前沿技术。
(一)基本原理
大语言模型的核心任务是根据已有的文本生成合理的延续内容。它通过对数十亿个网页、数字化书籍等人类撰写内容的统计规律进行学习,推测接下来可能出现的文字。例如,当给定一段文本 “今天天气真好”,模型会基于其学习到的语言模式和常见搭配,生成诸如 “适合出去游玩”“让人心情愉悦” 等合理的后续内容。
-
-
知识记忆与表示学习:在这个阶段,模型接触数千亿单词的图书、百科、网页等海量数据。通过对这些数据的学习,模型进行知识压缩和表示学习,将知识以一种特定的方式存储在模型参数中。例如,对于一些常见的知识,如历史事件、科学概念等,模型会学习到其相关的表述方式和语义关系。
-
能力提升:模型能够对输入的文本进行初步的理解和处理,学习到语言的基本结构和语义信息。同时,通过大规模的数据训练,模型可以达到一定程度的知识存储能力,如 2bit / 参数的知识存储能力(在有足够训练的情况下)。
有监督微调阶段
-
任务能力注入:利用少量数据训练模型具备特定任务能力。例如,在知识问答任务中,针对 “复旦大学有几个校区?” 这样的问题,标注人员构造目标答案 “复旦大学现有 4 个校区,分别是邯郸校区、新江湾校区、枫林校区和张江校区。其中邯郸校区是复旦大学的主校区,邯郸校区与新江湾校区都位于杨浦区,枫林校区位于徐汇区,张江校区位于浦东新区。” 模型通过学习这些标注数据,逐渐掌握回答此类问题的能力。
-
训练策略:包括多种方式,如多任务学习、顺序训练等。不同的训练策略对模型性能有不同影响。例如,在一些实验中发现,参数量大的模型在使用相同数量的数据进行训练时表现出更优越的性能;混合数据来源在低资源场景中可能提高性能,但在高资源场景中性能可能下降。
奖励函数与强化学习阶段
-
知识记忆能力
-
模型在预训练阶段能够记住大量知识,但需要足够多的 “曝光” 才能完成记忆。对于每个知识,要达到 1000 次曝光才能较好地存储,如果只有 100 次曝光,知识记忆能力会显著下降。例如,一些生僻的专业知识,如果在训练数据中出现次数较少,模型可能无法准确记忆和运用。
-
训练数据的质量对知识记忆至关重要。高质量、高知识密度的数据有助于模型更好地学习知识,而 “垃圾数据” 会对知识获取产生显著影响。例如,在含有大量错误信息或无关信息的数据中,模型难以准确提取有用知识。
知识运用能力
-
检索能力:模型在一定程度上可以回答如 “person A 的属性 X 是什么?” 这样的问题,但准确性取决于模型对相关知识的记忆和理解。例如,询问 “爱因斯坦的出生日期”,模型可能能够给出正确答案,但对于一些更复杂、模糊的检索问题,可能会出现错误。
-
分类和比较能力:语言模型在分类和比较任务上表现较差。如对于 “Is A 的属性 X 是偶数还是奇数?”“Is A 在属性 X 上大于 B?” 这样的问题,模型的准确率较低。例如,判断两个人的出生月份谁更早这样的比较任务,GPT4 的准确率仅为 52.3%(在 1900 - 1910 年出生的人群中)。
-
逆向搜索能力:模型通常无法进行逆向知识搜索,除非知识以逆序出现在预训练数据中。例如,对于 “哪个人的属性 X 等于 T?” 这样的逆向问题,模型很难准确回答。
-
逻辑推理
在一些简单的逻辑推理任务中,大语言模型能够表现出一定的能力。但在需要复杂逻辑推理的任务中,模型的准确率会显著下降。例如,在数学推理中,面对一些需要多步推理的问题,模型可能会出错。如在高考数学题的测试中,大模型虽然能回答部分题目,但即便正确回答的题目,计算过程和答案不相符的比例也很高。
在处理分布外数据集时,模型的逻辑推理能力面临挑战。例如,GPT - 4 擅长解决著名的逻辑推理阅读理解基准,但在处理新创建的分布外数据集合时,性能明显下降。
-
归纳推理
当任务复杂程度增大时,模型的归纳推理能力有限。例如,在乘法计算任务中,随着数字位数的增加,模型的准确率接近为 0。即使在训练过程中加入过程解释(如在计算 35 乘以 90 时,详细列出计算步骤),其作用也十分有限。
-
演绎推理
大模型在多跳知识问题的推理中可能存在问题。例如,在涉及多步推理的知识问答中,模型可能会应用在预训练阶段学习到的事实捷径,而不是进行准确的逻辑推导。如在询问下一届奥运会举办地相关问题时,即使知识被编辑修改,模型可能仍给出错误答案。
-
语言生成的多样性与准确性
对特定领域知识的理解与应用
-
单一模型多任务处理
规划能力
-
训练数据与模型性能
模型的可解释性与安全性
模型的能力边界与应用场景适配
-
追求 AGI(通用人工智能)
-
目标:OpenAI 等机构致力于发展 AGI,旨在让模型代替人类完成所有脑力劳动,具有自我学习、自我进化能力。例如,像人类一样能够自主学习新知识、适应新环境、解决各种复杂问题。
-
挑战:这需要不断扩大模型的参数规模(如达到 1 万亿、5 万亿、10 万亿等)、增加训练数据量(10TB、20TB、40TB、100TB 等)以及扩大 GPU 卡规模(1 万、5 万、10 万甚至 100 万卡)。然而,目前在模型的推理和世界知识建模能力构建方面面临巨大挑战,并且资本消耗巨大。
聚焦特定任务应用
-
基础理论研究
改进训练方法
建立评估与验证体系
五、结论
大语言模型在过去几年中取得了显著的发展,展现出了强大的文本生成和一定程度的知识处理能力。然而,通过对其能力边界的深入分析,我们发现它们在知识运用、推理、任务执行等多方面仍然存在局限性。在未来的发展中,无论是追求 AGI 还是聚焦特定任务应用,都需要克服诸多挑战。一方面,要不断投入资源进行基础理论研究和技术创新,提高模型的性能和能力;另一方面,要理性看待模型的能力,合理选择应用场景,充分发挥其优势,避免盲目应用带来的风险。只有这样,大语言模型才能在科技发展和社会进步中发挥更大的、积极的作用。同时,社会各界也需要共同关注模型的发展,加强监管和引导,确保其安全、可靠、有益地发展。
阅读最新前沿科技研究
报告,欢迎访问欧米
伽研究所的“未来知识库”
未来知识库
是“
欧米伽
未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。
目前拥有超过8000
篇重要资料。
每周更新不少于100篇世界范围最新研究
资料
。
欢迎扫描二维码或点击本文左下角“阅读原文”进入。
截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告
1. 牛津大学博士论文《深度具身智能体的空间推理与规划》230页
2. 2024低空经济场景白皮书v1.0(167页)
3. 战略与国际研究中心(CSIS)人类地月空间探索的总体状况研究报告(2024)
4. 人工智能与物理学相遇的综述(86页)
5. 麦肯锡:全球难题,应对能源转型的现实问题(196页)
6. 欧米伽理论,智能科学视野下的万物理论新探索(50页报告)