你是否读过大语言模型综述文章《A Survey of Large Language Models》?这是学术界首篇系统介绍大语言模型技术的综述性文章,成为了很多人入门大模型的必读论文,目前引用次数已经突破3700次,获得了学术界的广泛关注。其中绘制的模型演进图、技术统计表被广泛传播、使用。
为了进一步推动我国大模型技术的发展,该综述文章作者团队经过数月的写作与修订,于近日《大语言模型》中文书籍正式出版上线。该书注重为读者提供系统性的知识讲解,力图展现一个整体的大模型技术框架和路线图,权威且系统!
本书由中国人民大学师生联手打造,由赵鑫教授和文继荣教授领衔,博士生李军毅、周昆和硕士唐天一参与编著,作者团队在大模型领域有着丰富的研究与开发经验,曾主导研发了文澜、玉兰等大模型。
赵鑫
中国人民大学高瓴人工智能学院教授,北京大学博士,国家自然科学基金优秀青年科学基金项目获得者。研究方向为大模型与自然语言处理,组织编写了大语言模型英文综述文章“A Survey of LargeLanguage Models”。
李军毅
新加坡国立大学研究员,中国人民大学与加拿大蒙特利尔大学博士,研究方向为大模型与自然语言处理。
周昆
中国人民大学博士,曾获微软学者奖学金、百度奖学金、字节跳动奖学金,研究方向为多模态理解与自然语言处理。
唐天一
阿里巴巴通义千问高级算法工程师,曾获国家奖学金、ACM-ICPC银奖,研究方向为大模型与自然语言处理。
文继荣
中国人民大学高瓴人工智能学院执行院长,国家高层次人才专家,曾任微软亚洲研究院高级研究员和互联网搜索与挖掘组主任。长期从事人工智能和大数据领域的研究工作,近年来尤其专注于大模型相关方向的研究。
本书的编者长期从事大模型技术的相关研究,曾组织研发了文澜、玉兰等一系列大模型,具有深厚的科研与实践积累。本书内容深入结合了编者在研发大模型过程中的第一手经验,全面覆盖了大模型技术的多方面知识,可以作为深入学习大模型技术的参考书籍,强烈推荐阅读!
张宏江 北京智源人工智能研究院学术顾问委员会主任、美国国家工程院外籍院士
本书的编写团队于2023年3月发布了学术界首篇大语言模型综述文章“A Survey of Large Language Models”,受到了广泛关注。在这篇经典综述文章基础上,编写团队对编写内容进行了精心组织与撰写,并且融入了其长期从事大模型技术的科研经验。本书具有重要的参考与学习价值,是一部值得推荐的大模型佳作。
大模型作为一种快速兴起的人工智能技术,已经深刻地影响了未来的科技发展趋势。为了更好地推进大模型技术在我国的学习与普及,亟须有专业的中文技术图书进行系统介绍。本书是一部精心编写的大模型技术图书,涵盖了预训练、微调、对齐、提示工程等众多基础内容,能够为相关从业人员提供权威的、系统的学习参考,强烈推荐阅读。
张亚勤 清华大学智能科学讲席教授、中国工程院外籍院士
本书内容基本全覆盖大语言模型训练与使用的全流程,从预训练到微调与对齐,从使用技术到评测应用,帮助读者全面掌握大语言模型的核心技术。
本书以核心算法技术为基础,并配有大量的代码实战与讲解,同时搭配相关的开发工具包LLMBox与YuLan大模型,供读者深入阅读理解相关技术。
本书兼顾理论深度与阅读体验,以清晰的语言与丰富的图解,降低技术门槛,让初学者和专业人士都能轻松上手。
我们梳理了自2019年以来的各大学术机构的大语言模型发展历程,可以看到近三年大模型的井喷式发展
我们整理了基于LLaMA模型的各类衍生工作,通过继续预训练、指令微调等方法,LLaMA可以适配到不同的语言、多样的领域
本书通过图片、表格、公式、示例、代码、实验结果等多样化的展示形式,力求向读者深入浅出地讲解大模型的不同技术
本书收集了不同的预训练数据过滤技巧,以“建议”的形式向读者更好地展示具体的过滤方法
本书基于配套开发工具包LLMBox与YuLan大模型,展示了完整的指令微调代码,读者可以“端到端”上手实践
书籍目录(共四个部分、13个章节,全书357页):
第一部分 背景与基础知识
第1章 引言
第2章 基础介绍
第4章 数据准备
第5章 模型架构