专栏名称: 储能科学与技术
《储能科学与技术》是化学工业出版社主办的储能领域唯一中国科技核心期刊,全球公开发行,力求全面关注储能最新科技产业动态。联系方式:www.energstorage-journal.com;[email protected];64519601。
目录
相关文章推荐
跟宇宙结婚  ·  节目更新:跟宇宙结婚悄悄话 vol.245 ... ·  2 天前  
跟宇宙结婚  ·  一屏文:打吗?不打可不看|跟宇宙结婚 ·  3 天前  
跟宇宙结婚  ·  日常唠叨:上饿了么搜【跟宇宙结婚】领红包哟 ·  3 天前  
51好读  ›  专栏  ›  储能科学与技术

《储能科学与技术》推荐|清华大学张强教授团队:大语言模型在储能研究中的应用

储能科学与技术  · 公众号  ·  · 2025-02-17 17:00

正文

作者: 袁誉杭 高宇辰 张俊东 高岩斌 王超珑 陈翔 张强

单位: 清华大学化学工程系绿电化工中心

引用: 袁誉杭 , 高宇辰 , 张俊东 , . 大语言模型在储能研究中的应用 [J]. 储能科学与技术 , 2024, 13(9): 2907-2919.

DOI 10.19799/j.cnki.2095-

4239.2024.0176

本文亮点: 1.本文总结了大语言模型的基本概念及原理。2.本文从信息处理、信息生成、代码生成和全流程实验平台等四个方面详细探讨大语言模型在储能研究中的应用。3.本文总结并展望了储能与人工智能交叉领域研究所面临的主要挑战和未来主要发展方向。

摘 要 在碳达峰、碳中和的大背景下,储能科学作为一门信息密集、多学科交叉的研究领域,迫切需要新研究方法以应对其日益复杂的难题与挑战。随着人工智能技术的快速发展,大语言模型在文本处理、信息收集与整合、图片与视频生成等领域取得了巨大的成功,其应用也在逐渐延伸至自然科学研究领域,并在提升科研效率等方面展现出了巨大的潜力,有望助力储能科学应对未来挑战。本文首先以ChatGPT为例,回顾了人工智能和大语言模型领域的重大进展,从社会生活和科学研究两方面分析了这些进展所产生的影响,整理了国内重点的大语言模型;然后结合储能领域的具体案例介绍大语言模型的基本概念及原理,并从信息处理、信息生成和系统集成三个方面详细探讨大语言模型在储能研究中的应用,凸显这一全新研究方法的实际效果与发展前景;最后结合具体时代背景,指出大语言模型与储能交叉研究的挑战与未来发展方向,并对这一新领域做出总结和展望。
关键词 大语言模型; 人工智能; 储能技术; 二次电池
随着全球能源消费的急剧增长,传统化石燃料造成的环境污染问题日益突出,化石能源枯竭问题亦不可忽视。发展先进储能技术,利用风能、太阳能等清洁可再生能源成为应对未来能源危机与环境问题的重要手段。尽管以锂离子电池为代表的先进储能技术在当代社会的电动交通、消费电子器件、智能电网等领域取得了广泛的应用,高能量密度(>500 Wh/kg)、高功率密度(>4 C)、长循环寿命(>15000圈)、高安全性等新需求对未来储能技术的发展提出了更高的要求。经过数十年的快速发展,储能领域数据与信息快速累积、材料体系与制造工艺日益复杂、大规模集成应用对系统管理要求越发严苛,因此储能行业的进一步发展面临着全新的巨大挑战,也迫切需要新研究方法的介入来创造新的机遇与发展空间。
近年来,人工智能领域的大模型快速发展,涌现出诸多令人瞩目的成果,例如战胜世界围棋冠军的AlphaGo和能够高精度预测蛋白质结构的AlphaFold,这些大模型正在引领产业的变革。大语言模型(large language model,LLM)是一种旨在理解和生成人类语言的人工智能大模型,尽管其发展历史不长,但近期在文本处理与生成、图片生成、视频生成等领域实现了快速发展。LLM由于具有卓越的语义理解能力和强大的迁移学习能力,在诸多应用领域受到了越来越广泛的关注。例如, OpenAI研究实验室于2018年6月开发了GPT-1,通过在不同的未标记文本语料库上对生成式语言模型进行预训练,随后针对特定任务对模型进行有区别的微调,提升了模型在常识推理、问答等方面的能力。2019年2月,OpenAI使用一个包含数百万个网页的数据库WebText让语言模型进行无监督学习,进一步开发了GPT-2。2020年5月,OpenAI开发了GPT-3,该模型在翻译、问答等任务中展现出优异的性能。2022年11月,OpenAI发布了ChatGPT(chat generative pre-trained transformer)。截至2023年1月末,ChatGPT的用户破亿,成为有史以来增长最快的消费应用软件。2023年3月,GPT-4发布,支持图片输入,更加可靠和具有创造力。随后,OpenAI基于Transformer和扩散模型架构,开发了视频生成模型Sora,再次展示了大语言模型的巨大潜力。
大语言模型的诞生对人类社会生活和科学研究产生了深远的影响。在社会生活方面,大语言模型可以更好地处理自然语言,进行信息的收集与整理,从而对传统的搜索引擎、咨询服务等行业产生极大的冲击;微软已经在其Office系列办公软件中植入Copilot,预示着未来的办公软件将进一步智能化、便捷化。OpenAI团队和宾夕法尼亚大学的研究人员指出,在美国约80%的工作中至少10%的工作任务受到大语言模型的影响,约19%的工作中至少50%的工作任务受到大语言模型的影响,服务业受到的影响将大于制造业。在科学研究方面,大语言模型可以帮助批量处理文献、收集与处理数据、撰写代码,成为一款强大而有效的科研辅助工具,将科研工作者从一些简单重复性的工作中解放出来,从而提高科研效率。
与此同时,国内的大语言模型也在不断发展,如百度的文心一言、腾讯的混元、科大讯飞的讯飞星火、智谱华章的智谱清言等。这些模型的功能正向着具体化、专业化的方向发展。其中,文心一言具备一定的文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成能力;混元能够针对文档、会议、广告和营销场景提供多样化的服务;讯飞星火具有文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力;智谱清言具备通用问答、总结、翻译文档、代码生成、创意写作、分析数据等能力。迄今,国内外已有数十甚至数百种大语言模型被公开报道(图1)。

图1 模型参数大于 10B 的大语言模型公开报道时间线
大语言模型的应用逐渐拓展至自然科学研究中,给储能技术发展与行业应用带来了全新的机遇。本文首先介绍大语言模型的相关概念,然后从信息处理、信息生成、系统集成等三个方面探讨大语言模型在储能研究领域中的应用,最后总结这一交叉领域发展当前所面临的主要挑战,并展望未来的发展方向。

1 大语言模型相关概念解析

为更全面、深入理解大语言模型在储能研究中的应用,本节将介绍大语言模型、人工神经网络和生成式语言模型这三个核心基础概念,简要概述大语言模型的工作原理,从而帮助读者更好地理解大语言模型在储能领域中的应用案例及现阶段面临的主要挑战。

1.1 大语言模型

大语言模型指使用大量文本数据训练、包含大量模型参数、用于自然语言处理的深度学习模型。大模型的“大”体现在两个方面:一方面是训练数据量大;另一方面是模型参数量大,常达亿以上规模。GPT是具有代表性、影响力较大的大语言模型,历代GPT的比较如表1所示。其中,GPT-4的训练模型参数量高达3000亿,且支持多模态学习任务,例如读取图片中信息或者根据文字生成对应图片。最近,化学大语言模型发展迅猛,例如北京科学智能研究院等发展的大原子模型DPA-2,有望在储能化学机制探究和储能材料设计等领域中实现广泛应用。

表1   对GPT-1、GPT-2、GPT-3、GPT-4的比较


1.2 人工神经网络模型

大语言模型的基本结构为人工神经网络(图2)。人工神经网络借鉴了神经元间相互联系的生理构造和传递信息的生理功能,可以用于回归、分类等任务。最简单的神经网络由输入层、隐藏层和输出层组成,每一层由多个神经元组成。对于单个神经元,在接收上一层神经元的数据并经过计算处理后,将数据传递给下一层神经元。人工神经网络能拟合高度非线性的场景,且适用于处理复杂多变的自然语言。

图2 人工神经网络模型
人工神经网络模型已经被广泛应用于储能研究领域,包括储能材料设计与储能器件管理。例如,麻省理工的Jeffrey Grossman教授团队近日提出COSNet(composition-structure bimodal network)模型预测物质性质,显著降低了禁带宽度、固态电解质中的锂离子电导率等性质的预测误差。电子科技大学刘芯言等采用长短期记忆循环神经网络模型预测锂硫电池、锂离子电池的循环寿命,并揭示了影响电池循环寿命的关键因素。

1.3 生成式语言模型

生成式语言模型是一种建立在一系列条件概率基础上的模型。该模型先接收输入词语 ,再通过条件概率 得到后续各种可能生成词语的概率,最后综合考虑条件概率和语法,产生新的词语(图3)。大语言模型的生成内容不局限于语言,还有表格、代码等,多样化的信息呈现方式使得大语言模型能够用于信息处理。但目前在将通用生成模型直接应用于专业性的化学问题时,模型的准确率较低。例如,ChatGPT预测分子的油水分配系数的相对平均误差为31%;ChatGPT将分子名称转化到SMILES的正确率仅为26%。因此,开发储能研究领域的高质量数据集和专业性生成式语言模型十分必要。

图3 生成式语言模型示意图

2 大语言模型在储能领域的应用

本节将从“信息处理”“信息生成”和“系统集成”三部分介绍大语言模型在储能研究中的应用。

2.1 信息处理

储能是当前学术研究的重要前沿与热点方向,每天都有大量文献发表。以锂离子电池为例,2023年Web of Science平台收录的文献超过了36000篇(检索词:lithium ion batter*)。虽然庞大的文献与数据积累可以为该领域研究者提供大量的参考,但同时也带来新的挑战。一方面,个人几乎不可能依靠传统方式阅读完领域内所有的文献与资料;另一方面,研究学术迫切需要的信息也常常淹没在知识的海洋中而难以被快速检索到。大语言模型能显著加快文献信息的处理过程,给储能研究从业者提供了强大的新工具。例如加州大学伯克利分校Omar M. Yaghi教授团队构建了ChatGPT化学助手来加速MOF(metal-organic framework)材料的设计开发(图4)。ChatGPT化学助手工作流程如图4(a)所示,首先通过Python程序将已发表文献分为文本片段,再经过筛选得到需要的文本片段,随后对文本进行分类,并从中取出与合成信息有关的段落,最后通过训练得到的语言模型以表格的形式呈现出文献的数据。在得到的合成数据表格的基础上,可以通过向大语言模型提问直接得到MOF合成方面的专业回答,最后结合领域专家知识开发后续材料合成实验。和传统的人工输入文献相比,AI辅助的信息搜集过程虽然使精度略有下降[图4(c)],但处理每篇文献所需要的总时间可以降低到人工处理文献所需时间的三分之一[图4(b)]。ChatGPT化学助手最终在预测MOF材料结晶性方面实现了87%的准确率,并初步确认了MOF结晶过程中的重要因素。

图4 ChatGPT 化学助手三种工作流程示意图。 (a) ChatGPT 化学助手工作流程图,三种工作流程分别用红点、蓝点和绿点标识; (b) 每种流程阅读和处理一篇文献的平均用时比较; (c) 每种流程的总平均精度、召回率和 F1 分数,图表中的灰色误差棒表示标准差
除了传统的大语言模型,专注于科研领域的大语言模型也正在涌现。为了快速收集结构化数据集,新南威尔士大学Bram Hoex教授团队提出了一种新的自然语言处理任务,结构化信息推理。科学家能够通过在其领域内选择高质量的综述文章来开发模型,从而批量得到材料和器件信息,如成分、结构、制备条件等。为了便于大语言模型高效理解化学分子信息,香港理工大学李青教授团队开发了一种用于分子翻译的MolReGPT框架,能够完成根据分子结构获取分子性质与描述性信息以及根据文本陈述获取目标分子的任务。
大语言模型能够以多种有效的方式呈现其加工后的信息。对于段落与文本,大语言模型能够对其进行分类,从大量的文本中精炼出有价值的信息,减少研究者文本处理的时间。对于数据,研究者可以要求大语言模型以一定的格式呈现数据,比如流程图、图片和表格。研究者可以借助大语言模型将传统的材料合成文字,并转化成简洁的流程图,从而使得材料合成过程的描述简化、规范化(图5)。图5(a)对比了两种合成表述方式(段落的文字表述与分步明确的流程图表述)的可读性,其中F-K值(flesch-kincaid grade level score of readability)越低表明可读性越高。由此可见,流程图相较于段落式的表达具有更高的可读性。

图5 使用 ChatGPT 将材料合成文本转为流程图的效果和图解。 (a) 传统文本和流程图的 F-K 可读性分数比较; (b) 使用 ChatGPT 将材料合成文本转化成流程图的形式
尽管能够极大地提高文献阅读和整理速度,现阶段的大语言模型依然存在弊端。首先,由于模型对领域知识的了解较为匮乏或者训练模型的数据集中存在错误信息,模型可能生成片面甚至错误的信息,从而带来信息误导。其次,大语言模型的训练集来源于网络,其信息必然有一个确定的截止时间点,由于截止时间点后的信息并不在模型的训练集内,导致其生成的内容具有滞后性。因此,在线查询和更新语料库等是目前大语言模型发展的重要方向之一。最后,大语言模型的推理能力依然有限,难以在前沿研究领域提供原创性信息。荷兰瓦格宁根大学Arjen Wals教授团队对ChatGPT的SWOT(strengths, weaknesses, opportunities and threats)分析指出,这项人工智能技术对其提供的信息缺乏深入的理解,难以保证其提供信息的质量,并且缺少更高阶的思考方式。前福布斯理事会成员、首席创新官Stefan Harrer指出,大语言模型难以为其提供的信息负责,其提供的信息缺乏透明性和可解释性。

2.2 信息生成

创新性想法在储能研究中至关重要,但新想法的提出不仅需要研究者具有丰富的储能知识,还需要个人长时间的思考与灵感。大语言模型能够大大降低提出新想法的时间成本,因为它能够集结数以亿计的互联网用户的想法。例如,向ChatGPT提问“请问如何解决电池的易燃易爆问题?”ChatGPT给出了10个解决方案:更好的电池设计、电池管理系统(battery management system, BMS)、温度控制、固态电池、耐火电池外壳、具有关闭功能的电池隔膜、安全检查、安全教育、合理的回收和遗弃体系、研究合作。这样一个仅仅耗时数秒的对话,就能让研究者得到众多不同角度的答案。当要了解某一具体科学知识时,大语言模型能够提供快速、个性化的回答,这降低了大众了解科学知识的门槛。当研究团队需要对某一科学问题展开讨论时,大语言模型能够作为一个有丰富知识储备的团队成员参与讨论,甚至参与决策。
通过一定的处理方式,大语言模型的研究者可以提高模型所产生想法的质量:其一,研究者可以在整合模型提供的回答后,再次向模型发问,从而得到更高质量的回答;其二,虽然大语言模型的想法总体缺少创新性,但是研究者可以要求大语言模型从其提供的想法中筛选出相对更具有原创性或实用性的想法。
大语言模型在报告与论文撰写方面的能力受到了广泛关注。大语言模型能够根据研究者的要求,快速生成含有较多信息并且格式规整、有逻辑的文本,这种能力可以用于给文本打草稿,从而加速文本撰写的速度,而且大语言模型还能够帮助研究者减少语法的低级错误,并对文本加以润色修改。
具备一定的编程能力是开展储能人工智能研究的前提条件,而大语言模型极大地降低了研究者编程的门槛,包括辅助代码撰写、修改以及注释。Chen等OpenAI研究者通过对已有的GPT模型进行微调,得到Codex模型,该模型能够较好地解决面试级别难度的编程问题。代码修改方面,基于大语言模型的Codex、CodeBERT和Conversational APR相继被提出。Codex所支持的Copilot具备自动填充、补全代码的功能,还能对生成的代码进行注释,使代码的可读性与可解释性更优。

2.3 系统集成

结合上述信息处理与信息生成功能,大语言模型有望与现有储能研究手段及新兴技术(高通量实验、智能机器人等)集成,推动储能材料研发、储能工业生产与储能系统运维进一步向智能化方向发展。
在储能材料研发方面,中国科学院外籍院士、英国利物浦大学教授Andrew I. Cooper的团队2020年研发了可移动机器人,用于寻找更优的用于光解水制氢的光催化剂。该机器人在8天内共自主执行了688次实验,并通过贝叶斯搜索算法从十个维度改变实验条件,最终找到产氢速率达到21.05 μmol/h的光催化剂混合物,约为实验开始时基准光催化剂3.36 μmol/h的产氢速率的6倍。但该团队也指出了其工作的不足:该机器人没有学习已有的化学知识,也不包括任何物理模型。
一种自然的改进想法是通过大语言模型的信息处理功能来学习已有的文献数据,将已有的物理、化学知识嵌入智能机器人。2022年,中国科学技术大学江俊教授团队研发出由服务平台、可移动机器人、工作站和计算大脑组成的“机器化学家”(图6),它能够阅读文献、提出假设、执行自动化操作、分析实验数据、训练机器学习模型并反馈产生新的假设。实际性能方面,“全流程人工智能化学家”阅读了15979篇论文,从文献的4865个分子中筛选出发射波长位于可见光波段的具有聚集诱导发射特性的生物相容性发光体,并确定了发光体的最佳浓度为20 mmol左右[图6(b)]。在另一个实验中,机器化学家通过筛选将实验次数降低到207次,大大提高了基于MIL-101 MOF的高熵电催化剂的设计与合成效率,并且最终从中选取出相同电流密度下过电势最低的电催化剂。具体而言,随着实验的开展与模型的迭代,207次实验中不同电催化剂在5 mA/cm 2 的电流密度下的过电势总体呈下降趋势[图6(c)]。这一结果体现了机器化学家在自主筛选发现新催化剂材料方面的可行性与巨大潜力。

图6 一位有科学思维的全能人工智能“化学家”展示
最新的智能机器人将数据库筛选与检索、文本挖掘、机器学习、主动学习和机器人技术相结合,建立从数据获取到产品迭代一体化的自主人工智能实验室,以高成功率合成了满足要求的新型材料,证明了人工智能驱动平台在自主发现新材料方面的有效性,并推动了文献知识、计算化学和机器人技术的进一步协同发展。2023年,美国加州大学伯克利分校的Gerbrand Ceder教授团队开发了用于无机粉末固态合成的自主实验室A-Lab平台[图7(a)]。首先,该平台使用数据库筛选与文本挖掘策略获得项目所需数据集,在Materials Project数据库中交叉筛选理论可行但是实验中未报道的数据,并在24304篇出版物中提取到33343个固态样品合成方案。然后,该平台应用两套机器学习模型分别提供五个初始合成配方以及合成温度,通过调用三个基于机器人技术的集成工作站进行实验,分别用于样品制备、加热和表征。最后,平台自动检验产品质量,若该轮实验合成产物未能达到所需目标50%以上的产率,平台将继续使用基于主动学习的自主反应路线优化模块进行迭代实验,并对失败的合成分析提供直接且可行的建议,以改进当前的材料筛选和合成设计方案。该平台通过上述工作流程,在17 天的连续运作中合成了58种目标化合物中的41种,成功率为71%[图7(b)]。

图7 A-LAB 示意图
智能化学机器人的相关研究成果正通过更加集成化的平台展现。例如,美国卡内基梅隆大学的Gabe Gomes助理教授团队开发了一种基于多语言模型驱动的智能系统Coscientist,该平台包含网页搜索模块、文档搜索模块与硬件控制模块,能够从浏览互联网和搜集文献开始,完成自主设计、规划和执行复杂的科学实验,分析和优化实验结果,目前已成功完成了钯催化交叉偶联的反应优化,并展现出了一定的化学推理能力。洛桑联邦理工学院的Philippe Schwaller教授等开发了ChemCrow平台,集成了13种化学工具,旨在完成有机合成、药物发现和材料设计等各种任务。谷歌的Ekin Dogus Cubuk等开发了一套基于图网络的材料发现框架(graph networks for materials exploration, GNoME),高效地发现了220万种稳定的晶体结构,例如层状材料和固态电解质,GNoME的部分成果已整合至Materials Project。
在储能工业生产方面,大语言模型能进一步推动储能行业向智能化方向发展。目前,传统锂离子电池工业生产线已经实现高度自动化流水作业。一方面,大语言模型与现有技术结合可以让工业机器人真正意义上“动起来”而非重复简单的机械动作,进一步提升工业自动化生产水平。例如,将实际采集数据或者图像输入大语言模型模块,为工业机器人执行任务提供推理决策能力,使工业生产由流水作业向任务导向转变,具备智能生产的功能。另一方面,大语言模型模块可以实现工程师与工业机器人的语言交互,通过通俗易懂的语言指令替代复杂的机械操作或者代码指令,指挥机器人执行相应任务,从而加速工业机器人功能开发与调试。






请到「今天看啥」查看全文