随着当今学术界产出速度惊人,大量文献如潮水般涌现,研究者想筛选出真正有价值的文献不仅需要技巧和专业知识,包括选择合适的数据库、使用恰当的关键词、设置合理的检索条件等,还需要花费大量的时间和精力进行阅读筛选。导致研究者搜索所需文献的过程愈发变得冗长和难以忍受。对于初学者来说,检索文献更可能是一项困难的任务,因为他们对学术领域的了解有限,面对海量的文献资源往往感到无从下手。同时,凝聚态物理是一个不断发展的学科,未来肯定会有源源不断新的领域出现,传统的机器学习无法满足凝聚态物理不断发展的现实。
针对这一需求,文献推荐功能模块在凝聚态物质科学数据中心(以下简称:数据中心)独立开发的物质科学电子实验室平台(MatElab)正式上线。该模块通过自动化与大语言模型技术,结合有监督学习和零样本学习将最新的论文和专利推送到用户订阅的标签上;实现科研人员从“文献找人到人找文献”的转变,进一步提升科研效率(图1)。图1 MatElab中文献推荐栏目部署框架
MatElab中的“文献推荐”模块利用微调的大语言模型,通过API接口实时获取最新的期刊论文、专利和会议论文,并精准推送到用户订阅的标签上。用户只需简单订阅自己感兴趣的标签或者提出感兴趣的标签,即可轻松接收最新的文献资讯。这一功能不仅覆盖了物理所关注的凝聚态物理、光学、量子物理、软物质与生物物理、理论和计算物理、材料科学与工程等领域和世界科技前沿,还涵盖了当前热门的量子计算、人工智能、计算机与自动化、能源化学等国家重大需求方向和新质生产力。同时,文献推荐栏目支持零样本学习:即使栏目没有训练的标签,模型也能达到接近有监督微调的准确性(图2)。图2 MatElab文献推荐栏目中有监督学习、零样本学习的准确性参考图
值得一提的是,除常规搜索方法外,文献推荐模块还可以基于化学元素搜索。在MatElab平台,绝大部分化学式都可以较准确地提取,用户可以根据需要搜索包含La、Ni、O的超导文献,也可以搜索包括Li、Co、O的电池专利(图3),同时这一功能为无机化学后续的标准化规范提供了可能。图3 MatElab文献推荐栏目中通过化学式搜索文献界面(以超导文献中La-Ni-O为例)此外,文献推荐栏目支持用户收集整理形成个人文献库。用户可以根据时间范围、期刊和标签等条件筛选合适的文献(图4),通过网页添加或手动上传pdf的方式扩展个人文献库,方便用户管理自己的文献资料,亦可将文献分享给他人,促进学术交流与合作。截止2024年9月25日MatElab已有的监督学习和零样本学习的标签请参见下表1和表2:表1
MatElab中包含的有监督学习标签1
领域 | 有监督学习标签 |
物理所跨方向微调与 零样本测试2 | - |
凝聚态物理 | 材料学、量子气体、软凝聚态物理、统计力学、强关联电子、无序体系与神经网络3 |
人工智能与量子机器学习 | 机器学习势函数、材料性质预测、自动化实验、 人工智能-凝聚态物理、人工智能-材料学、人工智能-生物医药、图像处理、语言模型、生成式人工智能、量子机器学习 |
第一性原理计算 (凝聚态物理) | 材料计算、理论方法、软件开发 |
仪器表征 | 仪器表征(凝聚态物理方向) |
电池 | 正极、LiCoO2正极、LiFePO4正极、三元正极、 尖晶石正极、富锂正极、负极、石墨负极、金属锂负极、 硅负极、液态电解液、聚合物电解液、无机固态电解质、 硫化物电解质、LLZO类型电解质、NASICON类型电解质、卤化物电解质、隔膜、集流体、粘结剂、表征技术、 第一性原理计算、数值模拟、人工智能、正负极掺杂改性、SEI、界面、电池状态评估、电池安全问题、钠离子电池、
非锂和钠离子电池、水系电池、金属-空气电池、 电池回收技术 |
超导 | 铁基超导、非常规超导、Andreev反射、高温超导、Josephson效应、拓扑超导体、超导能隙、 超导第一性原理计算、超导表征技术 |
拓扑 | 拓扑第一性原理计算、拓扑材料表征 |
非晶4 | 非晶体系4、金属玻璃 |
合金 | - |
光学材料 | 发光材料、非线性光学 |
介电材料 | 铁电材料、压电材料 |
磁性材料 | - |
热学材料(性质) | - |
热电材料 | 热电第一性原理计算 |
低维材料 | 莫尔材料 |
催化 | - |
量子计算5 | - |
表2
MatElab中包含的零样本学习标签1
领域 | 零样本标签 |
凝聚态物理 | 量子霍尔效应、自旋轨道耦合、量子反常霍尔效应 |
仪器表征 | 超快(时间分辨)电子显微镜 |
电池 | 原位固化技术、预锂化技术 |
拓扑 | 拓扑序、拓扑超导体、拓扑相变、拓扑能带理论、 拓扑量子计算、对称保护的拓扑状态、拓扑绝缘体、 陈绝缘体、拓扑节点线半金属、狄拉克半金属、外尔半金属 |
热电 | 热电制冷器件、热电发电器件、热电材料-半导体、 热电材料-半金属、热电材料-拓扑、热电材料-二维、 热电复合材料、热电材料-高熵合金、热电材料-薄膜、 热电磁热效应、热电应用系统
|
催化 | 单原子催化、氧还原反应 |
OOD(外推能力)测试 | 语言模型、图像处理、多模态人工智能、自动化技术 |
此工作由物理所凝聚态物质科学数据中心组织,博后吴思远负责流程设计和模型的训练,周明波副主任工程师负责与MatElab接口对接,博士研究生朱天念负责pdf文本解析接口对接,清洁能源、超导、理论、非晶、热电等多个实验室的同学参与初期数据标定,拓扑、热电、电镜等实验室参与了零样本学习的测试并提供了标签。
\MatElab“文献推荐”模块的推出,是数据中心在科研信息化领域的一次重要尝试。通过自动化与大语言模型技术的结合,MatElab为科研人员提供了一个高效、便捷、精准的文献获取平台,有助于推动科学研究的进步与发展。未来,MatElab将继续优化和完善其功能,为更多科研人员提供更加优质的服务和支持。