专栏名称: 材料学网

材料界最具影响力的资源共享平台！发布基础知识、新闻资讯、科技服务、数值模拟、考研考博、论文写作、招聘信息、先进设备及产业应用等，服务于中国高校、企业及科研院所的发展，以及相应科研成果的推广、转让和咨询

Nature重磅 | 创世界首列！95后博士打开潘多拉魔盒，引爆材料领域新风口！

材料学网 · 公众号 · · 2024-05-29 09:08

正文

在科学研究领域的新范式——“AI for Science”时代，基于数据驱动的机器学习力场（ML-FFs）成功解决了第一性原理电子结构方法与传统经验力场之间的准确性和效率的问题。近年来，该领域呈现出井喷式的蓬勃发展，这一趋势在Web of Science平台的检索结果中得以印证。相关工作频繁登入Nature、Science、Cell等顶尖刊物。

随着计算机的算力快速发展，通过ML-FFs实现第一性原理级别精度的大规模的分子模拟研究已经成为可能．机器学习方法还使人们对原本认为了解的系统有了新的化学认知，例如小分子的非对称电子效应等现象，使研究者们能够更好地理解实验结果。因此，ML-FFs将可能成为现代计算化学的基本组成部分。然而，作为新兴的跨学科领域，该领域知识面广，门槛高，涉及量子化学、分子模拟和机器学习等多个领域。相关资料和学习平台相对匮乏，信息技术也不够开放。在这种情况下，培训学习显得尤为迫切。因此，特诚邀您参加我们线上培训课程，目前已有4000余名参会会员！我们的目标是助力学员在Nature、Science、Cell等正刊及子刊上发表高质量文章，借助新技术在更有限的经费下取得更高质量的研究成果。让我们共同冲刺顶尖刊物，共创2024年的科研巅峰！

2024年最火热门专题推荐

一、机器 学习材料专题

二、深度学习材料专题

三、机器学习分子动力学

四、 材料基因组专题回放视频

五、 cp2k专题回放视频

专题一、机器学习材料

第一天

理论内容

1.机器学习概述

2.材料与化学中的常见机器学习方法

3.应用前沿

实操内容

Python基础

1.开发环境搭建

2.变量和数据类型

3.列表

4.if语句

5.字典

6.For和while循环

实操内容

Python基础（续）

1.函数

2.类和对象

3.模块

Python科学数据处理

1.NumPy

2.Pandas

3.Matplotlib

第二天

理论内容

1.线性回归

1.1 线性回归的原理

1.2 线性回归的应用

2. 逻辑回归

2.1原理

2.2 使用方法

3. K近邻方法（KNN）

3.1 KNN分类原理

3.2 KNN分类应用

4. 神经网络方法的原理

4.1 神经网络原理

4.2神经网络分类

4.3神经网络回归

实操内容

1.线性回归方法的实现与初步应用（包括L1和L2正则项的使用方法）

2.逻辑回归的实现与初步应用

3.KNN方法的实现与初步应用

4.神经网络实现

项目实操

1.利用机器学习设计高体积模量高熵合金

2.训练机器学习模型预测多孔材料的催化性能

这两个实操项目同时穿插讲解如下内容

A1 机器学习材料与化学应用的典型步骤

A1.1 数据采集和清洗

A1.2 特征选择和模型选择

A1.3 模型训练和测试

A1.4 模型性能评估和优化

第三天

理论内容

1．决策树

1.1决策树的原理

1.2决策树分类

2．集成学习方法

2.1集成学习原理

2.2随机森林

2.3Bosting方法

3．朴素贝叶斯概率

3.1原理解析

3.2 模型应用

4. 支持向量机

4.1分类原理

4.2核函数

实操内容

1.决策树的实现和应用

2.随机森林的实现和应用

3.朴素贝叶斯的实现和应用

4.支持向量机的实现和应用

项目实操

1.使用实验数据训练机器学习模型预测金属有机框架材料中的气体吸附

2.通过机器学习方法筛选新型四元半导体化合物

这两个实操项目同时穿插讲解如下内容

A1 模型性能的评估方法

A1.1 交叉验证：评估估计器的性能

A1.2 分类性能评估

A1.3 回归性能评估

第四天

理论内容

1. 无监督学习

2.1 什么是无监督学习

2.2 无监督算法——聚类

2.3 无监督算法——降维

2. 材料与化学数据的特征工程

2.1分子结构表示

2.2 独热编码

3. 数据库

3.1材料数据库介绍

3.2 Pymatgen介绍

实操内容

1. 分子结构的表示与特征提取

2. 聚类、降维等无监督学习方法应用于分子特征处理

项目实操

1. 在机器学习技术的指导下加速钙钛矿材料的发现

2. 机器学习对CO2 封存的解释和预测

第五天

项目实操

１. 基于分子特征和逻辑回归预测分子性质

2. 基于分子特征的无监督学习综合应用

项目实操

1. 通过机器学习预测 NiCoFe 氧化物催化剂的活性

2. 利用基于成分的能源材料描述符进行机器学习模型的综合预测

学习目标

机器学习（ ML ）在材料研究中的应用，让学员能够掌握学习理论知识及熟悉代码实操，文章的复现，学会 anaconda 、 Python 、 pymatgen 等软件、以及机器学习数据采集及清洗、分子结构表示及提取、模型训练和测试、性能评估及优化， KNN 、线性回归方法，学会机器学习材料预测，材料分类，材料可视化，多种机器学习方法综合预测等操作技能，独自完成自己的课题研究项目

专题二、深度学习材料

第一天（pytorch深度学习框架演练）

理论内容

材料数据库（material project, OQMD, AFLOW）

深度学习入门

图神经网络

材料特征工程

实操内容：

Pytorch深度学习框架演练

Pymatgen介绍及结构文件生成

Pymatgen构建机器学习特征

ASE（Atomic Simulation Environment）的使用

爬虫获取二维数据集

材料结构分析与可视化

第二天（数据库的数据获取及演练）

实操内容

1. AFLOW数据库的数据获取

1.1 AFLOW数据库功能练习

1.2. 爬虫获取AFLOW数据库的数据

2. OQMD数据库

2.1 OQMD数据库功能练习

2.2 OQMD数据库的数据获取

实操内容

1. material project数据库

1.1 新版material project获取材料XRD、DOS图、能带图、吸收谱等数据

1.2 Pymatgen按照属性要求获取material project材料数据

2. 材料特征工程工具matminer演练

2.1 matminer获取材料数据集

2.2 matminer生成材料描述符演练

第三天

实操和演示内容：

基于数据驱动的功能材料开发案例一（用于训练神经网络来预测多组分高熵合金）

1.模拟高熵合金的原子模型

2.STEM图像生成

3.原子类型的统计分析

4.STEM相关性分析

5.高熵合金预测

实操内容：

基于数据驱动的功能材料开发案例二（晶体图神经网络实现材料属性预测）：

1.用PYG搭建图神经网络（GCN、GAT）

2. 晶体图神经网络CGCNN模型代码原理

3. 利用晶体图神经网络实现材料属性预测

第四天（基于数据驱动的多个功能材料开发案例及实操）

实操内容：

基于数据驱动的功能材料开发案例三（半导体材料）：

1. 背景介绍

2. 数据获取

3. 构建特征

4. 传统机器学习和深度学习处理

5. 讨论与评测

实操内容：

1. 基于数据驱动的功能材料开发案例三（钙钛矿材料分类）：

1.1 数据集获取

1.2 构建材料特征

1.3 机器学习训练

1.4 特征可解释性分析

2. 基于数据驱动的功能材料开发案例四（深度学习实现钙钛矿材料性能回归）

2.1 matminer生成材料特征

2.2深度神经网络实现钙钛矿属性预测

2.3传统机器学习与图神经网络预测结果对比

培训目标

1.学习Material Project，AFLOW，OQMD三大材料数据库的数据获取方法。

2.学习卷积神经网络、循环神经网络和晶体图神经网络等深度学习方法在材料预测方面的应用。

3.学习主流材料数据库的数据获取方法；

4.深度学习方法在材料预测方面的应用。

部分案例图片

专题三、机器学习分子动力学

基于机器学习的分子动力学

第一部分（分子动力学基础）

理论内容

1. 科学研究的四范式：从大数据时代到AI4SCIENCE时代

2. AI4SCIENCE时代的分子动力学模拟：从传统的经验力场方法和第一性原理方法到机器学习力场

3. 基于机器学习的分子动力学的背景，特点和文献进展，及与传统方法的区别．

4. 机器学习与深度学习的快速入门

5. 机器学习的发展历史

6. 通过可视化案例，理解神经网络的通用近似理论

7. 神经元，反向梯度下降，损失函数，过/欠拟合，残差连接等基本概念

8. ANN, CNN, RNN, TRANSFORMER等深度神经网络的基本框架的介绍与特点

9. 机器学习力场的大概流程与使用经验

实操内容

1. Linux系统与超算服务器的常规操作

2. Python(pycharm/vscode),Anaconda(或Mamba)的使用，及虚拟环境配置

3. 量子化学计算软件的介绍与快速上手

4. CP2K软件的发展介绍与特点：

4.1 使用MULTIWFN快速生成单点能或分子动力学模拟的输入文件

4.2 输入文件的字段解释与注意事项

4.3 使用Python实现自动化提交任务与任务后处理

4.4 在CP2K中使用GFN1-xTB方法，适合小白低成本入门！

5. ORCA软件的发展介绍与特点：

5.1 使用MULTIWFN或基于模板快速生成单点能或分子动力学模拟的输入文件及注意事项

5.2 使用Python实现自动化提交任务与任务后处理

6. XTB软件的发展介绍与特点：

6.1 发展迅猛！年被引用增长率高达87%

6.2 执行单点能，几何优化，分子模拟等

6.3 使用Python实现自动化提交任务与任务后处理

7. DFTB(简单介绍)

7.1 执行单点能，几何优化，分子模拟等

7.2 使用Python实现自动化提交任务与任务后处理

8 分子模拟软件介绍与分类

8.1 LAMMPS的入门与使用

8.2 软件发展现状与特点

8.3 输入文件的详细解析与注意事项

8.4 分子模拟轨迹的后处理与分析

8.5 机器学习势函数使用

9. OpenMM的入门与使用

9.1 软件发展现状与特点

9.2 运行脚本与注意事项

9.3 使用sobtop软件和Python快速、自动化生成任意有机分子的力场参数文件（同时也适用GROMACS）

10. 案例：传统力场方法与机器方法力场方法的对比

1. 使用OpenMM执行有机体系的分子模拟

2. 基于机器学习力场方法，结合LAMMPS执行合金或锂电池体系的分子模拟

3. 使用MDtraj等软件进行模拟结果的后处理分析与Python高质量科研绘图，包括：能量与力的预测曲线，径向分布函数，键长键角二面角分布，电池电压曲线等

第二部分（机器学习力场的发展－－不变模型系列）

理论内容

1. 科学领域的机器学习模型

1.1 机器学习模型应该遵守的几个物理对称性

1.2 高效描述局部环境方法的分类与特点

1.3 基于核方法或深度神经网络方法

1.4 基于描述符或分子图方法

2. 基于描述符的机器学习力场模型

2.1 机器学习力场的开篇工作

2.2 BPNN模型详解与发展

2.3 生态最好的机器学习力场模型

3. DeePMD系列工作的详解

3.1 DeePMD初始版本与光滑版本的模型架构及特点

3.2 DeePMD的压缩原理与特点

3.3 DPGEN的工作原理

4. 基于图框架的机器学习力场模型

4.1 图神经网络、图卷积网络和消息传递神经网络的发展与理解

4.2 图神经网络的机器学习力场模型的经典模型

4.2.1 SchNet模型的特点与代码实现

5. 基于三维空间建模的完备性与效率的几何系列模型:

5.2 DimeNet,SphereNet和ComENet模型的详解与比较

5.3 其他机器学习力场模型概述：DTNN和PhysNet等

实操内容

1. 使用dpdata进行数据格式转化，并划分成训练，验证和测试数据集

2. DeePMD的安装与输入文件详解

3. 与理论课的模型框架相对应地进行超参数设定的讲解，及使用经验

4. DeePMD的常见功能，包括训练，重启，冻结，压缩和测试

5. DeePMD的常见问题与训练过程的分析

6. 综合使用LAMMPS和DeePMD模型执行高精度的分子动力学模拟

7. 分子模拟的数据后处理与分析

8. DPGEN软件的软件介绍与工作流程

9. DPGEN软件的输入和输出文件

10. param.json和machine.json文件的参数详解

11. 跨计算计算分区提交任务的方法

12. DPGEN软件的使用命令

13. DPGEN软件的常见问题与使用经验，以及判断不同体系收敛的参考标准

第三部分（高阶课程－－等变模型系列，领域热点）

理论内容

1. 不变系列模型的总结

1.1 等变模型的概念，特点，分类和应用

1.2 等变模型的几种分类

1.3 高阶等变模型的特点

1.4 超高数据利用率与优秀的泛化能力

1.5 SO(3)群的简单入门与张量积

2. 高阶等变模型与传统模型的区别，及注意事项

3. 等变机器学习力场的经典模型:

3.1Nat. Commun.上高被引的NequIP模型的详解和代码框架

实操内容

1. DeePMD软件的进阶使用与补充讲解，包括多GPU并行训练

2. 使用PCA、TSNE、UMAP等降维方法，结合K-Means聚类方法，从分子模拟轨迹中以低冗余方式提取多帧结构文件。

3. LAMMPS以多GPU并行方式运行机器学习力场模型

4. 使用Python快速可视化机器学习力场模型在等变与不变设计上的区别

5. NequIP模型的超参数介绍和使用

6. 复现Nat. Commun.文章结果，包括计算径向分布函数、键角分布等性质

7. 使用wandb进行超参数调优与训练过程中各种信息的可视化分析

第四部分

理论部分

1. 高效/高精度的基于ACE的等变模型

2. ACE方法，消息传递和等变框架的集大成——MACE模型

3. 方法的完备性，效率和系列发展

4. 机器学习力场领域的ChatGPT模型

5. 有机分子体系的通用大模型：MACE-OFF23

6. 几乎涵盖元素周期表所有元素的材料领域的通用大模型：MACE-MP0

7. 适用于大规模GPU并行框架的等变模型

8. NequIP团队在Nat. Commun.的新作－－Allegro模型的方法详解与比较

实操部分

1. MACE模型和Allegro模型的超参数介绍和使用经验

2. MACE模型与DeePMD模型的对比，包括精度，数据效率等

3. Libtorch与LAMMPS软件的编译

4. 机器学习力场领域的ChatGPT的使用与分析

5. 快速上手MACE-OFF23和MACE-MP0模型

6. 对通用大模型进行微调与分析

7. DPA-1和DPA-2的介绍与特点

部分案例图片

学习目标

本次授课内容包括快速上手量化软件、入门和理解机器学习，熟练运用LAMMPS模拟软件，精通机器学习力场模型。本次课不仅带来生态最完善的DeePMD系列软件的详解和使用，还将带来机器学习力场领域具有超高数据效率的等变模型(NequIP/MACE/Allegro)，从而显著减轻高昂的数据生产成本。此外，还有机器学习力场领域的ChatGPT产品——开箱即用、免费开源的通用大模型(MACE-OFF23,MACE-MP0,DPA)的使用和微调技巧。

讲师简介

主讲老师来自国内高校孙老师授课，老师擅长利用量子化学方法和机器学习方法预测设计并研究新型能源材料、锂离子电池的电极材料，燃料电池催化剂以及燃料电池体系的整体设计，已在Energy & Materials,Journal of Physical Chemistry Letters, Journal Physical Chemistry C，等权威期刊上发表SCI检索论文近40余篇。老师在我们单位长期授课，参会学员累计四千余人，讲课内容和授课方式以及敬业精神受到参会学员的一致认可和高度评价！人工智能材料化学与深度学习材料更是我们单位的金牌讲师，好评如潮！

主讲老师来自国内高校胡老师授课，已发表 SCI论文近20余篇，研究方向为基于机器学习的分子动力学模拟，包括构建高效、高精度的AI分子力场模型，采用主动学习或大模型的知识蒸馏方法来获取高质量训练数据集，开发基于C++的高性能的多GPU并行的LAMMPS的插件。熟知各种AI模型DeePMD, SchNet, DimeNet, SphereNet, DPA2和等变系列模型的Nequip, MACE, Allegro等，精通所有量子化学软件！