AI for Materials 研究者必看:材料科学与AI融合新进展、核心要点

发布时间:2026-02-26 22:04  浏览量:1

在2024至2025年的关键周期内,材料科学与人工智能(AI)的交叉融合已经跨越了单纯的概念验证阶段,进入了系统性颠覆和工业化应用的全新纪元。如果说此前十年的主旋律是判别式AI(Discriminative AI)——即利用机器学习模型对已知材料数据库进行高通量筛选和属性预测,那么当前的时代精神则被生成式AI(Generative AI)所定义。

依托于MatterGen、MACE-MP-0、GNoME等基座模型的发布,材料科学正在经历类似于计算机视觉领域的「ImageNet时刻」——大规模、预训练的通用模型开始展现出跨越元素周期表的泛化能力,使得原子尺度的模拟精度与效率不再是不可调和的矛盾体。与此同时,大型语言模型(LLMs)与状态空间模型(如Mamba)的崛起,催生了具备推理和规划能力的「科学智能体(Scientific Agents)」,它们不仅能阅读文献,更能指挥机器人进行自主合成,试图闭环设计-制造-测试-分析的全流程。

然而,这一进程并非坦途。2024年爆发的关于A-Lab及GNoME所发现材料之晶体学新颖性的学术争议,深刻揭示了计算幻觉与实验现实之间的张力。这促使学界重新审视AI预测结果的验证标准,从单纯的数学稳定性(DFT形成能)转向更具实验意义的可合成性与结构原型创新。

在传统的计算材料学中,研究者长期面临着一种痛苦的权衡:要么选择精度极高但计算昂贵的密度泛函理论(DFT),要么选择计算迅速但精度有限的经验力场(如Lennard-Jones或EAM)。机器学习力场(MLFF)的出现旨在填补这一鸿沟,但早期的MLFF通常仅限于单一的化学成分或特定的相空间。

2024-2025年最显著的技术趋势之一,是从针对特定化学体系的小型模型,向基于海量、多样的动力学轨迹数据训练的通用机器学习原子间势函数(Universal Machine Learning Interatomic Potentials, uMLIPs)和基础模型(Foundation Models)的演进。

▲J. Chem. Phys. 163, 184110 (2025)

2024年,由剑桥大学Gábor Csányi团队领衔开发的MACE-MP-0模型的发布,成为了该领域的里程碑事件。MACE(Multi-Atomic Cluster Expansion)基于原子簇展开(ACE)的形式主义,并引入了消息传递神经网络(MPNN)的架构优势。与其前身不同,MACE利用了高体阶(high-body-order)的等变特征,这使得它仅需两层消息传递即可捕获复杂的远程化学相互作用,从而在保证极高精度的同时显著降低了计算开销。

MACE-MP-0是在SPICE和Materials Project的大规模轨迹数据集上训练而成的,涵盖了从块体金属合金、半导体到分子液体等广泛的化学环境。这种广泛的训练赋予了模型惊人的零样本(zero-shot)泛化能力——即能够准确模拟未在训练集中明确出现的系统。例如,在模拟水分子的质子转移过程或复杂固液界面的动力学行为时,MACE-MP-0展现出了媲美ab initio(从头算)分子动力学的精度,但在单块GPU上每天可模拟数千个原子达纳秒级时长 。这种能力的普及,实际上正在将量子力学精度的原子模拟从少数超算中心的特权转化为广大材料实验室的日常工具。

▲J. Chem. Phys. 163, 184110 (2025

SevenNet与EquiformerV2:扩展定律在材料学中的验证

与MACE并驾齐驱的,是Meta FAIR团队推出的EquiformerV2以及与之配套的OMat24数据集。EquiformerV2代表了图神经网络(GNN)中利用Transformer架构并结合等变注意力机制(Equivariant Attention)的最高水平。该模型的核心突破在于验证了扩展定律(Scaling Laws)在材料科学中的有效性:随着模型参数量和训练数据量的增加,模型的预测误差呈幂律下降。

▲https://github.com/atomicarchitects/equiformer_v2

为了支撑这种规模的训练,Meta发布了OMat24数据集,其中包含了超过1.1亿次DFT计算结果。这一数据集的发布解决了长期以来制约大模型训练的“数据饥荒”问题。更重要的是,OMat24并没有局限于基态的弛豫结构,而是专注于结构和成分的多样性,包含了大量非平衡态、高温态及缺陷态的结构。这使得基于此训练的EquiformerV2能够高保真地学习势能面(PES)的复杂拓扑,对于模拟材料的动力学演化、相变路径及反应动力学至关重要。

与此同时,SevenNet则在可扩展性(Scalability)方面树立了新标杆。虽然在绝对精度上,全等变模型(如MACE和EquiformerV2)往往占据优势,但SevenNet通过优化的架构设计,在CPU和GPU上的推理速度与资源消耗之间取得了极佳的平衡。对于需要筛选数百万种候选材料的高通量计算任务而言,SevenNet提供了一种极具吸引力的精度-成本最优解,使其在Matbench Discovery等基准测试中表现亮眼。

▲ACSMaterialsLett.2025,7,2105−2114

随着通用势函数的爆发式增长,学界面临着一个严峻的评估危机:如何客观、公正地比较在不同数据集上训练的模型?传统的测试集往往与训练集高度同源,导致评估结果虚高。

Matbench Discovery排行榜应运而生,成为了该领域的角斗场。该基准测试采用了一种严格的“时间切分”或“结构切分”验证策略,即测试集由训练数据截止日期之后新发现的稳定晶体组成,从而彻底杜绝了数据泄露的可能性。截至2025年末,该排行榜展示了激烈的竞争格局:ORB、SevenNet和MACE交替领先,而来自EPFL的PET-OAM-XL模型则通过利用大规模计算资源进行针对性训练,在近期登顶了榜单 。这表明,通用模型的性能上限仍未被触及,数据与算力的投入依然能带来显著的边际收益。

虽然通用模型在宏观统计上表现优异,但在特定工业应用中是否同样可靠?为了回答这一问题,美国国家标准与技术研究院(NIST)开发了CHIPS-FF(Computational High-Performance Infrastructure for Predictive Simulation-based Force Fields)基准。该平台专门针对半导体行业的关键需求,评估uMLIPs在预测缺陷形成能、表面能、弹性常数等复杂属性上的表现。

CHIPS-FF的研究揭示了一个令人警醒的现象:许多通用势函数(包括早期的M3GNet和CHGNet)在处理高能态时表现出系统性的「力软化」(force softening)效应,即低估了原子在远离平衡位置时的受力。这对于模拟高温退火或离子注入等半导体工艺是致命的。然而,SevenNet和ORB在这一严格测试中表现出了惊人的鲁棒性,特别是在预测表面能——这一通常因界面电子重排而难以捕捉的属性——方面,达到了接近DFT的精度 。这一结果不仅验证了通用模型的潜力,也指明了未来针对特定工业应用进行微调(Fine-tuning)的必要性。

如果说2023年是属性预测模型“扩容”的一年,那么2024-2025年无疑是材料生成式AI(Generative AI)的元年。传统的“高通量筛选”工作流——即在已知数据库中过滤候选者——正在被逆向设计(Inverse Design)所取代。现在的目标是:输入所需的物理属性(如“带隙为1.5eV的光伏材料”),让AI模型直接生成满足条件的晶体结构。

在图像生成领域大放异彩的扩散模型(Diffusion Models),已经超越了变分自编码器(VAEs)和生成对抗网络(GANs),成为晶体生成的首选架构。

2025年发表于 Nature 的MatterGen论文,标志着这一领域的成熟。与处理图像的扩散模型不同,晶体结构具有独特的物理约束——周期性边界条件、旋转不变性以及原子种类的离散性。MatterGen通过定制化的扩散过程解决了这些挑战:它将晶体分解为原子类型、原子坐标和晶格参数三个独立的分量,并分别进行加噪和去噪处理。

▲Nature volume 639, pages624–632 (2025)

MatterGen的核心创新在于其适配器模块(Adapter Modules)。基础模型在大规模无标签结构数据上预训练以学习什么是合理的晶体,而适配器模块则在较小的、带有属性标签的数据集上进行微调。这使得模型能够根据具体的属性约束(如体积模量、磁性密度、带隙等)定向生成材料。作者引入了SUN指标(Stable, Unique, Novel——稳定、独特、新颖)来量化生成质量,结果显示MatterGen生成SUN材料的成功率是前代SOTA模型(如CDVAE)的两倍以上。更具说服力的是,论文报道了对生成材料TaCr2O6的实验合成,其实测属性与预测值的误差在20%以内,有力证明了AI生成材料的可实现性。

▲MatterGen 和其他方法在生成稳定、独特和新颖结构方面的性能。每种方法的训练数据集在括号中注明。紫色条形图突出显示了仅由 MatterGen 架构带来的性能提升,而青色条形图突出显示了由更大的训练数据集带来的性能提升。

▲SymmCD 方法示意图。https://doi.org/10.48550/arXiv.2502.03638

早期的晶体生成模型往往倾向于生成低对称性(P1空间群)的结构,因为这在计算上最为简单,但在物理现实中,高对称性往往与稳定性及优异性能相关。NeurIPS 2024的Spotlight论文SymmCD正视了这一问题。SymmCD并没有在全空间生成原子,而是将晶体分解为不对称单元(Asymmetric Unit)和空间群对称操作。模型学习生成不对称单元的分布以及对应的对称操作符号。这种内嵌物理归纳偏置的设计,确保了生成的每一个晶体都严格遵守晶体学对称性规则,从而大幅提高了生成结构的热力学稳定性和真实感。

绝大多数生成模型将原子视为点粒子,忽略了电子云的分布。2025年末提出的ChargeDIFF模型打破了这一限制,它将3D电荷密度作为与原子坐标并列的生成模态。通过扩散过程直接生成电荷密度场,ChargeDIFF允许研究者基于电子通道进行逆向设计。例如,在固态电池电解质的设计中,研究者可以指定低电荷密度的连通通道以促进锂离子的迁移,从而生成具有特定离子导电路径的新材料。这标志着AI材料设计从结构主导向功能主导的深层跃迁。

▲Nature Communications volume 16, Article number: 34 (2025)

尽管扩散模型占据主导地位,但其他架构也在特定维度上展现出优势。

CrystalFlow(Nature Communications 2025): 该模型采用了流匹配(Flow Matching)技术,这是一种与扩散模型相关但基于确定性连续概率路径的方法。与需要数百步迭代的扩散模型相比,CrystalFlow仅需约十分之一的积分步数即可生成高质量晶体,极大地提升了生成效率 。这种高效率使得将生成模型与昂贵的DFT验证循环耦合成为可能。

▲Model architecture of CrystalFlow. Nat Commun 16, 9267 (2025).WyckoffTransformer: 该模型另辟蹊径,不直接生成连续坐标,而是将晶体离散化为Wyckoff位置的序列(空间群+元素+Wyckoff位点)。这种离散化的Token表示法天然契合Transformer架构,使得模型能够利用在大规模文本数据上验证过的自回归生成能力,同时严格保证了晶体学的对称性约束。

▲模型训练流程。https://icml.cc/virtual/2025/poster/44595

GNoME现象与新颖性辩论

DeepMind发布的GNoME(Graph Networks for Materials Exploration)虽然发表于2023年底,但其影响力和争议贯穿了整个2024-2025年。GNoME利用图神经网络预测了220万种新的稳定晶体结构,声称将人类已知的稳定材料数量扩展了一个数量级。

▲GNoME 使用两条流程来发现低能(稳定)材料

然而,这一宏大的声明遭到了以加州大学圣塔芭芭拉分校著名材料学家Anthony Cheetham和Ram Seshadri为代表的学界的严厉审视。在发表于 Chemistry of Materials 的评论文章中,以及普林斯顿/UCL团队的独立分析中,批评者指出GNoME所谓的新材料中,有相当一部分仅仅是已知结构的简单离子替换,或者是将无序固溶体错误地建模为有序超胞。例如,许多预测的新化合物在实验上早已以无序相的形式存在,但在计算中被当作全新的有序相处理。

▲Views of the crystal structures of (a) known Zr4Ir4N (ICSD 640826) compared in a similar projection and identical scaling with (b) the proposed structure of Hf4Ir8N4NbZr11. The novelty of the structure and composition in (b) would arise only if Zr, Hf, and Nb were ordered on distinct crystallographic sites, which is unlikely. Chem. Mater. 2024, 36, 3490−3495

学界开始达成共识:新颖性(Novelty)不能仅通过计算形成能低于凸包(Convex Hull)来定义,而必须包含结构原型的独特性、实验可合成性的证据以及功能上的突破。

在2024-2025年间,大型语言模型(LLM)在材料科学中的应用发生了质的飞跃。它们不再仅仅是用于文献挖掘和摘要的工具,而是进化为能够推理、规划并操作物理世界的智能体(Agents)。

关于是使用通用的GPT-4还是微调的小型领域模型,学界在2024年进行了深入探索。

MatBERT与MatSciBERT: 这些基于BERT架构的模型在数百万篇材料科学文献上进行了预训练。研究表明,在命名实体识别(NER,如识别化学式、合成条件)和关系抽取任务上,这些领域专精模型依然显著优于通用的GPT-4。它们是构建高质量材料数据库(如从文本中提取合成配方)不可或缺的「矿工」。

▲Digital Discovery, 2025, 4, 500-512

基于Mamba的化学基础模型: NeurIPS 2024上展示的一项突破性工作是将Mamba(一种状态空间模型SSM)应用于化学领域。与Transformer的二次方复杂度不同,Mamba具有线性复杂度,这使得它能够处理极长的序列——例如复杂的聚合物链、蛋白质相互作用网络或长篇的合成实验记录——而计算成本大幅降低。这预示着化学基础模型的架构可能正在发生代际更替。

▲https://api.semanticscholar.org/CorpusID:278520884

自主智能体的崛起

最令人兴奋的进展在于LLM Agent——即以LLM为「大脑」,能够调用外部工具(Tools)的系统。

ChatMOF: 这是一个专门针对金属有机框架(MOFs)的智能体系统。它集成了三个核心组件:智能体(Agent)、工具包(Toolkit)和评估器(Evaluator)。用户可以用自然语言提问(例如「帮我找一个具有高CO2吸附能力的MOF并预测其带隙」),ChatMOF会自动解析意图,调用数据库搜索工具、机器学习预测模型,甚至结构生成工具,最终汇总是结果。这标志着科学交互方式的根本改变:从死板的SQL查询转向了灵活的自然语言对话。

▲Nat Commun 15, 4705 (2024).

HoneyComb:这是一个更为通用的材料科学智能体框架。HoneyComb展示了LLM不仅能检索信息,还能进行复杂的实验规划。例如,面对一个模糊的材料优化目标,HoneyComb能够拆解任务,设计一系列实验步骤,并调用相应的模拟工具进行验证。

▲https://aclanthology.org/2024.findings-emnlp.192/

dZiner:这是一个专注于理性逆向设计的智能体。它模仿药物化学家的思维逻辑,结合文献中的领域知识和代理模型(Surrogate Models)的反馈,迭代地修饰分子结构以优化特定属性(如表面活性剂的临界胶束浓度)。dZiner证明了将人类专家的直觉(通过文献注入)与AI的计算能力结合,可以显著提高搜索效率。

▲dZiner workflow overview. https://arxiv.org/html/2410.03963v1

生成式AI与机器人自动化的终极结合形式是自动驾驶实验室(Self-Driving Laboratories, SDLs)。这些设施的目标是将材料发现的周期从数十年压缩至数周甚至数天。

A-Lab(伯克利实验室): 作为该领域的标杆,A-Lab集成了GNoME的预测数据与自动化的固相合成机器人。尽管其初期报告宣称在17天内合成了41种新化合物,但随后的独立分析指出,其自动X射线衍射(XRD)分析流程存在严重缺陷,导致将许多已知的分解产物或无序相误判为新材料 。这一事件深刻揭示了自主表征(Autonomous Characterization)的难度。

Rainbow: 这是一个针对钙钛矿纳米晶体的多机器人协作平台。Rainbow通过中央AI智能体协调液体处理、合成反应和光谱表征三个独立的机器人工作站。通过引入并行流水线(Pipelining)技术,它将实验循环时间缩短至150分钟,并成功在一个高维参数空间中同时优化了量子产率和发射线宽。

▲Nat Commun 16, 7841 (2025).

NanoChef: 这一AI框架的独特之处在于它关注合成序列(Sequence of Addition)。在银纳米颗粒的合成中,NanoChef发现了一种违反直觉的「氧化剂后加」策略,显著提升了颗粒的单分散性。这证明了AI不仅能发现配方(Composition),还能发现工艺(Process)中的隐性知识。

▲Schematic representation of lab states managed within the AlabOS system. Digital Discovery, 2024,3, 2275-2288

随着SDL变得日益复杂,如何管理数字样品流和异构设备的调度成为一大难题。AlabOS应运而生,成为了这类实验室的「操作系统」。它提供了一个可重构的工作流管理框架,允许不同的实验协议在同一套硬件上并行运行而不发生资源冲突,极大地降低了搭建自主实验室的软件门槛。

2025年,InvDesFlow-AL工作流发现LiAuH(氢化锂金)及其预测的高温超导性,成为了AI驱动材料发现的一个标志性案例 。研究团队构建了一个包含晶体生成模型和属性预测模型的主动学习(Active Learning)闭环。

▲Chinese Phys. Lett. 42 047301

生成: 生成模型探索了包含锂、金、氢的非常规化学空间,这一组合通常不在人类直觉的首选列表中。筛选与优化: 系统利用图神经网络预测候选结构的形成能和超导转变温度。迭代: 算法自动关注那些预测温度较高且热力学相对稳定的区域,通过多轮迭代,逐步进化出LiAuH结构。结果与意义

预测显示,LiAuH在常压下的超导转变温度高达140 K。这一数值不仅远超麦克米兰极限(McMillan limit),甚至高于液氮温区。尽管该材料的实验合成仍面临巨大挑战(极高的反应活性),但这一发现证明了AI有能力跳出人类经验的窠臼,在高维参数空间中定位出真正的“黑天鹅”材料。这也再次凸显了计算预测(Prediction)与实验合成(Synthesis)之间存在的鸿沟。

结论与建议

2024年至2025年的发展历程确立了AI在材料科学中不可动摇的核心地位。我们已经见证了从预测属性到生成物质的历史性跨越。

生成模型(如MatterGen, SymmCD)在理论上解决了逆向设计问题,能够按需定制晶体结构。通用势函数(如MACE, EquiformerV2)打破了精度与效率的壁垒,为大规模原子动力学模拟铺平了道路。自主实验室(如A-Lab, Rainbow)正在尝试物理实现这些数字梦想,尽管在自主表征上仍需突破。

未来的决胜点在于集成(Integration):将生成式AI的「想象力」与自主实验室的「执行力」以及领域专家的「判断力」深度耦合。随着领域的成熟,成功的衡量标准将从预测材料的数量(百万级)回归到实际合成材料的效用(几十个)。AI驱动的物质工程学(AI-driven Matter Engineering)时代已经到来。

Han, N. & Su, B.-L. (2025). AI-driven material discovery for energy, catalysis and sustainability. National Science Review.

Handoko, A. D. & Made, R. I. (2025). Artificial Intelligence and Generative Models for Materials Discovery: A Review. arXiv.

Cheetham, A. K. & Seshadri, R. (2024). Artificial intelligence driving materials discovery? Perspective on the article: scaling deep learning for materials discovery. Chemistry of Materials.

Zhang, H. et al. (2024). HoneyComb: A Flexible LLM-Based Agent System for Materials Science. EMNLP Findings.

Research Papers

Zeni, C. et al. (Microsoft Research) (2025). MatterGen: A generative model for inorganic materials design. Nature.

Merchant, A. et al. (Google DeepMind) (2023/2024). Scaling deep learning for materials discovery. Nature. (GNoME Project).

Batatia, I. et al. (2024). A foundation model for atomistic materials chemistry (MACE-MP-0). arXiv/JCP.

Levy, D. et al. (2024). SymmCD: Symmetry-Preserving Crystal Generation with Diffusion Models. NeurIPS 2024 Spotlight.

Luo, X. et al. (2025). CrystalFlow: a flow-based generative model for crystalline materials. Nature Communications.

Wines, D. & Choudhary, K. (NIST) (2024). CHIPS-FF: Evaluating Universal Machine Learning Force Fields for Material Properties. ACS Materials Letters.

Fei, Y. et al. (2024). AlabOS: A Python-based reconfigurable workflow management framework for autonomous laboratories. Digital Discovery.

Kang, Y. & Kim, J. (2024). ChatMOF: An Artificial Intelligence System for Predicting and Generating Metal-Organic Frameworks Using Large Language Models. Nature Communications.

来自:学术圈下班后

长三角G60激光联盟

陈长军转载