科研AI Agent也能发Nature之二:ERA实证研究辅助系统改进

发布时间:2026-06-02 19:59  浏览量:1

fieldcontent文献标题An AI system to help scientists write expert-level empirical software文献标题翻译助力科学家编写专家级实证软件的 AI 系统文献作者Eser Aygün, Anastasiya Belyaeva 等 (Google DeepMind / Google Research团队)发表年份2026.05.19 (Accelerated Article Preview)发表杂志Naturedoi 链接

介绍了 Google DeepMind 团队在 Nature 上发表的 ERA(Empirical Research Assistance)系统——一个能自动编写专家级科学软件的 AI 系统。其核心思路是将 LLM 代码生成与 AlphaZero 式的 PUCT 树搜索算法结合:不是让 AI 一次性生成代码,而是维护一棵全局搜索树,在"深挖当前最优方案"与"回溯早期冷门分支尝试全新思路"之间智能平衡,每一轮迭代都在代码沙盒中自动评分并反馈。除了改进当前算法、探索新思路外,ERA 还能将顶会论文中的各个先进算法进行总结,对不同算法做"理念杂交",生成超越原版的混合方案。最终,ERA 在单细胞 RNA 测序批次整合(40 种新方法超越人类排行榜所有方案)、COVID-19 住院预测(14 个模型全部优于 CDC 集成标准)、通用时间序列预测等六个跨学科任务中均达到或超越人类专家水平,证明了只要任务有明确的自动评分标准,AI 就能通过搜索在代码解空间中找到人类难以察觉的最优路径。

科学发现的周期经常被缓慢、手动的计算实验软件创建所瓶颈。实证软件(旨在最大化可测量质量分数的软件)在许多科学领域中无处不在且至关重要,例如密度泛函理论、分子动力学模拟和蛋白质结构预测等诺贝尔奖获奖工作都依赖于实证软件。然而,领域特定的实证软件需要繁琐的工作,通常耗时多年,且设计选择往往受人类直觉或权宜之计支配,而非系统性实验。

✦ 遗传编程(Genetic Programming)

:通过进化原理迭代改进程序群体,但传统上依赖随机突变和结构化代码片段重组

✦ 大语言模型代码生成

:如AlphaCode和OpenAI Codex,展示了从自然语言描述生成正确复杂代码的能力,但主要用于"一次性"生成

✦ 自动化机器学习(AutoML)

:自动化构建机器学习流程,但局限于固定框架内的模型选择

✦ LLM与搜索结合

:如FunSearch使用LLM搜索数学发现,AlphaEvolve等框架扩展了进化编码循环

✦ 科学智能体

:专注于特定领域问题的智能体系统,如数据科学或计算生物学

1.

如何系统性、自动地创建能够最大化质量指标的实证科学软件?

2.

如何将外部研究想法(如文献中的方法)有效整合到代码生成过程中?

3.

如何在庞大的解决方案空间中智能导航,避免陷入局部最优?

4.

如何让AI系统在不同科学领域都能达到专家级性能?

作者开发了ERA(Empirical Research Assistance)系统,其核心创新包括:

✦ LLM驱动的代码重写

:不同于从零生成,ERA让LLM重写现有软件候选方案

✦ 树搜索(Tree Search)算法

:使用PUCT(Polynomial Upper Confidence Trees)算法平衡利用(exploitation)和探索(exploration),允许系统从任何历史节点回溯和分支

✦ 研究想法注入

:将外部研究想法(来自高引用论文、教科书、搜索引擎或AI研究工具如Deep Research)整合到提示中,指导代码生成

✦ 代码沙盒评估

:生成的代码在沙盒中执行并评分,分数反馈到搜索树中指导下一步搜索

✦ 想法重组(Recombination)

:将不同方法的核心思想组合,产生新的混合策略

ERA在多个科学领域达到或超越了人类专家水平:

✦ 单细胞RNA测序批次整合

:发现40种新方法,超越OpenProblems排行榜上所有人类开发的方法

✦ COVID-19住院预测

:生成14个模型,优于CDC集成模型和所有其他个体模型

✦ 时间序列预测

:在GIFT-Eval基准上超越所有现有方法,包括基础模型

✦ 地理空间分割、神经活动预测和数值积分

:均达到专家级性能

1. 通用框架

:首个在多个不同科学领域都击败人类性能的AI系统

2. 树搜索+LLM

:独特的代码重写方式,而非一次性生成

3. 外部想法整合

:能够理解和实现来自文献的具体研究方法

4. 概念空间重组

:在概念层面(通过LLM提示)而非仅在代码层面重组方法

5. 全局平坦树结构

:允许从任何历史节点回溯,避免局部最优

✦ 目的

:验证 ERA 系统在通用数据科学任务中的基础性能,对比传统代码生成方法的优劣。

✦ 分析方法和结果

选取 16 个 Kaggle 数据竞赛,对比单次 LLM 生成、千次最优生成、AIDE 系统与 ERA(树搜索),ERA 平均排名显著领先

ERA能通过迭代发现性能突变的代码策略

ERA当引入专家建议、特定算法指导后性能进一步提升。

✦ 结论

:ERA 通过维护一个多样化的候选树结构,能够有效避免单一优化路径的停滞(允许回溯),从而在可评分的编程任务中稳健地寻找出高质量解

图 1 | ERA 的原理图与性能

a

, ERA 算法的原理图。一个可评分任务(scorable task)连同提出解决该任务方法的“研究理念”一起被输入到大语言模型(LLM)中,LLM 随后生成代码以在沙盒中评估该任务的得分。然后,这被嵌入到一个树搜索算法中,通过从 LLM 中进行采样,在平衡“利用(exploitation)”与“探索(exploration)”的过程中选择新节点(见方法部分)。

b

, 代码生成方法在 Kaggle Playground 基准测试上的性能。结果报告了 16 个任务中公共排行榜排名的平均百分位表现。基于 ERA 的方法以粗体列出。TS:基于 ERA 的树搜索(Tree Search);BDT:梯度提升决策树(Boosted Decision Tree)。误差线表示基准测试中不同竞赛之间性能的标准差。

c

, 该系统通过基于研究理念和定义的质量指标,迭代优化预测模型和计算算法,从而实现实证软件开发的自动化。我们使用 LLM 对科学论文的总结或 AI 辅助生成的文献作为提示词的一部分,并将成功实现的理念进行重组,以创建更强大的方法。

Result 2:单细胞 RNA 测序(scRNA-seq)数据批次整合

✦ 目的

评估 ERA 在高维稀疏的生物信息学数据中,消除不同实验室样本间的批次效应同时保留真实生物学信号(细胞类型特征)的能力。

✦ 分析和结果

在 OpenProblems v2.0.0 基准测试中,ERA 首先在无外部指导下生成了优于当前排行榜的算法。随后,作者将 9 种现有顶级算法的论文摘要输入给 ERA,ERA 生成的复现代码在 8 种情况下超越了原作者的实现。

最优 BBKNN(TS)方法较现有最优算法提升 14%,是通过融合 ComBat 与 BBKNN 思路创新得到的,在所有数据集和11/13指标上等于或超越原始BBKNN

通过让 ERA 自动对这些顶级算法进行两两“理念重组”,或者结合 Gemini Deep Research 寻找新思路,最终生成的 87 种算法中有 40 种超越了目前公共排行榜上的所有现有方法。

✦ 结论

借助大语言模型的语义理解和树搜索的严谨试错,ERA 能够深度理解并优化复杂的生物信息学算法,还可以通过杂交不同算法的优势实现性能的突破

图 2 | ERA 在单细胞 RNA 测序(scRNA-seq)批次整合任务上的性能

a

, 批次整合任务的原理示意图,在该任务中,不同来源的数据集(青色和红色)被处理以消除数据中的技术批次效应,同时保留真实的生物学变异性。

b

, 与 OpenProblems 基准测试 v2.0.0 上相对应的已发表方法相比,树搜索方法(名称加粗并带有“(TS)”后缀)的性能表现。“Perfect embedding by celltype with jitter”是一个代表最佳可能性能的正对照方法,“Shuffle integration by batch”是一个不执行任何批次整合的负对照方法。总分(Overall score)是所有数据集和指标的平均值。每个 Datasets(数据集)列显示了在该数据集上计算的所有指标的平均值;每个 Metrics(指标)列显示了在所有数据集上计算的该指标的平均值。如果指标无法计算或其性能低于最低的负对照表现,则赋值为 0,并在图中显示为空白。

c

, 表现最好的“批次平衡 K 近邻 (BBKNN)”实现过程中的性能跃升情况及对应的代码创新注释。例如,基于 ComBat 的嵌入生成是在第 429 次代码变异尝试时被引入的。

d

, OpenProblems 基准测试 v2.0.0 中非对照方法、带或不带理念重组的 ERA、Gemini Deep Research 以及带 AI co-scientist 的 ERA 的总分。Y 轴下界对应于“Shuffle integration by batch”负对照方法的总分。图中省略了 7 个重组方法、5 个基础方法和 2 个 AI co-scientist 方法(因为它们未能达到此最低负对照性能)。* 表示该方法采用了重组思路,即使它没有被提示词明确要求进行重组。TS:基于 ERA 的树搜索;fastMNN:batchelor fastMNN;mnnCorrect:batchelor mnnCorrect。

✦ 目的

测试 ERA 在处理具有滞后性、高噪声且非线性的真实世界公共卫生数据时的时序预测能力。

✦ 分析和结果

使用CDC COVID-19预测中心(CovidHub)数据,每个预测周期使用前6周数据优化模型,训练出Google Retrospective模型,平均WIS(每周预测性能)为26,优于CovidHub集成模型的29

ERA 成功复现并改进了其他团队提交的基线模型,随后通过重组不同模型的理念(例如结合 CEPH 流行病学模型和 UMass 统计学模型),以及利用 Deep Research 获取新策略,ERA 最终生成了 14 种不同的预测模型。在针对 52 个州的回顾性盲测中,这 14 个模型的预测准确度(WIS 评分)均超越了代表美国最高水平的官方 CovidHub-ensemble 黄金标准模型。(图3e)

✦ 结论

ERA 系统能够自动发现“稳健的季节性历史基线 + 捕捉短期波动的复杂机器学习模型”这一最佳混合范式,从而在极具挑战的流行病学预测中达到顶尖专家水平

图 3 | ERA 在 COVID-19 预测任务上的性能

a, 用于预测实验的滚动验证窗口。每次搜索的输出代码会在前一个时间块(蓝色)上进行内部验证,然后生成的模型将被用于预测其相应的目标预测期(橙色)。训练数据包括 2020年8月8日及之后,但在验证集日期之前的所有数据。

b, 时间序列排行榜,显示了参赛团队和我们的 'Google Retrospective' 模型按平均 WIS 排序的每周预测性能(Average WIS)。分数跨越 52 个管辖区和 4 个时间范围进行汇总。每个单元格内的数字是该模型当周的绝对平均 WIS 分数。单元格的背景颜色可视化了其相对于美国官方模型 CovidHub-ensemble 的表现,蓝色表示较低(更好)的 WIS 误差,红色表示较高(更差)的 WIS 误差。

c, 我们的模型与 'CovidHub-ensemble' 之间在管辖区级别的预测误差(平均 WIS)的直接比较,结果表明我们的模型在大多数地理位置都具有更优越的性能。

d, 我们的模型在整个 2024/25 COVID-19 季节中汇总的预测误差(平均 WIS)的地理分布图。误差值越低(颜色越浅)表示性能越好。

e, 各种建模策略的综合预测性能比较。这包括了 CovidHub 竞赛原有的基线模型、我们的回顾性模型、我们对别人提交模型的自动复现版、通过重组生成的新型混合模型,以及通过 Deep Research 和 AI co-scientist 生成的策略。在为期 3 周(3 个参考日期 × 4 个时间范围 × 52 个管辖区)的评估期内,总共有 14 种策略(10 个重组模型、2 个 Deep Research 模型、1 个 AI co-scientist 模型和 1 个复现的基线模型)的表现超越了美国官方的 CovidHub-ensemble 标准。表现差于 CovidHub-baseline 的失败模型未在图中显示。

Result 4: 通用时间序列预测(GIFT-Eval)与其它跨学科应用

✦ 目的

验证 ERA 系统的跨领域通用性,特别是能否从零开始构建一个通用的预测库,以及在计算机视觉和物理/神经科学中的表现。

✦ 分析和结果

○ 时间序列

:在 GIFT-Eval 的 97 个数据集中,ERA 从头编写了一个统一的预测库。通过在搜索过程中不断取得突破,它自动演化出了包含基线、趋势、季节性、日期特征和残差校正的“迭代分解模型”,在不使用庞大预训练基础模型的情况下,展现出极强的竞争力。

○ 地理空间分割:

在地理空间分割任务中达到了 >0.80 的 mIoU(超越对比文献);

○ 神经科学

:在 ZAPBench 预测斑马鱼全脑71,721个神经元的活动中,生成了比 3D 视频大模型更高效且 1 步预测更准的时间序列架构;

○ 数值积分

:在数值数学中,自动实现了基于欧拉变换的级数加速算法,成功求解了 17 个连 SciPy 标准库都无法积分的病态函数。

✦ 结论

ERA 是一个高度通用的科学软件自动开发引擎,只要任务具有明确的数学评分标准,它就能通过搜索机制跨越从计算机视觉到计算数学的多个专业壁垒

是否有代码

ERA 的参考实现代码以及文中 6 个科学问题的最佳候选解决方案代码均已开源,托管在 GitHub 上(https://github.com/google-research/era )

这个repo提供的playground代码其实并没有多复杂,加起来就几百行,可以快速了解是如何实现LLM+树搜索算法的

还提供了一个用户界面供检查代表性运行中的完整树搜索数据和代码演变历史:https://google-research.github.io/era/