AI 开始把科研做成流水线了:AI Scientist-v2 值得看什么

Sakana AI 新放出的 AI Scientist-v2,更值得看的地方,是它开始把想点子、跑实验、聚合图表、写作、审稿接成一条更完整的自动科研流水线。

如果你关心的是自动科研系统会先在哪一层开始变得可用,这个仓库值得认真看。

项目卡片

  • 项目名:AI Scientist-v2
  • GitHub:https://github.com/SakanaAI/AI-Scientist-v2
  • 增长信号:Sakana AI 直接把它定义成“the first workshop paper written entirely by AI and accepted through peer review”这一代系统
  • 一句话判断:v2 真正升级的地方,在于它把模板驱动的自动科研,往更开放的探索式系统推了一步

它和 v1 最大的区别:更开放,不再押注模板

README 里有一句很关键:v2 不一定比 v1 产出更好的论文

原因也写得很直白:v1 更依赖人类先写好的模板,所以成功率更高;v2 去掉了 human-authored templates,想把系统泛化到更开放的机器学习研究场景里。

所以这代系统真正的变化,是它开始更接近一个通用科研代理系统,而不再只是沿着模板去稳定出稿。

它真正做成的是一条流水线

从 README 和 launch_scientist_bfts.py 往下看,这条链路已经比较完整:

  1. perform_ideation_temp_free.py 生成研究想法
  2. 接 Semantic Scholar 做 novelty checking 和文献检索
  3. launch_scientist_bfts.py 拉起 best-first tree search 实验主流程
  4. perform_plotting.py 聚合图表
  5. perform_writeup.py / perform_icbinb_writeup.py 写 LaTeX 论文
  6. 最后再用 perform_llm_review.pyperform_vlm_review.py 做审稿式检查
AI Scientist-v2 的重点不是某个单点模型,而是把想法、搜索、实验、画图、写作、审稿接成了一条自动科研流水线

它比很多“科研 agent demo”更进一步的地方,在于已经开始把科研当成一串彼此依赖的子任务来管理,而不只是停在 proposal 生成或论文写作这种单点能力上。

最有信息量的一层:agentic tree search

AI Scientist-v2 标题里的 Agentic Tree Search 不是装饰词。

bfts_config.yaml 里,你能看到系统没有让一个 agent 线性做到底,而是按 worker 并行展开多个探索路径,还配置了 stage 迭代次数、debug 深度、debug 概率、草稿树数量这些参数。

默认配置里包括:

  • num_workers: 4
  • stage1_max_iters: 20
  • stage2_max_iters: 12
  • stage3_max_iters: 12
  • stage4_max_iters: 18
  • max_debug_depth: 3
  • debug_prob: 0.5
  • num_drafts: 3

这说明它试的是并行探索、失败回退、节点调试、再继续扩展,而不是押注“一次写对”。

仓库官方 logo 本身就在强调“AI Scientist v2”是一套系统级升级,而不是单个写作模型换代

README 还明确说,实验阶段结束后,日志目录里会产出 unified_tree_viz.html。这里有价值的地方在于,它至少给了你一个可以回看搜索过程的出口。

这项目为什么还不是产品

答案也写在仓库里了。

第一,门槛不低。README 一开始就写明:Linux + NVIDIA GPU + CUDA + PyTorch,安装里还要 popplerchktex,后面写作阶段还要碰 LaTeX。

第二,风险不低。README 直接提醒:这套代码会执行 LLM 写出来的代码,可能涉及危险包、不可控 web access,甚至意外拉起进程,建议放在受控 sandbox 里跑,比如 Docker。

第三,成本和成功率也没有被藏起来。README 直接给出一个大概区间:

  • ideation 阶段通常只要几美元
  • 主实验流程如果实验阶段用 Claude 3.5 Sonnet,通常大约 15–20 美元 / run
  • 后续写作阶段默认配置再加大约 5 美元

我反而更愿意认真看这种写法。很多自动科研系统只展示最好的 case,不告诉你探索失败率、真实依赖和运行成本。

最后判断

我看完 AI Scientist-v2 后最明确的感觉是:自动科研这件事,终于开始有点系统工程的样子了。

它当然还远远没到“稳定产出好论文”的程度,Sakana AI 自己也承认 v2 不一定比 v1 更稳。但正因为它没有继续缩回模板,而是主动往开放探索推进,这个仓库才更值得看。

如果你关心的不是“AI 会不会替代科学家”这种大词,真正想看的,是自动科研系统下一步该补哪一层,那 AI Scientist-v2 基本就是现在最值得拆的一批样本之一。

如果这篇对你有用,建议点个关注。我会持续把 GitHub 上值得用的 AI 工具拆成「最短上手闭环 + 坑点清单 + 可复用配置」,让你少走弯路。


关注微信公众号

想第一时间看到后续的工具拆解与实战更新,欢迎扫码关注公众号。