LLM已能自我更新权重，自适应、知识整合能力大幅提升，AI醒了？

机器之心报道

编辑：Panda

近段时间，关于 AI 自我演进/进化这一话题的研究和讨论开始变得愈渐密集。

本月初我们就曾梳理报道了一些，包括 Sakana AI 与不列颠哥伦比亚大学等机构合作的「达尔文-哥德尔机（DGM）」、CMU 的「自我奖励训练（SRT）」、上海交通大学等机构提出的多模态大模型的持续自我改进框架「MM-UPT」、香港中文大学联合 vivo 等机构的自改进框架「UI-Genie」，参阅文章《LSTM 之父 22 年前构想将成真？一周内 AI「自我进化」论文集中发布，新趋势涌现？》

那之后，相关研究依然还在不断涌现，以下拼图展示了一些例子：

而前些天，OpenAI CEO、著名大 v 山姆・奥特曼在其博客《温和的奇点（The Gentle Singularity）》中更是畅想了一个 AI/智能机器人实现自我改进后的未来。他写道：「我们必须以传统的方式制造出第一批百万数量级的人形机器人，但之后它们能够操作整个供应链来制造更多机器人，而这些机器人又可以建造更多的芯片制造设施、数据中心等等。」

不久之后，就有用户 @VraserX 爆料称有 OpenAI 内部人士表示，该公司已经在内部运行能够递归式自我改进的 AI。这条推文引起了广泛的讨论 —— 有人表示这不足为奇，也有人质疑这个所谓的「OpenAI 内部人士」究竟是否真实。

https://x.com/VraserX/status/1932842095359737921

但不管怎样，AI 也确实正向实现自我进化这条路前进。

MIT 昨日发布的《Self-Adapting Language Models》就是最新的例证之一，其中提出了一种可让 LLM 更新自己的权重的方法：SEAL，即 Self-Adapting LLMs。在该框架中，LLM 可以生成自己的训练数据（自编辑 /self-editing），并根据新输入对权重进行更新。而这个自编辑可通过强化学习学习实现，使用的奖励是更新后的模型的下游性能。

论文标题：Self-Adapting Language Models论文地址：https://arxiv.org/pdf/2506.10943项目页面：https://jyopari.github.io/posts/seal代码地址：https://github.com/Continual-Intelligence/SEAL

这篇论文发布后引发了广泛热议。在 Hacker News 上，有用户评论说，这种自编辑方法非常巧妙，但还不能说就已经实现了能「持续自我改进的智能体」。

论文一作 Adam Zweiger 也在上给出了类似的解释：

也有人表示，这表明我们正在接近所谓的事件视界（event horizon）—— 这个概念其实也出现在了山姆・奥特曼《温和的奇点》博客的第一句话，不过奥特曼更激进一点，他的说法是「我们已经越过了事件视界」。简单来说，event horizon（事件视界）指的是一个不可逆转的临界点，一旦越过，人类将不可避免地迈入某种深刻变革的阶段，比如通向超级智能的道路。