顶会0篇,一夜RLHF爆文刷屏!他靠写作逆袭AI圈,院士都说好

发布时间:2025-06-08 10:01:48

本文作者:小古

图片来源:互联网

新智元报道

编辑:KingHZ

【新智元导读】他不是天才,博士毕业0顶会论文,却靠着坚持写技术博客,因RLHF「网红」博客文章一炮而红,逆袭成功、跻身AI核心圈!技术可以迟到,但影响力不能缺席。这一次,是写作改变命运。

Ai2的高级研究科学家Nathan Lambert,最近分享了他如何走上AI之路。

尽管起步艰难、几经波折,他依旧在AI领域站稳脚跟、有所成就。

图片来源:互联网

博士毕业时,他没有在NeurIPS/ICML/ICLR等顶会上发表过文章。

如今,他的谷歌引用数已有5千多,h指数为32。

图片来源:互联网

深度RL:转行契机

2017年秋天,他开始在加州大学伯克利分校电气工程与计算机科学系读博。

他的学术背景是MEMS(微机电系统)、高能物理/激光。

此外,他还在特斯拉做过电池工程实习。

图片来源:互联网

但听完迎新会、看教授介绍,他立刻就被AI吸引了。

像Sergey Levine(下图左)和Pieter Abbeel(下图右)这类教授,当时炙手可热,风头正劲。

图片来源:互联网

那正是深度强化学习的高光时刻,相当于今天RL热潮的「前浪」。

他曾主动联系Levine和Abbeel,希望加入他们的研究组,但都被婉拒。

虽然未能如愿,但他并未气馁,反而坚持不懈,一直在主动争取机会。

之后一整年,他几乎没什么真正接触AI研究的机会。

上课、读论文,基本是独自暗中摸索。

他没采纳那种「研究生上课不重要」的建议,反而学到了不少扎实的基础知识。

但他没能真正融入伯克利AI实验室,也没有AI方向的朋友,身边全是EECS电气工程那边的同学。

图片来源:互联网

世界顶尖学术AI研究实验室

事后回顾,Nathan Lambert认为入学前,他已有一些些基本特质:

很会专注,能独自钻研技术难题。

相信只要肯努力多年,多数人都能做成很难的事。不是不够努力,是没坚持够久。

对读不读完博士,无所谓。大不了拿个名校硕士。

有很多冲劲,但没方向。

基础不是障碍,反而是势能的起点。

最难的是第一步,而愿意埋头学基础的人,最终会在别人止步之处继续前进。

图片来源:互联网

第一篇论文

转机在他挖出了导师Kris Pister的一封旧邮件。

图片来源:互联网

导师帮他牵线认识了当时的Sergey Levine组的博士后Roberto Calandra。

图片来源:互联网

Roberto Calandra现任德累斯顿工业大学正教授(W3教授级别),并领导该校「学习、自适应系统与机器人」实验室(LASR)

这才算搭上AI的边:

邮件摘录:

Roberto对将机器学习应用于飘升机(ionocraft)感兴趣。

我们可以尝试:

优化腿部几何形状的学习算法;

为机器人生成「复杂地形」进行测试;

用仿真优化新设计,再用硅材料制造出来测试;

用惯性传感器数据优化步态、避障,甚至控制真实飞行器。

这次合作从2018年春天开始。

秋天错过了一次会议投稿,而且很多实验都失败了。

到了2019年冬天,论文成为他的「头等大事」,虽然最后论文完成了,但成文有点粗糙、略显拼凑。

图片来源:互联网

论文链接:https://arxiv.org/abs/1901.03737

每次和Roberto开会,他都「压力山大」,生怕漏掉AI博士生「习以为常」的东西。

当时,他做了扎实的工作。

尽管当时总觉得自己格格不入,但那份全身心投入的执着对真正的研究弥足珍贵。

如今AI研究如此热门,太多人只求在简历上勾选这段经历,而非深究细节——

而那时的他,却低估了自己的价值。

转机往往藏在别人不经意的一句引荐里。

不是每次实验都要成功,但每次投入都能积蓄下一次的突破。

从FAIR实习起步

真正的转机出现在2019年,Roberto问他要不要跟他去FAIR(Facebook人工智能研究院)实习。

正是这个实习把他从「AI圈外人」带到了「AI圈内人」的轨道上。

FAIR的经历让他真正学会了如何做实验、写代码。

之后,他坚持做研究,同时不断教学来维持学业。

他写了很多申请,但直到毕业才拿到一些拨款,也算是前人栽树,后人乘凉。

FAIR实习+大量面试,帮他拿到第二个机会——DeepMind的实习。

尽管实习体验不尽如人意,但他由此积累了宝贵的技术经验与人脉资源。

图片来源:互联网

这条路很清楚:一旦你突破了第一道门槛,后面就会顺一点——

前提是你一直踩着油门往前冲。

研究生生涯后期,他在心理健康资源页面上专门列了份「研究现实清单」,记录所有不如意的事情。

图片来源:互联网

最后,他以零篇NeurIPS/ICML/ICLR论文完成了AI博士。

他不是从小泡在实验室的「圈内人」,而是靠韧性和创造力硬闯出来的。

这条路,正好也反映了他的AI界朋友圈:一群「AI界的流浪玩具」。

这些「边缘人社群」各有短长,最后大家都找到自己的落点。

突破圈层的关键,不是资源而是契机+准备。

积累势能,打响名声

尽管前面经历了不少波折,Nathan Lambert心里一直有一个明确的目标——

拿下一份工业界研究岗,这对他来说才算真正「在AI领域站稳了」。

最终他加入HuggingFace,那是唯一一份符合他要求的工作。

图片来源:互联网

当时是HuggingFace的研究负责人Douwe Kiela,把他招进去,领导人类反馈强化学习(RLHF)团队。

图片来源:互联网

让人没想到的是,这类岗位会在他毕业一年后几乎「消失殆尽」。

加入HuggingFace,对Nathan Lambert来说也算幸运,避开了一些听起来更诱人、但后来大裁员或转型的公司。

在HuggingFace,他收获了许多。

其中最宝贵一课,是如何积累势能(momentum)和心智占有率(mind-share)。

这两个概念紧密关联却存在微妙差异——

• 个体持续积累动能换取行业影响力;

• 作为组织,HuggingFace虽坐拥心智占有率,近期却面临动能不足。

动能可转化为心智占有率,而后者一旦建立,仅需维持引力便能持续发挥影响。

2022年5月加入HuggingFace后,在ChatGPT问世前的七个月里,他认为并未做出显赫成果。

但坚守HuggingFace的文化,坚持日拱一卒:

每日必须推进技术进展——或是重大功能,或是代码优化。

但日积月累,锻炼了好习惯。

博士生导师曾对他说过:「每天专注4小时,你也能改变世界。」

关键是要把「砖」一块块往上堆——

大多数人放弃得太早了。

在ChatGPT之前的那段时间,他在HuggingFace项目之间辗转,基本是哪里有事、哪里需要人手就去哪儿。

他们尝试了用于强化学习的合成环境项目Simulate,但其实他们人手根本不足。

图片来源:互联网

目前,该项目已不再积极维护和开发。

在Diffusers库,他做了一些边缘性的贡献,还做了不少关于负责任AI的研究。

图片来源:互联网

Diffusers提供最先进的预训练扩散模型,支持图像、音频甚至分子3D结构生成

尽管这些工作在都还不错,但坦白说,没有哪个项目足以「构建职业基础」。

那段时间最有价值的,其实是:

练出了稳定的工作习惯;

真正理解了开源AI社区是怎么运作的。

这些为之后遇到契合项目时,他能快速接住、真正发力打下了基础。

RLHF技术博客「出圈」

他真正「出圈」的起点,是为HuggingFace写的第一篇重量级博客——关于RLHF(基于人类反馈的强化学习)。

图片来源:互联网

其实那时他没实现过RLHF算法,也没完整读过论文,只是为了搞懂新概念就动笔了。

这和他现在很多写作动机一样:写作是最好的学习方式。

虽然他一直把自己当「强化学习传人」,但也没想太多,写完就发了。

结果它成了RLHF关键词下的长期搜索热文(虽然现在内容已经有点旧了)。

回头看,那是他第一次意识到自己的特长:

把显而易见但没人做的事,及时简单地做好。

这是他后来变得非常重要的能力。

很多人会高估别人的执行力,低估简单方案的价值,然后被自己复杂的想法拖住(沉没成本效应)。

但其实,即使是「显而易见」的事,也很少有人认真去做。

比如在做RewardBench的时候,他整整三个月每天都担心被别人「抢先发布」。

图片来源:互联网

论文链接:https://arxiv.org/abs/2403.13787

结果发了后,又过了三个月才有人发竞品。

所以,RewardBench是RLHF奖励模型的第一个评估工具。

势能来自每天一块砖,而不是坐等奇迹。当别人还在等待大项目,他已经靠「基础活」攒下了存在感和专业度。

突破点:公开科研沟通>技术产出

在HuggingFace从事RLHF期间,他为开源社区做了很多基础性工作:

把TRL库现代化;

探索人类数据合同;

复刻数据集;

做了第一个LLM排行榜;

还训练了一些有趣的小模型。

图片来源:互联网

图片来源:互联网

图片来源:互联网

图片来源:互联网

这很充实、也很有趣。

但后来,时差、文化差异等问题接踵而至。

他慢慢觉得不再快乐了。

HuggingFace如果当时能扩张团队,并配上合适的技术领导,可能能将影响力扩大好几倍。

但这也伴随着风险。训练AI模型是个异常细致的过程,任务繁琐、对小细节的执行有极高要求。

团队只要稍微长大一点,可能就能带来「疯狂级别」的增益。

不管如何,与此同时,他找到了属于自己的定位:做开放科研的沟通者。

这个策略其实很简单:

在AI实验室趋于封闭、外界关注度飙升的当下,只要持续做与AI相关的事,在公众眼里的成长就会指数级上升。

他另辟蹊径,选择了竞争没那么激烈的方向。

这让他更容易脱颖而出。

尽管注意力总量虽然在增长,但真正被关注的人反而在减少——

所以只要成为其中之一,收获会非常可观。

如果他当初去了那些「前沿AI实验室},可能早就被埋没在其中,职业成长空间也被压缩了。

而那时候,他开始坚持每周写作,就是这一战略最有力的验证。

而一旦有了清晰的个人品牌,故事就自然会往你这儿聚拢。

比如HuggingFace最具影响力的模型之一——Zephyr Beta,就是基于他帮助搭建的基础设施完成的。

之后,他加入了Allen人工智能研究所(Allen Institute forAI,简称AI2)。

图片来源:互联网

在他刚加入时,Ai2正好在训练Tülu 2 70B。

图片来源:互联网

美国艺术与科学院与美国国家工程院(NAE)双院士、斯坦福大学教授、NLP大牛Chris Manning,如获至宝,甚至说Nathan Lambert的这两项工作「救活了DPO」。

图片来源:互联网

尽管在技术上,Nathan Lambert表示这些项目与DPO没有直接关系。

现在,Chris Manning首次提出直接偏好优化DPO的论文,被引用了3000多次。

图片来源:互联网

论文链接:https://arxiv.org/abs/2305.18290

这不是谦虚,而是想说明:

科研不是单一角色的战场,推动科学进展的,是一个个看似不起眼、但密不可分的角色组合。

渐至佳境

在AI2的这段时间,是他职业生涯中最容易被看清楚的一段。

他希望AI能真正朝好的方向发展,而且坚信更开放的生态是实现这一目标的最好方式。

这份工作对他来说,几乎是最理想的状态:

他的公开写作对AI2有明确价值,而他也能持续锻炼表达力、扩大影响力。 这样的工作极其稀有,大多数公司并不会真的帮你个人成长。

刚加入AI2时,他也经历了一段适应期。

通过RewardBench这类重要的学术项目,他表示自己建立了信心:

我能独立提出点子,并带头推进高影响力的研究项目。

角色转变

许多时候,参与太多合作会让人忽略一个问题:你是否能一个人把事做成?

(即使慢一点、质量没那么高、过程没那么好玩——重点不在贬低团队,而是看清自己的能力边界。)

现在,他已转变了工作方式,已经完全可以「因人随事」而定。

周围的同事,年轻、优秀、富有驱动力。

他们更熟悉细节,也更擅长把新点子实现出来。

所以他更多的贡献是:

指引方向;

提前清除潜在障碍;

创造顺畅推进的环境。

他不再是那个亲自下场刷代码的人,而是负责让项目走得更远、更稳的人。

这是一种完全不同的角色定位。

他形成了一个非常明确的观点:

短期研究要产生影响,最有效方式就是把它接入模型训练流程;

长期研究,就得真正做「长期」准备。

偶尔,他也会做些学术指导,但非常保护自己的时间。

基本不做线上社交(线下少量),大多数合作都会婉拒。

因为在这个阶段,高质量的输出才是短期目标,而「被关注」是一个复杂得多的长期变量。

技术最终服务于人,好的科研不是一个人的冲刺,而是一群人的合力。

当你愿意从舞台中心走下来,才能搭起更大的舞台。

职场中的「飞轮效应」

他表示他越来越喜欢用「飞轮」(flywheel)这个比喻来看待项目、职业、乃至整个机构的发展。

就像创业公司在找到产品市场匹配(PMF)前,要不断试错迭代,职业生涯也需要不断点火:

一开始就是不停「试水」、发布、调整;

早期的「爆款」通常都不会真的火,只是逐步积累影响力;

真正让飞轮转起来的,是多次的积累之后,势能终于爆发。

但一旦飞轮动起来,「发布频率」反而可能成为负担:

在AI领域,太频繁发模型,会让我们来不及掌握、完善下一个模型;

观众多了,维护公共输出的成本也飙升。

早期在HuggingFace和刚进AI2时,他一直推崇「多发模型」,但久而久之,这变成了团队的负担。

所以他现在转向更「少而精」的策略。当飞轮已经转起来时,更少、更大的动作会更有价值。

飞轮一旦足够大,有时候什么都不做反而更有效:

项目自然流入;

推荐自然发生;

你会被当成「AI开放科学的头部人物」之一,而不必不断自我证明。

真正的成长不是「更努力」,而是「更聪明地努力」。

当飞轮启动,维持节奏比盲目奔跑更重要。

现在,他花很多时间思考:

如何更有策略地使用积累的影响力?

他不想总是站在最前线亲自带队,而是希望通过营造环境、鼓励他人,让更多重要项目得以发生。

这是一套全新的能力,他还在学习。

而这,正是他始终心系的愿景:AI的未来不属于孤勇者,而是属于一群协力前行、彼此赋能的人。

参考资料:

https://www.interconnects.ai/p/my-path-into-ai

https://www.linkedin.com/in/natolambert/

图片来源:互联网

本文转载自互联网,如有侵权,联系删除。

相关文章