顶会0篇，一夜RLHF爆文刷屏！他靠写作逆袭AI圈，院士都说好

新智元报道

编辑：KingHZ

【新智元导读】他不是天才，博士毕业0顶会论文，却靠着坚持写技术博客，因RLHF「网红」博客文章一炮而红，逆袭成功、跻身AI核心圈！技术可以迟到，但影响力不能缺席。这一次，是写作改变命运。

Ai2的高级研究科学家Nathan Lambert，最近分享了他如何走上AI之路。

尽管起步艰难、几经波折，他依旧在AI领域站稳脚跟、有所成就。

博士毕业时，他没有在NeurIPS/ICML/ICLR等顶会上发表过文章。

如今，他的谷歌引用数已有5千多，h指数为32。

深度RL：转行契机

2017年秋天，他开始在加州大学伯克利分校电气工程与计算机科学系读博。

他的学术背景是MEMS（微机电系统）、高能物理/激光。

此外，他还在特斯拉做过电池工程实习。

但听完迎新会、看教授介绍，他立刻就被AI吸引了。

像Sergey Levine（下图左）和Pieter Abbeel（下图右）这类教授，当时炙手可热，风头正劲。

那正是深度强化学习的高光时刻，相当于今天RL热潮的「前浪」。

他曾主动联系Levine和Abbeel，希望加入他们的研究组，但都被婉拒。

虽然未能如愿，但他并未气馁，反而坚持不懈，一直在主动争取机会。

之后一整年，他几乎没什么真正接触AI研究的机会。

上课、读论文，基本是独自暗中摸索。

他没采纳那种「研究生上课不重要」的建议，反而学到了不少扎实的基础知识。

但他没能真正融入伯克利AI实验室，也没有AI方向的朋友，身边全是EECS电气工程那边的同学。

世界顶尖学术AI研究实验室

事后回顾，Nathan Lambert认为入学前，他已有一些些基本特质：

很会专注，能独自钻研技术难题。

相信只要肯努力多年，多数人都能做成很难的事。不是不够努力，是没坚持够久。

对读不读完博士，无所谓。大不了拿个名校硕士。

有很多冲劲，但没方向。

基础不是障碍，反而是势能的起点。

最难的是第一步，而愿意埋头学基础的人，最终会在别人止步之处继续前进。

第一篇论文

转机在他挖出了导师Kris Pister的一封旧邮件。

导师帮他牵线认识了当时的Sergey Levine组的博士后Roberto Calandra。

Roberto Calandra现任德累斯顿工业大学正教授（W3教授级别），并领导该校「学习、自适应系统与机器人」实验室（LASR）

这才算搭上AI的边：

邮件摘录：

Roberto对将机器学习应用于飘升机（ionocraft）感兴趣。

我们可以尝试：

优化腿部几何形状的学习算法；

为机器人生成「复杂地形」进行测试；

用仿真优化新设计，再用硅材料制造出来测试；

用惯性传感器数据优化步态、避障，甚至控制真实飞行器。

这次合作从2018年春天开始。

秋天错过了一次会议投稿，而且很多实验都失败了。

到了2019年冬天，论文成为他的「头等大事」，虽然最后论文完成了，但成文有点粗糙、略显拼凑。

论文链接：https://arxiv.org/abs/1901.03737

每次和Roberto开会，他都「压力山大」，生怕漏掉AI博士生「习以为常」的东西。

当时，他做了扎实的工作。

尽管当时总觉得自己格格不入，但那份全身心投入的执着对真正的研究弥足珍贵。

如今AI研究如此热门，太多人只求在简历上勾选这段经历，而非深究细节——

而那时的他，却低估了自己的价值。

转机往往藏在别人不经意的一句引荐里。

不是每次实验都要成功，但每次投入都能积蓄下一次的突破。

从FAIR实习起步

真正的转机出现在2019年，Roberto问他要不要跟他去FAIR（Facebook人工智能研究院）实习。

正是这个实习把他从「AI圈外人」带到了「AI圈内人」的轨道上。

FAIR的经历让他真正学会了如何做实验、写代码。

之后，他坚持做研究，同时不断教学来维持学业。

他写了很多申请，但直到毕业才拿到一些拨款，也算是前人栽树，后人乘凉。

FAIR实习+大量面试，帮他拿到第二个机会——DeepMind的实习。

尽管实习体验不尽如人意，但他由此积累了宝贵的技术经验与人脉资源。

这条路很清楚：一旦你突破了第一道门槛，后面就会顺一点——

前提是你一直踩着油门往前冲。

研究生生涯后期，他在心理健康资源页面上专门列了份「研究现实清单」，记录所有不如意的事情。

最后，他以零篇NeurIPS/ICML/ICLR论文完成了AI博士。

他不是从小泡在实验室的「圈内人」，而是靠韧性和创造力硬闯出来的。

这条路，正好也反映了他的AI界朋友圈：一群「AI界的流浪玩具」。

这些「边缘人社群」各有短长，最后大家都找到自己的落点。

突破圈层的关键，不是资源而是契机+准备。

积累势能，打响名声

尽管前面经历了不少波折，Nathan Lambert心里一直有一个明确的目标——

拿下一份工业界研究岗，这对他来说才算真正「在AI领域站稳了」。

最终他加入HuggingFace，那是唯一一份符合他要求的工作。

当时是HuggingFace的研究负责人Douwe Kiela，把他招进去，领导人类反馈强化学习（RLHF）团队。

让人没想到的是，这类岗位会在他毕业一年后几乎「消失殆尽」。

加入HuggingFace，对Nathan Lambert来说也算幸运，避开了一些听起来更诱人、但后来大裁员或转型的公司。

在HuggingFace，他收获了许多。

其中最宝贵一课，是如何积累势能（momentum）和心智占有率（mind-share）。

这两个概念紧密关联却存在微妙差异——

• 个体持续积累动能换取行业影响力；

• 作为组织，HuggingFace虽坐拥心智占有率，近期却面临动能不足。

动能可转化为心智占有率，而后者一旦建立，仅需维持引力便能持续发挥影响。

2022年5月加入HuggingFace后，在ChatGPT问世前的七个月里，他认为并未做出显赫成果。

但坚守HuggingFace的文化，坚持日拱一卒：

每日必须推进技术进展——或是重大功能，或是代码优化。

但日积月累，锻炼了好习惯。

博士生导师曾对他说过：「每天专注4小时，你也能改变世界。」

关键是要把「砖」一块块往上堆——

大多数人放弃得太早了。

在ChatGPT之前的那段时间，他在HuggingFace项目之间辗转，基本是哪里有事、哪里需要人手就去哪儿。

他们尝试了用于强化学习的合成环境项目Simulate，但其实他们人手根本不足。

目前，该项目已不再积极维护和开发。

在Diffusers库，他做了一些边缘性的贡献，还做了不少关于负责任AI的研究。

Diffusers提供最先进的预训练扩散模型，支持图像、音频甚至分子3D结构生成

尽管这些工作在都还不错，但坦白说，没有哪个项目足以「构建职业基础」。

那段时间最有价值的，其实是：

练出了稳定的工作习惯；

真正理解了开源AI社区是怎么运作的。

这些为之后遇到契合项目时，他能快速接住、真正发力打下了基础。

RLHF技术博客「出圈」

他真正「出圈」的起点，是为HuggingFace写的第一篇重量级博客——关于RLHF（基于人类反馈的强化学习）。

其实那时他没实现过RLHF算法，也没完整读过论文，只是为了搞懂新概念就动笔了。

这和他现在很多写作动机一样：写作是最好的学习方式。

虽然他一直把自己当「强化学习传人」，但也没想太多，写完就发了。

结果它成了RLHF关键词下的长期搜索热文（虽然现在内容已经有点旧了）。

回头看，那是他第一次意识到自己的特长：

把显而易见但没人做的事，及时简单地做好。

这是他后来变得非常重要的能力。

很多人会高估别人的执行力，低估简单方案的价值，然后被自己复杂的想法拖住（沉没成本效应）。

但其实，即使是「显而易见」的事，也很少有人认真去做。

比如在做RewardBench的时候，他整整三个月每天都担心被别人「抢先发布」。

论文链接：https://arxiv.org/abs/2403.13787

结果发了后，又过了三个月才有人发竞品。

所以，RewardBench是RLHF奖励模型的第一个评估工具。

势能来自每天一块砖，而不是坐等奇迹。当别人还在等待大项目，他已经靠「基础活」攒下了存在感和专业度。

突破点：公开科研沟通>技术产出

在HuggingFace从事RLHF期间，他为开源社区做了很多基础性工作：

把TRL库现代化；

探索人类数据合同；

复刻数据集；

做了第一个LLM排行榜；

还训练了一些有趣的小模型。

这很充实、也很有趣。

但后来，时差、文化差异等问题接踵而至。

他慢慢觉得不再快乐了。

HuggingFace如果当时能扩张团队，并配上合适的技术领导，可能能将影响力扩大好几倍。

但这也伴随着风险。训练AI模型是个异常细致的过程，任务繁琐、对小细节的执行有极高要求。

团队只要稍微长大一点，可能就能带来「疯狂级别」的增益。

不管如何，与此同时，他找到了属于自己的定位：做开放科研的沟通者。

这个策略其实很简单：

在AI实验室趋于封闭、外界关注度飙升的当下，只要持续做与AI相关的事，在公众眼里的成长就会指数级上升。

他另辟蹊径，选择了竞争没那么激烈的方向。

这让他更容易脱颖而出。

尽管注意力总量虽然在增长，但真正被关注的人反而在减少——

所以只要成为其中之一，收获会非常可观。

如果他当初去了那些「前沿AI实验室}，可能早就被埋没在其中，职业成长空间也被压缩了。

而那时候，他开始坚持每周写作，就是这一战略最有力的验证。

而一旦有了清晰的个人品牌，故事就自然会往你这儿聚拢。

比如HuggingFace最具影响力的模型之一——Zephyr Beta，就是基于他帮助搭建的基础设施完成的。

之后，他加入了Allen人工智能研究所（Allen Institute forAI，简称AI2）。

在他刚加入时，Ai2正好在训练Tülu 2 70B。

美国艺术与科学院与美国国家工程院（NAE）双院士、斯坦福大学教授、NLP大牛Chris Manning，如获至宝，甚至说Nathan Lambert的这两项工作「救活了DPO」。

尽管在技术上，Nathan Lambert表示这些项目与DPO没有直接关系。

现在，Chris Manning首次提出直接偏好优化DPO的论文，被引用了3000多次。

论文链接：https://arxiv.org/abs/2305.18290

这不是谦虚，而是想说明：

科研不是单一角色的战场，推动科学进展的，是一个个看似不起眼、但密不可分的角色组合。

渐至佳境

在AI2的这段时间，是他职业生涯中最容易被看清楚的一段。

他希望AI能真正朝好的方向发展，而且坚信更开放的生态是实现这一目标的最好方式。

这份工作对他来说，几乎是最理想的状态：

他的公开写作对AI2有明确价值，而他也能持续锻炼表达力、扩大影响力。这样的工作极其稀有，大多数公司并不会真的帮你个人成长。

刚加入AI2时，他也经历了一段适应期。

通过RewardBench这类重要的学术项目，他表示自己建立了信心：

我能独立提出点子，并带头推进高影响力的研究项目。

角色转变

许多时候，参与太多合作会让人忽略一个问题：你是否能一个人把事做成？

（即使慢一点、质量没那么高、过程没那么好玩——重点不在贬低团队，而是看清自己的能力边界。）

现在，他已转变了工作方式，已经完全可以「因人随事」而定。

周围的同事，年轻、优秀、富有驱动力。

他们更熟悉细节，也更擅长把新点子实现出来。

所以他更多的贡献是：

指引方向；

提前清除潜在障碍；

创造顺畅推进的环境。

他不再是那个亲自下场刷代码的人，而是负责让项目走得更远、更稳的人。

这是一种完全不同的角色定位。

他形成了一个非常明确的观点：

短期研究要产生影响，最有效方式就是把它接入模型训练流程；

长期研究，就得真正做「长期」准备。

偶尔，他也会做些学术指导，但非常保护自己的时间。

基本不做线上社交（线下少量），大多数合作都会婉拒。

因为在这个阶段，高质量的输出才是短期目标，而「被关注」是一个复杂得多的长期变量。

技术最终服务于人，好的科研不是一个人的冲刺，而是一群人的合力。

当你愿意从舞台中心走下来，才能搭起更大的舞台。

职场中的「飞轮效应」

他表示他越来越喜欢用「飞轮」（flywheel）这个比喻来看待项目、职业、乃至整个机构的发展。

就像创业公司在找到产品市场匹配（PMF）前，要不断试错迭代，职业生涯也需要不断点火：

一开始就是不停「试水」、发布、调整；

早期的「爆款」通常都不会真的火，只是逐步积累影响力；

真正让飞轮转起来的，是多次的积累之后，势能终于爆发。

但一旦飞轮动起来，「发布频率」反而可能成为负担：

在AI领域，太频繁发模型，会让我们来不及掌握、完善下一个模型；

观众多了，维护公共输出的成本也飙升。

早期在HuggingFace和刚进AI2时，他一直推崇「多发模型」，但久而久之，这变成了团队的负担。

所以他现在转向更「少而精」的策略。当飞轮已经转起来时，更少、更大的动作会更有价值。

飞轮一旦足够大，有时候什么都不做反而更有效：

项目自然流入；

推荐自然发生；

你会被当成「AI开放科学的头部人物」之一，而不必不断自我证明。

真正的成长不是「更努力」，而是「更聪明地努力」。

当飞轮启动，维持节奏比盲目奔跑更重要。

现在，他花很多时间思考：

如何更有策略地使用积累的影响力？

他不想总是站在最前线亲自带队，而是希望通过营造环境、鼓励他人，让更多重要项目得以发生。

这是一套全新的能力，他还在学习。

而这，正是他始终心系的愿景：AI的未来不属于孤勇者，而是属于一群协力前行、彼此赋能的人。

参考资料：

https://www.interconnects.ai/p/my-path-into-ai

https://www.linkedin.com/in/natolambert/

相关文章