
新智元报道
编辑:KingHZ
【新智元导读】他不是天才,博士毕业0顶会论文,却靠着坚持写技术博客,因RLHF「网红」博客文章一炮而红,逆袭成功、跻身AI核心圈!技术可以迟到,但影响力不能缺席。这一次,是写作改变命运。
Ai2的高级研究科学家Nathan Lambert,最近分享了他如何走上AI之路。
尽管起步艰难、几经波折,他依旧在AI领域站稳脚跟、有所成就。

博士毕业时,他没有在NeurIPS/ICML/ICLR等顶会上发表过文章。
如今,他的谷歌引用数已有5千多,h指数为32。

深度RL:转行契机
2017年秋天,他开始在加州大学伯克利分校电气工程与计算机科学系读博。
他的学术背景是MEMS(微机电系统)、高能物理/激光。
此外,他还在特斯拉做过电池工程实习。

但听完迎新会、看教授介绍,他立刻就被AI吸引了。
像Sergey Levine(下图左)和Pieter Abbeel(下图右)这类教授,当时炙手可热,风头正劲。

那正是深度强化学习的高光时刻,相当于今天RL热潮的「前浪」。
他曾主动联系Levine和Abbeel,希望加入他们的研究组,但都被婉拒。
虽然未能如愿,但他并未气馁,反而坚持不懈,一直在主动争取机会。
之后一整年,他几乎没什么真正接触AI研究的机会。
上课、读论文,基本是独自暗中摸索。
他没采纳那种「研究生上课不重要」的建议,反而学到了不少扎实的基础知识。
但他没能真正融入伯克利AI实验室,也没有AI方向的朋友,身边全是EECS电气工程那边的同学。

世界顶尖学术AI研究实验室
事后回顾,Nathan Lambert认为入学前,他已有一些些基本特质:
很会专注,能独自钻研技术难题。
相信只要肯努力多年,多数人都能做成很难的事。不是不够努力,是没坚持够久。
对读不读完博士,无所谓。大不了拿个名校硕士。
有很多冲劲,但没方向。
基础不是障碍,反而是势能的起点。
最难的是第一步,而愿意埋头学基础的人,最终会在别人止步之处继续前进。

第一篇论文
转机在他挖出了导师Kris Pister的一封旧邮件。

导师帮他牵线认识了当时的Sergey Levine组的博士后Roberto Calandra。

Roberto Calandra现任德累斯顿工业大学正教授(W3教授级别),并领导该校「学习、自适应系统与机器人」实验室(LASR)
这才算搭上AI的边:
邮件摘录:
Roberto对将机器学习应用于飘升机(ionocraft)感兴趣。
我们可以尝试:
优化腿部几何形状的学习算法;
为机器人生成「复杂地形」进行测试;
用仿真优化新设计,再用硅材料制造出来测试;
用惯性传感器数据优化步态、避障,甚至控制真实飞行器。
这次合作从2018年春天开始。
秋天错过了一次会议投稿,而且很多实验都失败了。
到了2019年冬天,论文成为他的「头等大事」,虽然最后论文完成了,但成文有点粗糙、略显拼凑。

论文链接:https://arxiv.org/abs/1901.03737
每次和Roberto开会,他都「压力山大」,生怕漏掉AI博士生「习以为常」的东西。
当时,他做了扎实的工作。
尽管当时总觉得自己格格不入,但那份全身心投入的执着对真正的研究弥足珍贵。
如今AI研究如此热门,太多人只求在简历上勾选这段经历,而非深究细节——
而那时的他,却低估了自己的价值。
转机往往藏在别人不经意的一句引荐里。
不是每次实验都要成功,但每次投入都能积蓄下一次的突破。
从FAIR实习起步
真正的转机出现在2019年,Roberto问他要不要跟他去FAIR(Facebook人工智能研究院)实习。
正是这个实习把他从「AI圈外人」带到了「AI圈内人」的轨道上。
FAIR的经历让他真正学会了如何做实验、写代码。
之后,他坚持做研究,同时不断教学来维持学业。
他写了很多申请,但直到毕业才拿到一些拨款,也算是前人栽树,后人乘凉。
FAIR实习+大量面试,帮他拿到第二个机会——DeepMind的实习。
尽管实习体验不尽如人意,但他由此积累了宝贵的技术经验与人脉资源。

这条路很清楚:一旦你突破了第一道门槛,后面就会顺一点——
前提是你一直踩着油门往前冲。
研究生生涯后期,他在心理健康资源页面上专门列了份「研究现实清单」,记录所有不如意的事情。

最后,他以零篇NeurIPS/ICML/ICLR论文完成了AI博士。
他不是从小泡在实验室的「圈内人」,而是靠韧性和创造力硬闯出来的。
这条路,正好也反映了他的AI界朋友圈:一群「AI界的流浪玩具」。
这些「边缘人社群」各有短长,最后大家都找到自己的落点。
突破圈层的关键,不是资源而是契机+准备。
积累势能,打响名声
尽管前面经历了不少波折,Nathan Lambert心里一直有一个明确的目标——
拿下一份工业界研究岗,这对他来说才算真正「在AI领域站稳了」。
最终他加入HuggingFace,那是唯一一份符合他要求的工作。

当时是HuggingFace的研究负责人Douwe Kiela,把他招进去,领导人类反馈强化学习(RLHF)团队。

让人没想到的是,这类岗位会在他毕业一年后几乎「消失殆尽」。
加入HuggingFace,对Nathan Lambert来说也算幸运,避开了一些听起来更诱人、但后来大裁员或转型的公司。
在HuggingFace,他收获了许多。
其中最宝贵一课,是如何积累势能(momentum)和心智占有率(mind-share)。
这两个概念紧密关联却存在微妙差异——
• 个体持续积累动能换取行业影响力;
• 作为组织,HuggingFace虽坐拥心智占有率,近期却面临动能不足。
动能可转化为心智占有率,而后者一旦建立,仅需维持引力便能持续发挥影响。
2022年5月加入HuggingFace后,在ChatGPT问世前的七个月里,他认为并未做出显赫成果。
但坚守HuggingFace的文化,坚持日拱一卒:
每日必须推进技术进展——或是重大功能,或是代码优化。
但日积月累,锻炼了好习惯。
博士生导师曾对他说过:「每天专注4小时,你也能改变世界。」
关键是要把「砖」一块块往上堆——
大多数人放弃得太早了。
在ChatGPT之前的那段时间,他在HuggingFace项目之间辗转,基本是哪里有事、哪里需要人手就去哪儿。
他们尝试了用于强化学习的合成环境项目Simulate,但其实他们人手根本不足。

目前,该项目已不再积极维护和开发。
在Diffusers库,他做了一些边缘性的贡献,还做了不少关于负责任AI的研究。

Diffusers提供最先进的预训练扩散模型,支持图像、音频甚至分子3D结构生成
尽管这些工作在都还不错,但坦白说,没有哪个项目足以「构建职业基础」。
那段时间最有价值的,其实是:
练出了稳定的工作习惯;
真正理解了开源AI社区是怎么运作的。
这些为之后遇到契合项目时,他能快速接住、真正发力打下了基础。
RLHF技术博客「出圈」
他真正「出圈」的起点,是为HuggingFace写的第一篇重量级博客——关于RLHF(基于人类反馈的强化学习)。

其实那时他没实现过RLHF算法,也没完整读过论文,只是为了搞懂新概念就动笔了。
这和他现在很多写作动机一样:写作是最好的学习方式。
虽然他一直把自己当「强化学习传人」,但也没想太多,写完就发了。
结果它成了RLHF关键词下的长期搜索热文(虽然现在内容已经有点旧了)。
回头看,那是他第一次意识到自己的特长:
把显而易见但没人做的事,及时简单地做好。
这是他后来变得非常重要的能力。
很多人会高估别人的执行力,低估简单方案的价值,然后被自己复杂的想法拖住(沉没成本效应)。
但其实,即使是「显而易见」的事,也很少有人认真去做。
比如在做RewardBench的时候,他整整三个月每天都担心被别人「抢先发布」。

论文链接:https://arxiv.org/abs/2403.13787
结果发了后,又过了三个月才有人发竞品。
所以,RewardBench是RLHF奖励模型的第一个评估工具。
势能来自每天一块砖,而不是坐等奇迹。当别人还在等待大项目,他已经靠「基础活」攒下了存在感和专业度。
突破点:公开科研沟通>技术产出
在HuggingFace从事RLHF期间,他为开源社区做了很多基础性工作:
把TRL库现代化;
探索人类数据合同;
复刻数据集;
做了第一个LLM排行榜;
还训练了一些有趣的小模型。




这很充实、也很有趣。
但后来,时差、文化差异等问题接踵而至。
他慢慢觉得不再快乐了。
HuggingFace如果当时能扩张团队,并配上合适的技术领导,可能能将影响力扩大好几倍。
但这也伴随着风险。训练AI模型是个异常细致的过程,任务繁琐、对小细节的执行有极高要求。
团队只要稍微长大一点,可能就能带来「疯狂级别」的增益。
不管如何,与此同时,他找到了属于自己的定位:做开放科研的沟通者。
这个策略其实很简单:
在AI实验室趋于封闭、外界关注度飙升的当下,只要持续做与AI相关的事,在公众眼里的成长就会指数级上升。
他另辟蹊径,选择了竞争没那么激烈的方向。
这让他更容易脱颖而出。
尽管注意力总量虽然在增长,但真正被关注的人反而在减少——
所以只要成为其中之一,收获会非常可观。
如果他当初去了那些「前沿AI实验室},可能早就被埋没在其中,职业成长空间也被压缩了。
而那时候,他开始坚持每周写作,就是这一战略最有力的验证。
而一旦有了清晰的个人品牌,故事就自然会往你这儿聚拢。
比如HuggingFace最具影响力的模型之一——Zephyr Beta,就是基于他帮助搭建的基础设施完成的。
之后,他加入了Allen人工智能研究所(Allen Institute forAI,简称AI2)。

在他刚加入时,Ai2正好在训练Tülu 2 70B。

美国艺术与科学院与美国国家工程院(NAE)双院士、斯坦福大学教授、NLP大牛Chris Manning,如获至宝,甚至说Nathan Lambert的这两项工作「救活了DPO」。

尽管在技术上,Nathan Lambert表示这些项目与DPO没有直接关系。
现在,Chris Manning首次提出直接偏好优化DPO的论文,被引用了3000多次。

论文链接:https://arxiv.org/abs/2305.18290
这不是谦虚,而是想说明:
科研不是单一角色的战场,推动科学进展的,是一个个看似不起眼、但密不可分的角色组合。
渐至佳境
在AI2的这段时间,是他职业生涯中最容易被看清楚的一段。
他希望AI能真正朝好的方向发展,而且坚信更开放的生态是实现这一目标的最好方式。
这份工作对他来说,几乎是最理想的状态:
他的公开写作对AI2有明确价值,而他也能持续锻炼表达力、扩大影响力。 这样的工作极其稀有,大多数公司并不会真的帮你个人成长。
刚加入AI2时,他也经历了一段适应期。
通过RewardBench这类重要的学术项目,他表示自己建立了信心:
我能独立提出点子,并带头推进高影响力的研究项目。
角色转变
许多时候,参与太多合作会让人忽略一个问题:你是否能一个人把事做成?
(即使慢一点、质量没那么高、过程没那么好玩——重点不在贬低团队,而是看清自己的能力边界。)
现在,他已转变了工作方式,已经完全可以「因人随事」而定。
周围的同事,年轻、优秀、富有驱动力。
他们更熟悉细节,也更擅长把新点子实现出来。
所以他更多的贡献是:
指引方向;
提前清除潜在障碍;
创造顺畅推进的环境。
他不再是那个亲自下场刷代码的人,而是负责让项目走得更远、更稳的人。
这是一种完全不同的角色定位。
他形成了一个非常明确的观点:
短期研究要产生影响,最有效方式就是把它接入模型训练流程;
长期研究,就得真正做「长期」准备。
偶尔,他也会做些学术指导,但非常保护自己的时间。
基本不做线上社交(线下少量),大多数合作都会婉拒。
因为在这个阶段,高质量的输出才是短期目标,而「被关注」是一个复杂得多的长期变量。
技术最终服务于人,好的科研不是一个人的冲刺,而是一群人的合力。
当你愿意从舞台中心走下来,才能搭起更大的舞台。
职场中的「飞轮效应」
他表示他越来越喜欢用「飞轮」(flywheel)这个比喻来看待项目、职业、乃至整个机构的发展。
就像创业公司在找到产品市场匹配(PMF)前,要不断试错迭代,职业生涯也需要不断点火:
一开始就是不停「试水」、发布、调整;
早期的「爆款」通常都不会真的火,只是逐步积累影响力;
真正让飞轮转起来的,是多次的积累之后,势能终于爆发。
但一旦飞轮动起来,「发布频率」反而可能成为负担:
在AI领域,太频繁发模型,会让我们来不及掌握、完善下一个模型;
观众多了,维护公共输出的成本也飙升。
早期在HuggingFace和刚进AI2时,他一直推崇「多发模型」,但久而久之,这变成了团队的负担。
所以他现在转向更「少而精」的策略。当飞轮已经转起来时,更少、更大的动作会更有价值。
飞轮一旦足够大,有时候什么都不做反而更有效:
项目自然流入;
推荐自然发生;
你会被当成「AI开放科学的头部人物」之一,而不必不断自我证明。
真正的成长不是「更努力」,而是「更聪明地努力」。
当飞轮启动,维持节奏比盲目奔跑更重要。
现在,他花很多时间思考:
如何更有策略地使用积累的影响力?
他不想总是站在最前线亲自带队,而是希望通过营造环境、鼓励他人,让更多重要项目得以发生。
这是一套全新的能力,他还在学习。
而这,正是他始终心系的愿景:AI的未来不属于孤勇者,而是属于一群协力前行、彼此赋能的人。
参考资料:
https://www.interconnects.ai/p/my-path-into-ai
https://www.linkedin.com/in/natolambert/
