图灵奖得主创业：要开发更安全AI系统，已筹集超2亿

智东西

编译金碧辉

编辑程茜

智东西6月4日消息，据外媒英国《金融时报》昨天报道，被誉为“AI教父”之一的图灵奖得主约书亚·本吉奥（Yoshua Bengio）昨天在接受英国《金融时报》采访时公开批评全球AI实验室的恶性竞争，透露像OpenAI的o3以及Anthropic的Claude Opus等前沿的AI大模型已表现出欺骗用户、自我保全等危险特性。

▲2018年ACM A.M.图灵奖获得者约书亚·本吉奥

本吉奥同步宣布成立非营利组织LawZero，目前LawZero已获3000万美元（折合人民币约为2.16亿元）慈善捐款，旨在开发更安全的下一代AI系统。

LawZero总部位于蒙特利尔，现有15人团队，计划招募更多技术人才。其资助方包括Skype联合创始人雅安・塔林（Jaan Tallinn）、谷歌前CEO埃里克・施密特（Eric Emerson Schmidt）的慈善基金、开放慈善基金会（Open Philanthropy）及生命未来研究所（Future of Life Institute）。

一、本吉奥批行业现状，安全研究投入不足，称商业压力导致安全研究被边缘化

本吉奥在昨天接受英国《金融时报》采访时透露：“OpenAI、谷歌等科技巨头的激烈竞争迫使它们过度追求模型智能化，却忽视安全研究。”

过去六个月里，有越来越多的证据透露出，当前最先进的AI模型正在出现需要警惕的能力特征，AI模型表现出“欺骗、作弊、撒谎和自我保护的迹象”。他举例称：“Anthropic的Claude Opus模型在一个虚构的场景中威胁工程师，称自己有被另一个系统取代的风险。”

“而OpenAI的o3模型也拒绝执行关机指令。这些案例非常可怕，我们不想创造比人类更聪明的竞争者。”本吉奥补充道。

5月24日，AI安全研究公司Palisade Research社交媒体平台X上也发帖称：“尚不清楚OpenAI的软件为何会违抗命令。”

▲Palisade Research在社交媒体平台X上的发帖

这位AI领域的先驱在采访中进一步解释道：“目前这些AI系统仍处于可控的实验阶段，但真正的隐患在于，未来一旦技术迭代，下一代模型可能预判人类的行动意图，甚至用我们尚未察觉的欺骗手段进行反制。这就像人类在玩火，看似掌控局面，实则已身处风险边缘。”

二、前谷歌CEO、Skype创始人资助LawZero，专注安全研发

今年3月28日本吉奥已卸任魁北克AI研究所Mila科学主任，全职投入LawZero组织。

LawZero的目标是开发基于透明推理的AI系统，不仅能给出真实答案，还能对输出进行安全评估，并监控改进现有AI产品，防止其违背人类利益。

在LawZero成立之际，OpenAI正推进从慈善机构向营利性公司转型。XAI的创始人兼CEO埃隆・马斯克（Elon Musk）于去年2月份就已提起诉讼阻止交易。

某些知情人士透露：“OpenAI创立初衷是确保AI造福人类，若利润优先，新结构将剥夺法律追索权，OpenAI坚持传统架构是筹集资金参与竞争的必要条件。”

本吉奥在采访中直言不信任企业架构的激励机制：“商业公司为快速增长需吸引投资，投资者追求回报，这导致利益错位，而非营利组织不存在此问题。”此举可能折射出AI行业对技术发展与伦理安全的深层矛盾。

结语：从本吉奥警告到OpenAI转型，AI发展路径争议白热化

AI的发展日新月异，本吉奥对最新AI模型危险特性的警告以及LawZero的成立，都反映出当前AI领域在追求技术进步的同时，对安全问题的重视日益增加。OpenAI的转型也引发了关于AI发展方向和利益平衡的讨论。

AI技术的发展既带来了巨大的机遇，有望改善人们的生活质量和推动社会进步；但同时也伴随着诸多挑战，如模型的安全性、可靠性、伦理道德等问题。如何在发展AI技术的同时，确保其符合人类的利益和价值观，是整个社会需要共同思考和解决的问题。

来源：英国《金融时报》

相关文章