文:Web3天空之城| 未经许可不得转载
【城主说】著名AI科学家李飞飞这一次在YC创业学院峰会的最新访谈深入探讨了她的职业生涯与前瞻思考。她分享了创办ImageNet,这一引爆深度学习革命的关键项目的幕后故事,并阐述了计算机视觉从物体识别到场景叙事,再到她当前所专注的“空间智能”的演进路径。李飞飞认为,理解和交互于三维世界是实现通用人工智能不可或缺的一环,并为此创立了World Labs。访谈还触及了她的个人经历,从移民少年到创办洗衣店,再到成为顶尖学者和企业家的历程,强调了“智识上的无畏”是推动创新和个人成长的核心动力。
核心观点
• ImageNet的诞生 :ImageNet的创建是一个由数据驱动的范式转变,它通过提供大规模、高质量的标记数据集,为深度学习和神经网络的成功奠定了基础。
• 空间智能是AI的下一个前沿 :相较于一维的语言,理解、交互和生成三维世界(即空间智能)是AI领域一个更根本、更困难的挑战,也是通往通用人工智能(AGI)的必经之路。
• 智识上的无畏 :无论是学术研究还是创立公司,成功的核心特质是敢于拥抱极其困难、近乎“妄想”的问题,并全身心投入去解决。
• 创业精神的本质 :创业是一种归零心态,忘记过去的成就和外界的看法,专注于埋头建设,这种精神贯穿了她从经营洗衣店到创办以人为本人工智能研究院及World Labs的全过程。
一:ImageNet的诞生与深度学习的黎明
李飞飞: 我整个职业生涯都在追逐那些极其困难,近乎妄想的问题。对我来说,没有空间智能的AGI是不完整的。我想解决这个问题。我就是喜欢当企业家。忘记你过去所做的一切。忘记别人对你的看法。埋头苦干,努力建设。那是我的舒适区。
主持人: 所以,我非常兴奋能邀请到李飞飞博士。她在人工智能领域有着非常长的职业生涯。
我相信你们很多人都认识她,对吧?请举手。我也认识。她被称为人工智能教母。飞飞你创建的第一个项目之一是2009年的ImageNet,16年前。
李飞飞: 天啊。别提醒我。
它有超过80000次的引用,并且真正启动了人工智能的一个支柱,也就是数据问题。请告诉我们这个项目是如何产生的。当时那是相当具有开创性的工作。
李飞飞: 是的,首先,Diana和Garry以及各位,感谢邀请我来这里。我很高兴能来到这里,因为我觉得我就像是你们中的一员。
我现在也是一名企业家。我刚成立了一家小公司,所以非常高兴能来到这里。ImageNet是...是的,您说得对。实际上,我们在大约18年前就构思了它。时间过得真快。当时我是普林斯顿大学的助理教授一年级。
而且当时人工智能和机器学习的世界是如此不同。数据非常少。算法,至少在计算机视觉领域,不起作用。没有产业。就公众而言,“人工智能”这个词并不存在。但我们仍然有一群人,从人工智能的奠基人开始,对吧?约翰·麦卡锡,然后我们经历了像杰弗里·辛顿这样的人。我想我们只是有一个人工智能的梦想。我们真的、真的很想制造能思考和工作的机器。
有了那个梦想,我...我个人的梦想是让机器能够看见,因为看见是智慧的基石。视觉智能不仅仅是感知。它实际上是理解世界并在世界中做事情。所以我痴迷于让机器看见的问题。当我痴迷地开发机器学习算法时,当时,我们确实尝试了神经网络,但它没有奏效。我们转向贝叶斯网络、支持向量机,或者其他什么。但有一个问题总是困扰着我,那就是泛化问题。如果你在从事机器学习工作,你必须认识到泛化是机器学习的核心数学基础或目标。为了泛化这些算法,这些数据,然而当时在计算机视觉领域没有人拥有数据。我是第一代开始涉足数据的研究生,因为我是第一代看到互联网,即物联网大时代的的研究生。
那么快进到大约2007年左右,我的学生和我决定我们必须做一个大胆的赌注。我们必须赌机器学习需要一个范式转变,而且这个范式转变必须由数据驱动的方法来领导。而且当时没有数据。所以我们想,好吧,让我们去互联网,下载十亿张图片,这是我们在互联网上能找到的最大数量,然后创建全世界的,整个世界的视觉分类法。我们用它来训练和评估机器学习算法。这就是ImageNet被构思并实现的原因。
并且过了一段时间才出现有前景的算法。直到2012年AlexNet出现,那才是通往人工智能方程的第二部分,即获得计算能力并投入足够的算力和算法。告诉我们你开始看到,你用数据播种,然后人们开始,社区开始为人工智能找出更多东西的那个时刻是什么。
主持人: 好的。
李飞飞: 所以在2009年期间,我们发表了这个非常小的CVPR海报。在2009年到2012年间,AlexNet出现后,有三年时间我们真的相信数据会驱动人工智能,但我们在这方面收到的信号非常少,不知道是否有效。所以我们做了几件事。一是我们开源了。我们从一开始就坚信,必须向整个研究社区开源,让每个人都参与进来。我们做的另一件事是创建了一个挑战赛,因为我们希望全世界最聪明的学生和研究人员都能参与解决这个问题。这就是我们所说的ImageNet挑战赛。所以每年我们都会发布一个测试数据集。完整的ImageNet数据集用于训练,但我们发布测试集,然后我们公开邀请所有人参与。
前几年实际上是在设定基准。 性能的错误率是30%。
主持人: 它不是零。
李飞飞: 我的意思是,它不是完全随机的,但也没那么好。 但在第三年,2012年,我把它写在了我出版的一本书里,但我仍然记得那大概是夏末的时候,我们正在获取ImageNet挑战赛的所有结果,并在我们的服务器上运行它。我记得那是深夜。有一天,我收到了我研究生的消息。我当时在家,他说,我们得到一个非常非常突出的结果,你应该看看。我们研究了它。它是卷积神经网络。当时它还不叫AlexNet。那个团队,杰夫·辛顿的团队,被称为SuperVision。这是对“super”这个词以及监督学习非常巧妙的运用。所以,SuperVision。我们来看看SuperVision做了什么。这是一个旧的算法。卷积神经网络发表于20世纪80年代。算法方面有一些调整,但让我们惊讶的是,一开始就看到了如此巨大的变化。
当然,我们,你知道,我们,我的意思是,剩下的历史,你们都知道,我们在那年的ICCV(国际计算机视觉大会)佛罗伦萨,意大利的ImageNet挑战赛研讨会上展示了这个。亚历克斯·克里热夫斯基来了,很多人都来了。我记得扬·勒丘恩也来了。现在,世界将这一时刻称为ImageNet挑战赛,Alex,就是那个时刻。我想说这不仅仅是卷积神经网络。这也是Alex和他的团队首次将两个GPU组合在一起,用于深度学习的计算。所以这确实是数据、GPU和神经网络结合在一起的最初时刻。现在,沿着计算机视觉智能发展的趋势,ImageNet确实是解决物体识别概念的种子。
二:从物体识别到场景叙事
主持人: 紧接着,人工智能也开始发展到可以解决场景问题的地步,对吧?因为你和你的学生,比如Andrej Karpathy,做了很多工作,能够描述场景。请告诉我们从物体到场景的转变。
李飞飞: 是的,ImageNet解决的问题是,你面前呈现一张图片,然后你识别出物体。有一只猫,有一把椅子,诸如此类。那是视觉识别中的一个根本问题。但自从我作为研究生进入人工智能领域以来,我就有一个梦想。我认为那是一个100年的梦想,也就是对世界进行故事叙述。当人类睁开眼睛时,想象一下你只是在这个房间里睁开了眼睛。你不仅仅是看到人、人、人、椅子、椅子、椅子。你实际上看到的是一个有屏幕、有舞台、有人员、有观众、有摄像头的会议室。你实际上可以描述整个场景。这是人类的一种能力,是视觉智能的基础。就我们日常生活而言,这对我们来说至关重要。
所以,我真的认为这个问题会耗费我一生的时间。我研究生毕业的时候,我对自己说,如果我能创造出一个能够讲述场景故事的算法,我就成功了。我当时就是这样规划我的职业生涯的。想象一下,Alex,那一刻到来了,深度学习起飞了。然后当 Andre,以及后来的 Justin Johnson 进入我的实验室时,我们开始看到自然语言和视觉开始碰撞的信号。然后 Andre 和我提出了图像描述或故事讲述的问题。长话短说,大约在 2015 年左右,Andre 和我发表了一系列论文,这些论文是最早的一批,与一些同期论文一起,真正制造出了一台可以描述图像的计算机。我当时几乎觉得,我这辈子该干什么呢?那是我毕生的目标。对我们俩来说,那都是一个令人难以置信的时刻。
去年,我做了一个 TED 演讲,我实际上引用了 Andre 几年前发的一条推文。在他完成图像描述工作的时候,那几乎就是他的毕业论文,我当时还和他开玩笑。我说,嘿,安德烈,我们为什么不做个反向的?拿一句话来生成一张图片。当然他知道我在开玩笑,他说,哈哈,我走了。那时世界还没有准备好。但现在快进,现在我们都知道生成式人工智能了。现在我们可以拿一句话来生成漂亮的图片。所以这个故事的寓意是,人工智能已经经历了令人难以置信的增长。就我个人而言,我觉得我是世界上最幸运的人,因为我的整个职业生涯始于人工智能寒冬结束的开端,人工智能开始腾飞的开端。我的很多工作,我自己的职业生涯,都是这个变化的一部分,或者说对这个变化有所帮助。所以我感到非常幸运,并且在某种程度上感到自豪。
三:下一个前沿:空间智能与World Labs
主持人: 而且我认为最不可思议的是,即使实现了毕生梦想,即描述一个场景,甚至用扩散模型生成它们,你实际上是在做更大的梦,因为计算机视觉的整个发展历程是从物体到场景,再到现在这个世界的概念。而你实际上决定从学术界,成为一名教授,转变为现在的World Labs的创始人和首席执行官。告诉我们World是什么。它甚至比场景和物体更难。
李飞飞: 是的,的确如此。这有点疯狂。所以,当然,你们都知道过去的事情。真的很难总结过去五六年发生的事情。对我来说,我们正生活于这项技术进步的文明时刻,对吧?作为一名计算机视觉科学家,我们看到计算机视觉正在经历令人难以置信的增长,从图像数据到图像描述,再到使用一些扩散技术的图像生成。虽然这正在以一种非常令人兴奋的方式发生,但我们还有另一个极其令人兴奋的线索,那就是语言,也就是LLM,真正说来是2022年11月,ChadGBT炸开了真正有效的生成模型的大门,这些模型基本上可以通过图灵测试等等。因此,这变得非常鼓舞人心,即使对于像我这样年纪的人来说,也能真正大胆地思考下一步会发生什么。
我有一个习惯,作为一名计算机视觉科学家,我的很多灵感实际上来自进化以及脑科学。在我的职业生涯中,我发现自己有很多时候都在寻找下一个要解决的北极星问题。我问自己,什么是……进化所做的?或者大脑发育所做的?有一些事情非常重要,需要注意或欣赏。人类语言在进化中的发展大约花了,如果你非常慷慨,我们假设大约花了3亿到5亿年。不到一百万年。那是……那是人类语言进化所花费的时间长度。而且几乎人类是唯一拥有复杂语言的动物。我们可以争论动物语言,但实际上,就其作为沟通、推理、抽象的工具而言,完整的语言真正属于人类。所以,这甚至花费不到50万年。
但是想想视觉。想想理解3D世界的能力。弄清楚在这个3D世界里该做什么。导航3D世界。与3D世界互动。理解3D世界。沟通三维世界。这个旅程进化了5.4亿年。第一只三叶虫在水下5.4亿年前进化出了视觉。从那时起,视觉确实是引发这场进化军备竞赛的原因。在视觉出现之前,动物很简单。因为,你知道,在视觉出现之前的5亿年里,只有简单的动物。但在接下来的5亿年,5.4亿年里,由于看到世界、理解世界的能力,进化军备竞赛开始了。动物的智力开始相互竞争。
所以,对我来说,解决空间智能问题,理解三维世界,生成三维世界,推理三维世界,在三维世界中做事,是人工智能的一个根本问题。对我来说,如果没有空间智能,通用人工智能就不完整。而且我想解决那个问题。这涉及到创建世界模型,超越扁平像素的世界模型,超越语言的世界模型,真正捕捉世界的三维结构和空间智能的世界模型。我一生中最幸运的事情是,无论我多大年纪,我总是能和最优秀的年轻人一起工作。所以,你知道,我与三位令人难以置信的、年轻的、但世界一流的技术专家,Justin Johnson、Ben Mildenhall和Christoph Lassner,共同创办了一家公司。而且我们只是想解决,在我看来,目前人工智能领域中最难的问题。
主持人: 这就是令人难以置信的人才。我的意思是,Chris是Pulsar的创造者,Pulsar是高斯溅射之前的最初种子,它进行了大量的可微渲染。还有Justin Johnson,你以前的学生,他真的拥有这种超级系统工程思维,实现了实时的神经风格迁移。然后是Ben,他是NERF论文的作者。所以,这是一个超级精英团队。而且你需要这样一个精干的团队,因为我们之前稍微聊过,某种程度上,视觉实际上比大型语言模型更难。也许这么说有些争议,因为大型语言模型基本上是一维的,对吧?但你们谈论的是理解大量的3D结构。为什么这么难?而且它仍然落后于语言研究。
李飞飞: 是的,不,我真的很感激,戴安娜,你能理解我们的问题有多难。是的,所以语言从根本上说是一维的,对吧?教学大纲按顺序排列。我的意思是,这就是为什么序列到序列,序列建模如此经典。还有一些关于语言的东西,人们没有意识到。语言是纯粹的生成性的。自然界中不存在语言。你无法触及语言。你无法看见语言。语言实际上是从每个人的头脑中产生的。那是一种纯粹的生成信号。当然,你把它写在纸上,它就在那里。但是语言的生成、构建和效用是非常、非常具有生成性的。
世界远比这复杂。首先,真实世界是3D的。如果你加上时间,那就是4维的。但我们先将自己限定在空间内。它本质上是3维的。因此,这本身就是一个组合难度更高的难题。其次,感知,即对视觉世界的接收是一种投影。无论是你的眼睛、视网膜,还是相机,它总是将3D坍缩成2D。你必须意识到这有多难。这在数学上是不适定的。所以你必须...这就是为什么人类和动物有多重传感器。然后你必须解决那个问题。第三,世界并非纯粹是生成性的。是的,我们可以生成虚拟的3D世界。它仍然必须遵守物理定律以及其他所有。但还有一个真实的世界存在。你现在突然以一种非常流动的方式在生成和重建之间切换。而且用户行为、效用、用例都非常不同。如果你完全转向生成,我们可以谈论游戏和元宇宙以及所有这些。如果你完全转向现实世界,我们就在谈论机器人技术以及所有这些。但这一切都处于世界建模和空间智能的连续统一体中。当然,房间里的大象是互联网上有大量的语言数据。空间智能的数据在哪里?当然,它全在我们的脑海里,但它不像语言那样容易获取。所以这些就是它如此困难的原因。
但坦率地说,这让我兴奋,因为如果它很容易,别人早就解决了。我的整个职业生涯都在追逐那些非常困难、近乎妄想的问题。我认为这就是那个妄想问题。感谢您对此的支持。
主持人: 甚至从第一性原理来考虑,人脑的视觉皮层和处理视觉数据的神经元数量都远多于语言。这如何转化为模型架构?从你发现的情况来看,它与大型语言模型非常不同,对吗?
李飞飞: 是的,这实际上是一个非常好的问题。我是说,现在仍然存在不同的思想流派,对吧?有大型语言模型(LLM),我们在大型语言模型中看到的很多东西实际上都是将缩放定律一路书写到幸福结局。你几乎可以……你可以直接用蛮力进行自监督学习。构造性的世界模型可能稍微更细致一些。世界更有结构。可能存在我们需要用来引导它的信号。你可以称之为先验的形式,你可以称之为数据中的监督,无论它是什么。我认为这些是我们必须解决的一些悬而未决的问题,但你是对的。而且,如果你考虑人类,首先,即使是对人类的感知,我们也没有所有的答案,对吧?3D如何在人类视觉中运作仍然是一个未解决的问题。我们从机械角度知道两只眼睛必须对信息进行三角测量。但即使在那之后,数学模型在哪里?而且我们没那么厉害。人类作为3D动物没那么厉害。所以,有很多问题需要解答。
所以,我们肯定在世界实验室。我只是指望... 真的指望一件事。我指望我们拥有像素世界里最聪明的人来解决这个问题。
主持人: 可以说你们在世界实验室构建的是全新的基础模型,其输出是3D世界吗?你们设想的应用有哪些?因为我认为你列出了从感知到生成的所有内容。所以,生成模型和判别模型之间总是存在这种张力。那么,这些3D世界会做什么呢?
李飞飞: 是的。所以,我不能过多地谈论World Labs本身的细节。但就空间智能而言,这同样让我感到兴奋。就像语言一样,其用例非常广泛。从创作(你可以想到设计师、建筑师、工业设计师,以及艺术家、3D艺术家、游戏开发者)开始。从创作一直到机器人技术、机器人学习。空间智能模型或世界模型的效用真的非常非常大。然后还有许多相关产业,从营销到娱乐,甚至到元宇宙。实际上,我对元宇宙感到非常非常兴奋。我知道很多人仍然觉得,哦,它仍然不行。我知道它仍然不行。这就是我兴奋的原因。因为我认为硬件和软件的融合即将到来。所以,那也是未来另一个很棒的用例。
主持人: 我个人非常高兴你正在解决元宇宙的问题。我在前一家公司尝试过。所以,我非常高兴你现在正在做这件事。
李飞飞: 是的,嗯,我认为有更多的信号。我的意思是,我的确认为硬件是障碍的一部分。但你需要内容创作。我的意思是,元宇宙内容创作需要世界模型。
四:企业家精神:从洗衣店到AI研究院
主持人: 让我们稍微换个话题。所以,也许对一些听众来说,他们可能会觉得你从学术界到现在的创始人兼首席执行官的转变有些突然。但实际上,你的人生经历非常remarkable。这不是你第一次从零到一。你跟我说过你是如何移民到美国的。而且在青少年时期你一句英语都不会说。你甚至经营过很多年的自助洗衣店。告诉我们所有这些技能是如何塑造你现在的样子的。
李飞飞: 没错,我确定你们来这里是想听听如何开一家自助洗衣店。那是你在19岁的时候,对吧?是的,我19岁,当时是出于绝望。所以,我没有办法养活我的家人,我的父母,而且我需要去普林斯顿大学读物理学专业。所以,我开了一家干洗店。用硅谷的术语来说,我筹集了资金。我是创始人兼首席执行官。我也是收银员和做所有其他事情的人。我退出了。所以,七年后。好的,你们真是太好了。我从来没有因为我的自助洗衣店获得过掌声,但谢谢你们。
所以,但无论如何,我认为戴安娜的观点,尤其是对你们所有人而言,我看着你们,我为你们感到非常兴奋,因为你们就像我年龄的一半,甚至,你知道,可能是我年龄的30%。而且你们都如此才华横溢。只管去做。不要害怕。你知道,在我整个职业生涯中,当然,我经营了自助洗衣店。但即使作为一名教授,我也选择过几次,我选择去那些我是第一个计算机视觉教授的系。那是违背了很多建议的。你知道,作为一名年轻的教授,你应该去一个有社群和资深导师的地方。当然,我很乐意有资深导师,但如果他们不在那里,我仍然必须开辟我的道路,闯出我的路,对吧?所以,我不害怕那个。
然后我去了谷歌,学习了很多关于谷歌云和B2B等方面的商业知识。之后我在斯坦福大学内部创办了一家初创公司,因为在2018年左右,人工智能不仅占领了工业界,还成为了一个人类问题。人类将始终推动我们的技术进步,但我们不能失去我们的人性。我非常关心在人工智能的进步中创造一盏指路明灯,并尝试想象人工智能如何以人为本,我们如何创造人工智能来帮助人类。所以,我回到斯坦福大学,创建了以人为本人工智能研究院,并像经营一家初创公司一样运营了五年。也许有些人不太高兴我在大学里像经营一家初创公司一样运营了五年,但我对此感到非常自豪。
所以,在某种程度上,我想我只是喜欢成为一名企业家。我喜欢归零的感觉,就像站在原点一样。忘记你过去所做的一切。忘记别人对你的看法。只是埋头苦干,努力建设。那是我的舒适区,我就是喜欢那样。
主持人: 你身上另一个非常酷的事情,除了你所做的所有了不起的事情之外,你还为许多传奇研究人员提供建议,比如Andrew McCarthy、英伟达的Jim Fan、以及你的ImageNet的合著者Jia Deng。他们后来都拥有了令人难以置信的职业生涯。当他们还是学生的时候,他们身上有什么特别之处?对于观众的建议,你能不能说,啊,这个人将会改变人工智能领域,而且你能看出来。
李飞飞: 所以,首先,我是幸运的那一个。我认为我亏欠我的学生比他们亏欠我的更多。他们真的让我成为一个更好的人,更好的老师,更好的研究者。而且能和这么多,就像你说的,传奇学生一起工作,真的是我一生的荣幸。所以,他们非常非常不同。他们中的一些人只是纯粹的科学家,试图埋头解决科学问题。他们中的一些人是行业领袖。他们中的一些人是,你知道,人工智能知识最伟大的传播者。但我认为有一件事将他们团结在一起,而且我会鼓励他们每个人,你们每个人,都思考这件事。我也,对于那些正在招聘的创始人来说,这也是我的招聘标准,我寻找的是智识上的无畏。我认为你来自哪里并不重要。我们试图解决什么问题并不重要。那种勇气,那种拥抱困难的无畏精神,并着手去做,全身心投入,以任何你想要的方式去解决它,这确实是成功人士的核心特征。我从他们身上学到了这一点,我真的在寻找拥有这种品质的年轻人。然后,作为World Labs的首席执行官,在我的招聘中,我寻找的就是这种品质。
主持人: 所以,你也在为World Labs招聘很多人。所以,你也在寻找同样的特质,对吧?是的。
李飞飞: 我获得了Diana的许可,可以宣布我们正在招聘。所以,是的。所以,我们正在大量招聘。我们正在招聘工程人才。我们正在招聘产品人才。我们正在招聘3D人才。我们正在招聘生成模型人才。所以,如果你觉得自己无所畏惧,并且对解决空间智能充满热情,请与我联系或访问我们的网站。
主持人: 酷。接下来10分钟我们将开放提问环节。
五:问答环节:洞见与未来
观众1: 嗨,飞飞。谢谢你的演讲。我是您非常非常非常大的粉丝。嗯,是的。所以,我的问题是,二十多年前,您从事视觉识别方面的工作。我想开始我的博士生涯。我应该研究什么才能像您一样成为传奇人物?
李飞飞: 我想给您一个周到的回答,因为我总是可以说,做任何让您兴奋的事情。所以,首先,我认为人工智能研究已经改变,因为学术界……如果您要开始攻读博士学位,那么您就在学术界。学术界不再拥有大部分的人工智能资源。这和我的时代非常不同,对吧?就资源而言,学术界的计算能力和数据量非常低。还有一些问题,工业界可以更快地解决。因此,作为一名博士生,我建议你寻找那些并非与工业界存在冲突的“北极星”问题,工业界能够利用更好的计算能力、更好的数据和团队科学来更好地解决这些冲突问题。
但在学术界,我们仍然可以发现一些真正根本性的问题,而这些问题的解决与你拥有多少芯片无关。你可以取得很大的进展。首先,对我而言,跨学科人工智能是学术界一个非常非常令人兴奋的领域,尤其是在科学发现方面。有太多的学科可以与人工智能交叉。我认为这是一个可以深入研究的巨大领域。在理论方面,我发现人工智能的能力已经完全超越了理论,这令人着迷。我们没有可解释性。我们不知道如何弄清楚因果关系。模型中我们不理解的东西太多了,可以继续推进研究。而且这个列表还可以继续列下去。在计算机视觉中,仍然存在我们尚未解决的表征问题。而且,你知道,小数据,那是另一个非常有趣的领域。所以,是的,这些都是可能性。
观众1: 非常感谢您,飞飞。
观众2: 谢谢您,李教授。再次祝贺您获得耶鲁大学的荣誉博士学位。我很荣幸一个月前在那里见证了那一刻。我的问题是,在您看来,通用人工智能(AGI)更有可能作为一个单一的统一模型出现,还是作为一个多智能体系统出现?
李飞飞: 你提问的方式本身就包含了两种定义。其中一种定义更偏理论性,也就是将AGI定义为通过某种智商测试来判定AGI。你问题的另一半则更偏实用主义。如果是基于代理的,它是否具有功能性?它能完成哪些任务?老实说,我很难接受这种AGI的定义。原因如下。1956年在达特茅斯学院聚首的人工智能之父们,比如约翰·麦卡锡和马文·明斯基,他们想要解决的是机器思考的问题。图灵,艾伦·图灵,也在几年前,比他们早10年左右,提出了这个问题。这种说法不是狭隘的,不是狭义人工智能。这是对智能的陈述。所以我不太清楚如何区分人工智能最初的问题和这个新词AGI(通用人工智能)。对我来说,它们是同一件事。
但我明白,现在的行业喜欢称AGI,好像它超越了AI。我对此感到困惑,因为我觉得,我不知道AGI到底和AI有什么不同。如果我们说今天的类AGI系统比80、70、90年代或任何时候更狭隘的AI系统表现更好,我认为这是正确的,这只是该领域的发展。但从根本上讲,我认为人工智能的科学就是智能的科学,就是创造出能够像人类一样,甚至比人类更智能地思考和做事的机器。所以我不知道如何定义AGI。所以我不知道,在没有定义它的情况下,我不知道它是否是单片的。如果你看大脑,这是一件事,你可以称它为单片的,但它确实有不同的功能,你甚至可以,有布罗卡区负责语言,有视觉皮层,有运动皮层。我不太清楚该如何回答这个问题。
观众3: 嗨,我叫亚什纳,我只想说声谢谢。我认为看到一位女性在这个领域发挥主导作用真的很鼓舞人心。作为一名研究员、教育者和企业家,我想问一下,您认为在人工智能迅速崛起的时代,什么样的人应该攻读研究生?
李飞飞: 这是个很好的问题。甚至连家长们都会问我这个问题。我真的认为研究生院是让你拥有强烈求知欲的四五年。你被好奇心所引导,而且这种好奇心如此强烈,以至于没有其他更好的地方可以做到这一点。这与创业公司不同,因为创业公司不仅仅是...你必须稍微小心一点。创业公司不能仅仅由好奇心驱动。你的投资者会因此对你感到不满。创业公司拥有更专注的商业目标,其中一部分是好奇心,但不仅仅是好奇心。然而对于研究生院来说,解决问题或提出正确问题的这种好奇心非常重要,我认为那些带着强烈好奇心进入的人会真正享受这四年或五年,即使外面的世界以光速流逝。你仍然会感到快乐,因为你正在那里追随那份好奇心。
观众4: 首先,我想感谢您抽出宝贵的时间。感谢您前来与我们交流。您提到开源是ImageNet增长的重要组成部分。现在,随着大型语言模型的最新发布和增长,我们已经看到各组织在开源方面采取了不同的方法,一些组织完全保持闭源,一些组织完全发布其整个研究堆栈,一些组织则介于两者之间,开源权重或具有限制性许可证,以及诸如此类的性质。所以我想问一下,您如何看待这些不同的开源方法,以及您认为作为一家人工智能公司,进行开源的正确方式是什么?
李飞飞: 我认为当存在不同的方法时,生态系统才是健康的。我在开源或闭源方面,并不持宗教式的态度,即你必须开源或你必须闭源。这取决于公司的商业战略。举例来说,很明显为什么Facebook或Meta想要开源,对吧?他们现在,他们的商业模式还不是销售模型。他们用它来发展生态系统,以便人们来到他们的平台。因此,开源很有意义,而另一家真正通过...甚至通过货币化来盈利的公司,你可以考虑开源层和闭源层。所以我对这些都持开放态度。从更高的层面来说,我认为开源应该受到保护。我认为如果开源方面有努力,无论是在公共部门,如学术界,还是在私营部门,这都非常重要。这对于创业生态系统至关重要。这对于公共部门至关重要,我认为应该受到保护。不应受到惩罚。
观众5: 嗨,我叫卡尔。我从爱沙尼亚飞来。我有一个关于数据的问题。您非常出色地指出了机器学习领域中,随着ImageNet的发展,向数据驱动方法的转变。现在您正在研究世界模型,并且您提到我们没有关于内网的空间数据。它只存在于我们的脑海中。您是如何解决这个问题的?你在赌什么?你是从现实世界收集这些数据的吗?你在做合成数据吗?你相信那个吗?还是你相信传统的先验知识?谢谢。
李飞飞: 你应该加入世界实验室,我会告诉你的。哦,这真是个好问题。听着,作为一家公司,我不能分享太多,但我认为重要的是要承认我们正在采取一种混合方法。拥有大量数据固然重要,但拥有大量高质量的数据也同样重要。归根结底,如果你不注意数据的质量,仍然是垃圾进,垃圾出。
观众6: 我们来提最后一个问题。李博士,您好。我叫安妮,非常感谢您与我们交流。在您的书《我眼中的世界》中,您谈到了作为一名移民女孩和女性在 STEM 领域所面临的挑战。我很想知道您是否在工作场所感受到自己是少数群体的那一刻,如果是,您是如何克服这个问题或说服他人的?
李飞飞: 谢谢你的提问。我想非常、非常谨慎或周到地回答你的问题,因为我们都来自不同的背景,我们每个人的感受都非常独特。你知道,这几乎无关紧要那些大的类别是什么。我们所有人都有感到自己是少数人或房间里唯一一个人的时刻。当然,我也有过那样的感觉。有时是因为我是谁。有时是因为我的想法。有时仅仅是因为,我不知道,我衬衫的颜色。不管是什么,我都经历过。
但这正是我想要鼓励大家的地方。也许是因为我从小就来到这个国家,所以我有过这样的经历。事情就是这样。我是一个移民女性。我几乎培养了一种能力,不去过度关注这一点。我来到这里,和你们每个人一样。我来到这里,是为了学习、做事或创造事物。谢谢。这是一个很棒的回答。真的,你们所有人,你们即将开始或者正在进行某件事,并且你们将会经历软弱或奇怪的时刻。我每天都能感受到这一点,尤其是在创业生活中。有时我会想,天啊,我都不知道自己在做什么。专注于去做就好。通过梯度下降法,让自己达到最优解。好的。
主持人: 这是结束这场会谈的好时机。谢谢你,李博士。