图灵奖得主杨立昆(Yann LeCun)很多人肯定不陌生,他最出名的是做了 CNN 网络相关的很多工作,现在 Meta 带领一大票的科研团队。这一波AI起来,特别是每次 OpenAI 出了新玩意儿之后,他都会跳出来批判一番。
我这次整了个活,汇总他这一年来在推上的怼人合集,来聊一聊学术巨佬都争得面红耳赤的热门 AI 话题。
Sora 不是世界模型
前几天 Sora 的演示让人看了就很沸腾, OpenAI 紧接着发表了博文《视频生成模型作世界模拟器》,大家都爆吹 Sora 是世界模型。对此,LeCun 评价非常低:“通过生成每一个像素来模拟世界很浪费,路径也注定是失败的。”
要理解他的角度,咱先听听他说的大背景。几年前学界激烈争论,生成式与差别式 AI 模型哪个更好。这是两种不同技术路径的机器学习模型,生成式模型(generative models)输出的是一个概率分布,而差别式模型(discriminative models)则是找到从输入到一些分类的映射。
LeCun 指出,今天的大语言模型使用生成式模型的技术路径是有意义的,因为文本是离散的,一个个单词有清晰的边界。但对于像视频生成这样的高维连续空间,预测的不确定性太高,生成结果就会很差。
感觉他这点说得挺有道理的,生成模型确实有局限性。在一个复杂系统里,生成式模型的概率分布,注定了它只能是个近似的结果。想想如何精确地遵循物理定律,光从粗糙表面的漫反射,或物体遵循牛顿定律的移动轨迹…… 模拟真实世界是指数级困难的。
从真实应用的角度来看,欣欣我觉得目前的生成式模型也不尽人意。像 Photoshop 这样的图像编辑工具可以准确添加一个 50% 透明度的图层,生成方法则不能。有一次,一个客户提了个需求给我的 3D 纹理生成工具,如果输入的 3D 模型形状是对称的,那么生成的纹理也得对称。这些用非 AI 可以很容易完成的操作,生成式 AI 却束手无策。
自回归语言模型也不对
下一个产品,ChatGPT,LeCun 也不以为然,说是没有创新性。ChatGPT 用的是自回归模型(auto-regressive models),根据之前的单词输入来预测下一个单词标记。LeCun 认为自回归架构带来很多问题,包括幻觉、有限的上下文记忆、非图灵完备的、不可控性、非常不擅长规划等。
好吧,确实存在这么些问题。要是其他人吐槽ChatGPT不够厉害,肯定会被骂“你行你上啊”。但这是学术巨佬,人家有他自己的一套理论体系。
来看一看 LeCun 心目中的智能模型是怎么样的。今年2月,他带领的 Meta 团队公开提出了一个叫 V-JEPA 的架构。顺便,他这个论文去年11月被 ICLR 会议给拒了,有点惨的。
首先一个点就是,这个模型将输入转换成了一种抽象的表示。它编码器的训练是通过预测某一帧内被遮盖住的区域,而不是像前面提到的自回归模型那样,预测下一帧的整个画面。预测不出来的也不会瞎编,这就没有很多幻觉的问题了。
有胖友可能想问,Sora 不也是在潜空间里搞啥啥抽象表示的嘛?这稍不一样,因为 Sora 最终的落脚点,还是生成了像素级别的输出。我在之前讲 Sora 的文章里提到过,它的架构在最后接了个解码器,而 V-JEPA 没有这样的解码器。
还有一个点,V-JEPA 是一种 LeCun 一直狂吹的自监督模型(self supervised models),它从纯图像或声音等未标记数据中学习,而不是通过语言或其他类型的标记数据进行学习。只通过观看 200 万个视频,没有文本数据或模拟交互,这个模型就可以学习出那种抽象的表示,神奇地预测未来的动作。
行吧,虽然我还是没懂这个模型能用来干啥。。。
不存在人类水平的 AGI
看上去 LeCun对自回归模型很失望,难怪他觉得通用人工智能(AGI)不靠谱。AGI 是这波 AI 很火的概念,人工智能的终极形式,像人类一样执行各种各样而不是特定的智力任务。当 OpenAI 首席科学家 Ilya Sutskever 在 2022 年发推文称计算机可能产生了微弱的意识时,LeCun 教授直接回复说不可能(nope)。
目前,自回归结构的 AI 做不了啥复杂的推理或规划。 LeCun 在推上说:“模型再大,数据再多也没用。”
他认为智能包含线性尺度无法捕捉到的各个方面,比如不同的动物有不同的技能,所以猫有猫的智能,老鼠有老鼠的智能。
至于人类级别的智能,他写了个62页的《走向自主机器智能之路》,出了一种称为自主智能(autonomous intelligence)的架构。学有余力的同学可以阅读全文,我就先告辞了。总之,人工智能体要具有预测、推理和决策的模块,以及 LeCun 版的、能根据缺失信息预测环境状态的“世界模型”。
机器人接管地球是不可能的
LeCun 说,现在担心来自 AI 的威胁还为时过早,因为它们现在还不太聪明的亚子。
在去年 OpenAI 成员公开倡议暂停生成式 AI 研究六个月的事件中,他与吴恩达教授一起公开表达了反对意见。
AI 应该开源
LeCun 表示, OpenAI 在从许多开源方法和社区贡献中成长起来后,就变成了 CloseAI。他这种对闭源做法非常不满。
他一直倡导开源。微软一哥们说了句“那要看你对开放的定义”,被他回怼“这人观点有点奇怪”。
然后吹一下自家的开源:“如果没有 Meta 的 PyTorch,就不会有今天的 OpenAI 产品。”
欣想法
能量在从学术界转移到工业界。
过去那种学术界出成果然后工业界落地的模式,在这一波AI浪潮中不一定成立了。海量数据和人工反馈能极大提升模型效果,所以手里有数据的公司能比大学实验室跑出更好的结果。
与此同时,过去科技巨头通过发论文来提升行业影响力的做法也遭到了冲击,各家都进入了战时戒备状态,不再发表技术细节。一切以产品化落地为王,过于理论或者花里胡哨的方法,在海量数据和真实用户面前不堪一击。这也可能是 LeCun 这样的理想主义者感到不适的一个原因。
想想这一周硅谷发布的三个重磅成果,Sora 能生成 60 秒高质量长视频,Gemini 1.5 支持一千万上下文,前两个都是已落地很能打的产品,而 V-JEPA 作为科研上新颖性都有待观察的技术架构,确实显得单薄了。
搞 AI 科研,太容易前浪死在沙滩上。
人们期待理工科最顶尖的那批科研人员,每隔几年就得做出一点新的突破,这在机器学习领域尤其残酷。自从 transformer 出现以来,旧的方法基本上被抛弃了,新一代的科研人不再需要学习 LSTM 或 BERT。
这种情况在数学等其他理工科领域并不常见,因为它们的知识块是一块块搭建上去的。而在深度学习领域,由于经验主义的导向,人们无法判断一个神经网络结构是否优秀,直到它产生一些好的结果。
总之 LeCun 挺惨的,被一群啥也不会的网络喷子给喷自闭了。。。
为啥说是终极形态嘞🤔