Meta 杨立昆认为这一波 AI 路径有问题

图灵奖得主杨立昆（Yann LeCun）很多人肯定不陌生，他最出名的是做了 CNN 网络相关的很多工作，现在 Meta 带领一大票的科研团队。这一波AI起来，特别是每次 OpenAI 出了新玩意儿之后，他都会跳出来批判一番。

我这次整了个活，汇总他这一年来在推上的怼人合集，来聊一聊学术巨佬都争得面红耳赤的热门 AI 话题。

Sora 不是世界模型

前几天 Sora 的演示让人看了就很沸腾， OpenAI 紧接着发表了博文《视频生成模型作世界模拟器》，大家都爆吹 Sora 是世界模型。对此，LeCun 评价非常低：“通过生成每一个像素来模拟世界很浪费，路径也注定是失败的。”

要理解他的角度，咱先听听他说的大背景。几年前学界激烈争论，生成式与差别式 AI 模型哪个更好。这是两种不同技术路径的机器学习模型，生成式模型（generative models）输出的是一个概率分布，而差别式模型（discriminative models）则是找到从输入到一些分类的映射。

LeCun 指出，今天的大语言模型使用生成式模型的技术路径是有意义的，因为文本是离散的，一个个单词有清晰的边界。但对于像视频生成这样的高维连续空间，预测的不确定性太高，生成结果就会很差。

感觉他这点说得挺有道理的，生成模型确实有局限性。在一个复杂系统里，生成式模型的概率分布，注定了它只能是个近似的结果。想想如何精确地遵循物理定律，光从粗糙表面的漫反射，或物体遵循牛顿定律的移动轨迹…… 模拟真实世界是指数级困难的。

从真实应用的角度来看，欣欣我觉得目前的生成式模型也不尽人意。像 Photoshop 这样的图像编辑工具可以准确添加一个 50% 透明度的图层，生成方法则不能。有一次，一个客户提了个需求给我的 3D 纹理生成工具，如果输入的 3D 模型形状是对称的，那么生成的纹理也得对称。这些用非 AI 可以很容易完成的操作，生成式 AI 却束手无策。

自回归语言模型也不对

下一个产品，ChatGPT，LeCun 也不以为然，说是没有创新性。ChatGPT 用的是自回归模型（auto-regressive models），根据之前的单词输入来预测下一个单词标记。LeCun 认为自回归架构带来很多问题，包括幻觉、有限的上下文记忆、非图灵完备的、不可控性、非常不擅长规划等。

好吧，确实存在这么些问题。要是其他人吐槽ChatGPT不够厉害，肯定会被骂“你行你上啊”。但这是学术巨佬，人家有他自己的一套理论体系。

来看一看 LeCun 心目中的智能模型是怎么样的。今年2月，他带领的 Meta 团队公开提出了一个叫 V-JEPA 的架构。顺便，他这个论文去年11月被 ICLR 会议给拒了，有点惨的。

首先一个点就是，这个模型将输入转换成了一种抽象的表示。它编码器的训练是通过预测某一帧内被遮盖住的区域，而不是像前面提到的自回归模型那样，预测下一帧的整个画面。预测不出来的也不会瞎编，这就没有很多幻觉的问题了。

有胖友可能想问，Sora 不也是在潜空间里搞啥啥抽象表示的嘛？这稍不一样，因为 Sora 最终的落脚点，还是生成了像素级别的输出。我在之前讲 Sora 的文章里提到过，它的架构在最后接了个解码器，而 V-JEPA 没有这样的解码器。

还有一个点，V-JEPA 是一种 LeCun 一直狂吹的自监督模型（self supervised models），它从纯图像或声音等未标记数据中学习，而不是通过语言或其他类型的标记数据进行学习。只通过观看 200 万个视频，没有文本数据或模拟交互，这个模型就可以学习出那种抽象的表示，神奇地预测未来的动作。

行吧，虽然我还是没懂这个模型能用来干啥。。。

不存在人类水平的 AGI

看上去 LeCun对自回归模型很失望，难怪他觉得通用人工智能（AGI）不靠谱。AGI 是这波 AI 很火的概念，人工智能的终极形式，像人类一样执行各种各样而不是特定的智力任务。当 OpenAI 首席科学家 Ilya Sutskever 在 2022 年发推文称计算机可能产生了微弱的意识时，LeCun 教授直接回复说不可能（nope）。

目前，自回归结构的 AI 做不了啥复杂的推理或规划。 LeCun 在推上说：“模型再大，数据再多也没用。”

他认为智能包含线性尺度无法捕捉到的各个方面，比如不同的动物有不同的技能，所以猫有猫的智能，老鼠有老鼠的智能。

至于人类级别的智能，他写了个62页的《走向自主机器智能之路》，出了一种称为自主智能（autonomous intelligence）的架构。学有余力的同学可以阅读全文，我就先告辞了。总之，人工智能体要具有预测、推理和决策的模块，以及 LeCun 版的、能根据缺失信息预测环境状态的“世界模型”。

机器人接管地球是不可能的

LeCun 说，现在担心来自 AI 的威胁还为时过早，因为它们现在还不太聪明的亚子。

在去年 OpenAI 成员公开倡议暂停生成式 AI 研究六个月的事件中，他与吴恩达教授一起公开表达了反对意见。

AI 应该开源

LeCun 表示， OpenAI 在从许多开源方法和社区贡献中成长起来后，就变成了 CloseAI。他这种对闭源做法非常不满。

他一直倡导开源。微软一哥们说了句“那要看你对开放的定义”，被他回怼“这人观点有点奇怪”。

然后吹一下自家的开源：“如果没有 Meta 的 PyTorch，就不会有今天的 OpenAI 产品。”

欣想法

能量在从学术界转移到工业界。

过去那种学术界出成果然后工业界落地的模式，在这一波AI浪潮中不一定成立了。海量数据和人工反馈能极大提升模型效果，所以手里有数据的公司能比大学实验室跑出更好的结果。

与此同时，过去科技巨头通过发论文来提升行业影响力的做法也遭到了冲击，各家都进入了战时戒备状态，不再发表技术细节。一切以产品化落地为王，过于理论或者花里胡哨的方法，在海量数据和真实用户面前不堪一击。这也可能是 LeCun 这样的理想主义者感到不适的一个原因。

想想这一周硅谷发布的三个重磅成果，Sora 能生成 60 秒高质量长视频，Gemini 1.5 支持一千万上下文，前两个都是已落地很能打的产品，而 V-JEPA 作为科研上新颖性都有待观察的技术架构，确实显得单薄了。

搞 AI 科研，太容易前浪死在沙滩上。

人们期待理工科最顶尖的那批科研人员，每隔几年就得做出一点新的突破，这在机器学习领域尤其残酷。自从 transformer 出现以来，旧的方法基本上被抛弃了，新一代的科研人不再需要学习 LSTM 或 BERT。

这种情况在数学等其他理工科领域并不常见，因为它们的知识块是一块块搭建上去的。而在深度学习领域，由于经验主义的导向，人们无法判断一个神经网络结构是否优秀，直到它产生一些好的结果。

总之 LeCun 挺惨的，被一群啥也不会的网络喷子给喷自闭了。。。

Sora 不是世界模型

自回归语言模型也不对

不存在人类水平的 AGI

机器人接管地球是不可能的

AI 应该开源

欣想法

评论区

发表回复取消回复

Sora 不是世界模型

自回归语言模型也不对

不存在人类水平的 AGI

机器人接管地球是不可能的

AI 应该开源

欣想法

评论区

发表回复 取消回复

发表回复取消回复