请教英伟达小哥哥，解读 Sora 真正的技术突破

Sora 官方技术文章讲了一堆，但我记得用LLM的思路生成视频也不是它家独创。所以我问了英伟达的科研小哥哥，此为线索写了一篇研究笔记。

以往视频生成的方法

Recurrent networks (RNNs)
Generative adversarial networks (GANs)
Autoregressive transformers
Diffusion models

以前的方法通常只能生成特定的视觉类别或更短的、固定分辨率的视频。RNN 和 GAN 的方法由于效果过差，基本可无视。

LLM for Videos?

Sora 官宣后不久，OpenAI 紧接着发表了一篇技术文章说，受到大语言模型的启发，Sora 采用了类似的视觉补丁（patches）啥啥啥的。

篇幅所限，他们的文章是大大简化了的，没有提到学术届的很多上下文。使用视觉 transformer 处理视频以及分词器的想法并不是新的创意。谷歌在2021年提出的 ViViT，就是一种基于视觉 transformer 的视频分类模型。

因此，我向英伟达的 AI 研究员询问了 Sora 的新颖之处。他说在学术界，科研人员一直在争论 ViT 和 UNet 架构在文生视频方面谁更好。近年来，ViT 似乎成为主流视觉架构的模型，不过 UNet 仍然在 diffusion 模型领域占据主导地位。从 DALL·E 2 到 Stable Diffusion，UNet 广泛应用于文生视觉模型。

2023 年，谷歌提出了 MAGVIT，使用通用标记词汇为视频和图像生成简洁且富有表现力的编码。MAGVIT v2 论文名为《Language Model Beats Diffusion: Tokenizer is Key to Visual Generation》，翻译过来就是《大语言模型打败扩散模型：分词器是视觉生成的关键》。标题就体现了“战争”的实况。这个模型后来被集成到谷歌的 VideoPoet 中，这是一种用于零镜头视频生成的大模型。

从这个角度来说，Sora 证明了 DiT 的技术路径，创新点还是非常大的。接下来讲一讲，DiT 是啥。

网络结构

论文《Scalable Diffusion Models with Transformers》中提出了一种叫 DiT 的神经网络结构，结合了视觉 transformer 和 diffusion 模型优点。

DiT = VAE encoder + ViT + DDPM + VAE decoder

ICCV 2023 paper proposes a diffusion model with a transformer Backbone. (https://arxiv.org/pdf/2212.09748.pdf)

对于 DiT 在 Sora 中的应用，DiT 作者之一 Saining Xie 在推文中提到：

由 batch size 大小相关的计算推导，Sora 可能有大约 30 亿个参数。 “训练 Sora 模型可能不需要像人们预期的那样多的 GPU；我预计未来会有非常快的迭代。”
Sora“可能还使用了谷歌的 Patch n’ Pack (NaViT) 论文成果，使其能够适应可变的分辨率/持续时间/长宽比。”

视频压缩

根据 Sora 官博，视频训练的时候被压缩为紧凑的时空编码；然后有一个解码器模型可以将生成的编码反向生成为用像素表示的格式。

Saining 大佬评论：“看起来这就是一个 VAE 结构，加上用原始视频数据进行训练。”

文字理解

Sora 官博透露，他们训练了一个模型来生成视频对应的字幕，这个模型最早在 DALL·E 3 的论文中提出。这大大提高了 Sora 对用户输入文本的理解能力和整体视频的质量。
团队还利用 GPT 将用户的短文本提示转换为详细的标题。重写提示几乎是当今 AI 产品的标准做法，以弥合用户指令和模型行为之间的隔阂。

训练数据

人们猜测 Sora 的训练涉及用 3d 引擎额外渲染出的视频。合成数据的广泛使用一定在 Sora 的训练中发挥了重要作用。
Sora 将视频在原始长宽比训练，以获得更好的构图和取景。

Takeaways

Sora 证明了大力出奇迹的规律也适用于视频生成，使用 DiT 模型和 token 编码的理念，实现了惊人的生成结果。我们看到，Sora 能平稳地移动摄像机，也能保持物体前后一致的模样，记住物体在哪里，并使视频中的物体互动。

Sora 的一个重大进步是它能够创建很长的视频；制作 5 的视频和 1 分钟的视频，两者的技术路径非常不同。在 Sora 之前研究人员想知道，长视频生成是否需要针对特定类别甚至复杂的物理模拟器。 Sora 告诉我们，端到端的通用模型训练就能做到长视频的生成。

视频生成的突破还将助力 3D 生成、自动驾驶和机器人技术等许多其他领域，最终能够模拟物理世界。

GAIA-1 模型能合成各种道路的视觉信息，帮助自动驾驶领域的模型训练。 (https://arxiv.org/pdf/2309.17080.pdf)

视频生成的下一个挑战于是变成，如何解决错误累积问题，随着时间的推移还能保证视频质量和一致性。

等Sora 正式上线，期待能亲手测试一下，得到更多结论～