Sora 技术实现

news/2024/5/20 9:29:41 标签: sora, openai, 人工智能, LLM, 生成式AI, agi

Sora 技术实现

Sora 的发布宛如一枚核弹,受到各行各业的追捧和关注。不可否认,Sora 生成的视频效果确实太炸裂了,甩开之前文生视频模型几条街。下面是 Sora vs. Pika vs. RunwayML vs. Stable Video 生成视频效果对比

Sora vs. Pika vs. RunwayML vs. Stable Video 生成视频效果对比

很明显可以看出 Sora 无论从分辨率、时长、精细度和对真实世界的还原程度上都远远好于其他模型。下表给出了详细的对比。

在这里插入图片描述

文章目录

    • 寻找 Sora 的技术实现线索
    • Sora 技术解析

寻找 Sora 的技术实现线索

Sora 目前还没有论文发布。要想了解 Sora 后背的技术细节只有两个途径:

  1. Sora 技术报告
  2. Sora 团队核心成员过往的论文

Sora 的技术报告中关于技术细节阐述的很简略,文章开头开宗明义地点明“本报告不包含模型和实施细节”。但我们还是能了解到 Sora 采用的是 Transform 架构,其中一项很关键的技术是时空补片(Spacetime Patches),后面我会单独写一篇文章介绍 Spacetime Patches。

既然技术报告能获取的技术细节不多,我们就深挖一下团队核心成员的论文。Sora 团队的领导者是 Tim Brooks 和 William Peebles。两位负责人都是在去年(2023年)刚刚博士毕业,应该都有很新鲜热辣的论文。

再继续向上追溯他们的导师,我惊讶的发现他们都师从 Alyosha Efros。Alyosha Efros 是加州大学伯克利分校计算机科学教授,是一位在计算机视觉和计算机图形学领域具有广泛影响的学者也是 BAIR (Berkeley Artificial Intelligence Research Lab) 伯克利人工智能研究实验室的成员。他在计算机视觉领域最著名的研究是“纹理合成”和“图像补全”,这些技术可以自然地填补图像中的缺失部分,或者生成具有特定风格的新图像。

顺着这条线索,我找到了两篇我认为对 Sora 实现至关重要的论文:

  • Sequential Modeling Enables Scalable Learning for Large Vision Models
  • Scalable Diffusion Models with Transformers

其中第二篇论文的一作正是 Sora 技术领导人之一 William Peebles。

Sora 技术解析

Sequential Modeling Enables Scalable Learning for Large Vision Models 这篇论文通过类比 LLM,提出了 LVM(Large Visual Model)大型视觉模型。通过 420B 的海量图片、视频数据进行训练。类似 LLM 将句子转换为 Token 表征,LVM 将视频也可以看做是一个长语句,不同的是 LVM 将关键帧就是语句中的 Token。这个思路跟 Sora 技术报告中描述的关键技术非常相似。模型采用 LLM 训练中常用到的 Multi-task Learning 和 In-context Learning 进行训练。

在这里插入图片描述

关于自回归视觉模型(Auto-regressive Visual Models),首先训练一个大型的 Visual Tokenizer,将单张图片转成一串 Visual Token,接着训练一个自回归 Transformers 来处理 Visual 句子。论文采用 LLaMA 的 Transformer 架构,可以容纳 16 张图像组成的视觉句子。推测 Sora 是 3B 的模型我理解也是因为这里。

在这里插入图片描述

在这里插入图片描述

Sora 发布后,Scalable Diffusion Models with Transformers 这篇论文的二作——Saining Xie 给出了自己的分析。

我们可以肯定的有两点:

  • 架构:Sora 的确是基于 Scalable Diffusion Models with Transformers(DiT)模型构建的——简而言之,它是一个以 Transformers 为主干的扩散模型

    DiT = [ VAE 编码器 + ViT + DDPM + VAE 解码器 ] \text{DiT} = [\text{VAE 编码器} + \text{ViT} + \text{DDPM} + \text{VAE 解码器}] DiT=[VAE 编码器+ViT+DDPM+VAE 解码器]

    根据 Sora 的技术报告,这部分似乎没有太多额外的花哨功能。

  • “视频压缩网络”:看起来它只是一个 VAE,但是在原始视频数据上训练的。Tokenization 在获得良好的时间一致性方面可能发挥了重要作用。顺便说一下,VAE 是一个 ConvNet,所以 DiT 从技术上讲是一个混合模型 。

Xie 解释说,当初在开发 DiT 时,并没有专注于创造新奇性,而是优先考虑简单性可扩展性。这两个特性给 DiT 带来了巨大的优势。

  • 简单性意味着灵活性。人们经常忽略的关于原生 ViT 的酷炫之处在于,当涉及到处理输入数据时,它使你的模型变得更加灵活。例如,在掩码自编码器(MAE)中,ViT 帮助我们只处理可见的补片并忽略被掩码的补片。同样的,Sora 技术报告中提到“通过在适当大小的网格中排列随机初始化的补片,可以控制生成视频的大小。” 而 UNet 并不直接提供这种灵活性。

    推测:Sora 也可能使用了 Google 的 Patch n’ Pack: NaViT,使 DiT 能够适应不同分辨率、时长和宽高比。

  • 可扩展性是 DiT 论文的核心主题。首先,优化后的 DiT 运行得比 UNet 快得多。更重要的是,Sora 证明了 DiT 的扩展定律不仅适用于图像,现在也适用于视频——Sora 复制了在 DiT 中观察到的视觉扩展行为。

    在 Sora 报告中,第一个视频的质量相当差,它使用的是基础模型大小。粗略计算:DiT XL/2 的 GFLOPs 是 B/2 模型的 5 倍,所以最终的 16X 计算模型可能是 3X DiT-XL 模型大小,这意味着 Sora 可能有约 3B 参数——如果上面的计算是合理的,这可能表明,训练 Sora 模型可能不需要像人们预期的那样多的 GPU,同时也暗示了未来的迭代可能会非常快速。

    在这里插入图片描述

Sora 最关键的能力是 “涌现出的模拟能力”。在 Sora 之前,尚不清楚长时间的一致性是否能自发出现,或者是否需要复杂的主题驱动生成管道甚至是物理模拟器。Sora 已经证明,尽管不完美,但这些行为可以通过端到端训练实现。然而,有两个要点尚未讨论。

  1. 训练数据:完全没有讨论训练数据的来源和构建,这可能暗示数据很可能是 Sora 成功的至关重要的因素。有人推测 Sora 使用了来自游戏引擎的数据,以及电影、纪录片、电影长镜头等。
  2. (自回归)长视频生成:Sora 的一个重大突破是能够生成非常长的视频。制作 2 秒视频和制作 1 分钟视频之间的差异天壤之别。Sora 可能通过联合帧预测实现长视频生成。该预测允许自回归采样,然而一个主要挑战是如何解决错误累积并维持质量/一致性。这些技术细节非常重要,希望将来能揭秘。

http://www.niftyadmin.cn/n/5383701.html

相关文章

LeetCode_20_简单_有效的括号

文章目录 1. 题目2. 思路及代码实现(Python)2.1 栈 1. 题目 给定一个只包括 (,),{,},[,] 的字符串 s ,判断字符串是否有效。 有效字符串需满足: 左括号必须用相同类型…

html从零开始9:javaScript简介,语句、标识符,变量,JavaScript引入到文件【搬代码】

javaScript简介 javaScript语句、标识符 变量 var num 10; var就是固定声明,num就是变量名&#xff0c;10就是变量&#xff1b;<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Comp…

Unity3d Mesh篇(一)— 创建简单三角面

文章目录 前言一、Mesh组成二、使用步骤三、效果四、总结 前言 Mesh&#xff08;网格&#xff09;是一种常用的3D图形表示方法&#xff0c;它由顶点&#xff0c;法线&#xff0c;UV 坐标&#xff0c;和三角形等组成。您可以使用 Mesh 类的方法来创建或修改网格&#xff0c;也可…

微信小程序-表单提交和校验

一、使用vant组件生成如下页面 二、前端代码如下 <form bindsubmit"submitForm"><view class"cell-group"><van-cell-group><van-field value"{{ title }}" label"商品名称" placeholder"请输入商品名称&qu…

Mysql Day06

sql优化 插入数据 大批量插入数据 主键顺序插入性能高于乱序插入 load data local infile /root/load_user_100w_sort.sql into table tb_user fields terminated by , lines terminated by \n ; 主键优化 这个黄色的都是一个一个Page 主键乱序插入之后会变成1-3-2&#x…

利用大数据和API优化电商决策:商品性能分析实践

在数据驱动的电子商务时代&#xff0c;大数据分析已成为企业提升运营效率、增强市场竞争力的关键工具。通过精确收集和分析商品性能数据&#xff0c;企业能够洞察市场趋势&#xff0c;实现库存优化&#xff0c;提升顾客满意度&#xff0c;并显著增加销售额。本文将探讨如何通过…

机器人仓库搬砖

题目描述 机器人搬砖&#xff0c;一共有N堆砖存放在N个不同的仓库中&#xff0c;第i堆砖中有bricks[i]块砖头&#xff0c;要求在8小时内搬完。机器人每小时能搬砖的数量取决于有多少能量格&#xff0c;机器人一个小时中只能在一个仓库中搬砖&#xff0c;机器人的能量格每小时补…

企业客户服务的细节关注与客户满意度的提升

在今天这个竞争激烈的市场环境中&#xff0c;企业要想在众多的竞争者中脱颖而出&#xff0c;仅仅依靠优质的产品或服务已经无法满足。企业必须更深入地理解和满足客户的需求&#xff0c;提供超出客户期望的服务&#xff0c;才能真正赢得客户的忠诚和满意。那么&#xff0c;如何…