Sora:将文本转化为视频的创新之旅

news/2024/5/20 8:08:23 标签: Sora, 视频模型, OpenAI

一.能力

  我们正致力于让 AI 掌握理解和模拟物理世界动态的能力,旨在培养能够协助人们解决现实世界互动问题的模型。

  介绍 Sora——我们开发的文本到视频转换模型。Sora 能够根据用户的输入提示,生成最长达一分钟的高质量视频内容。

  目前,Sora 正在被红队人员用于评估可能存在的风险和潜在危害。同时,我们也邀请了视觉艺术家、设计师和电影制作人等创意行业的专业人士,通过他们的反馈来进一步完善模型,使其更好地服务于创意产业。

  通过提前公开我们的研究进展,我们希望能够与社会各界人士建立合作,收集外部反馈,同时让公众对 AI 技术的未来方向有一个直观的了解。

  Sora 能够创建包含多个角色、特定运动类型和详细精确的主题及背景的复杂场景。它不仅能理解用户的文字提示,还能准确捕捉这些元素在现实世界中的表现。

  得益于对语言的深入理解,Sora 能够精确解读用户的指令,生成展现丰富情绪的生动角色,并在一个视频中呈现出连贯的视觉风格和角色持续性。

  然而,Sora 目前还存在一些局限。比如,在模拟复杂场景的物理动态时可能会遇到难题,或在理解特定因果关系时显得不足。举个例子,视频中的人物可能会咬下饼干一角,但视频中的饼干可能并未显示出相应的咬痕。

  此外,Sora 在处理空间细节时也可能出现混淆,如左右方向的错误识别,或在描述一系列随时间展开的事件时,如追踪特定的摄影机动作轨迹时,可能不够精确。

二.安全

  在将Sora纳入OpenAI产品之前,我们将采取几个重要的安全措施。我们正在与红队成员合作——在错误信息、仇恨内容和偏见等领域的领域专家——他们将对模型进行敌对测试。

  我们还在开发工具来帮助检测误导性内容,比如一个检测分类器,能够识别出视频是由Sora生成的。如果我们在OpenAI产品中部署该模型,我们计划将来包括C2PA元数据。

  除了我们开发新技术为部署做准备外,我们还利用了我们为使用DALL·E 3的产品构建的现有安全方法,这些方法也适用于Sora

  例如,一旦在OpenAI产品中,我们的文本分类器将检查并拒绝违反我们使用政策的文本输入提示,如那些请求极端暴力、性内容、仇恨图像、名人肖像或他人的知识产权的提示。我们还开发了强大的图像分类器,用于审查生成的每个视频帧,以帮助确保它遵守我们的使用政策,然后才向用户显示。

  我们将与全球的政策制定者、教育工作者和艺术家进行接触,了解他们的担忧,并为这项新技术识别积极的使用案例。尽管进行了广泛的研究和测试,但我们无法预测人们将以所有有益的方式使用我们的技术,也无法预测人们会以所有的方式滥用它。这就是为什么我们相信,从现实世界的使用中学习是随着时间的推移创建和发布越来越安全的AI系统的一个关键组成部分。

三.研究

  Sora是一个扩散模型,通过从看起来像静态噪声的视频开始,逐步通过多个步骤去除噪声来生成视频。

  Sora能够一次性生成整个视频,或者扩展生成的视频使其更长。通过让模型一次预见多个帧,我们解决了确保即使主题暂时离开视线也保持不变的挑战性问题。

  类似于GPT模型,Sora使用了transformer架构,解锁了卓越的扩展性能能。

  我们将视频和图像表示为称为"补丁"的较小数据单位的集合,每个补丁类似于GPT中的一个令牌。通过统一我们表示数据的方式,我们可以在以前不可能的更广泛的视觉数据上训练扩散transformer,涵盖不同的持续时间、分辨率和长宽比。

  Sora基于DALL·E和GPT模型的过去研究。它使用了DALL·E 3的重新标注技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此,模型能够更忠实地遵循用户在生成的视频中的文本指令。

  除了能够仅根据文本指令生成视频外,该模型还能够获取现有的静态图像并从中生成视频,准确地并且注重细节地动画化图像内容。模型还可以取一个现有的视频并扩展它或填充缺失的帧。在我们的技术报告中了解更多信息。

  Sora为能够理解和模拟现实世界的模型奠定了基础,我们认为这将是实现AGI的一个重要里程碑。

参考文献

[1] https://openai.com/sora


http://www.niftyadmin.cn/n/5379652.html

相关文章

C#根据权重抽取随机数

(游戏中一个很常见的简单功能,比如抽卡抽奖抽道具,或者一个怪物有多种攻击动作,按不同的权重随机出个攻击动作等等……) 假如有三种物品 A、B、C,对应的权重分别是A(50)&#xff0c…

OpenAI 发布文生视频大模型 Sora,AI 视频要变天了,视频创作重新洗牌!AGI 还远吗?

一、一觉醒来,AI 视频已变天 早上一觉醒来,群里和朋友圈又被刷屏了。 今年开年 AI 界最大的震撼事件:OpenAI 发布了他们的文生视频大模型 Sora。 OpenAI 文生视频大模型 Sora 的横空出世,预示着 AI 视频要变天了,视…

【nginx实践连载-1】安装部署配置初始化

要在Ubuntu上安装、部署和配置Nginx,可以按照以下步骤进行操作: 步骤1:安装Nginx 打开终端(Terminal)。运行以下命令更新软件包索引:sudo apt update安装Nginx:sudo apt install nginx步骤2&a…

Bug分级处理指南:优先级与严重性的平衡

前言 大家好,我是chowley,今天来聊一聊Bug的等级划分。 在软件开发中,处理 Bug 是一个必不可少的环节。但并非所有 Bug 都是同等重要的,有些 Bug 的影响可能会比其他的更加严重,因此需要根据 Bug 的严重性和优先级来…

模型 IPO(输入、处理、输出)学习模型

系列文章 分享 模型,了解更多👉 模型_总纲目录。重在提升认知。信息转化与传递。 1 模型 IPO(输入、处理、输出)学习模型的应用 1.1 项目管理知识体系 PMBOK 中的IPO应用 在项目管理领域,PMBOK(Project Management Body of Know…

云计算基础-备份和容灾

什么是备份?什么是容灾? 备份: 备份是容灾的基础,通常指在数据中新内,将全部或部分数据集合从应用主机的硬盘或阵列复制到其他存储介质的过程。备份的本质就是存储数据的“复制”,目的是以外发生后的数据…

anomalib1.0学习纪实-续1:增加新算法

0、基本信息 现在我要增加一个新算法:DDAD 他的代码,可以在github中找到:GitHub - arimousa/DDAD 一、基础操作: 1、修改anomalib\src\anomalib\models\__init__.py 我增加的第33行和61行, 2、 增加ddad文件夹和文…

Redis篇----第三篇

系列文章目录 文章目录 系列文章目录前言一、缓存雪崩**二、缓存穿透三、缓存预热四、缓存更新五、缓存降级 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女…