OpenAI 发布文生视频大模型 Sora,AI 视频要变天了,视频创作重新洗牌!AGI 还远吗?

news/2024/5/20 7:17:28 标签: 人工智能, agi, AIGC, AI工具, AI, OpenAI, Sora

AI__0">一、一觉醒来,AI 视频已变天

早上一觉醒来,群里和朋友圈又被刷屏了。

今年开年 AI 界最大的震撼事件:OpenAI 发布了他们的文生视频大模型 Sora

OpenAI 文生视频大模型 Sora 的横空出世,预示着 AI 视频要变天了,视频创作领域要重新洗牌!

啥都不说,先来感受一番:

OpenAI Sora 生成视频

再来看看其他由 Sora 生成的视频:

OpenAI Sora 示例视频 big-sur

你还能辨得出真假吗?

OpenAI Sora 示例视频 Kangroo

更多视频效果,大家可以去 OpenAI 的官网浏览。

传送门:https://openai.com/sora

看了 OpenAI 官网 Sora 做出的视频效果,说 Sora 目前是 AI 视频领域的地表最强」,应该没有人反对吧。

AI_Sora__28">二、OpenAI Sora 有哪些技术突破

一)视频时长的突破

之前更新了一个 AI 视频工具的系列专栏,有的小伙伴私信找我说,为什么推荐的这些 AI 视频工具,都只能生成几秒的视频呀。

确实,在 OpenAISora 横空出世之前,AI 视频工具还没有突破视频时长的限制。基本都只能生成几秒的视频。

如果想通过 AI 视频工具生成视频,来做自媒体或其他用途,需要多次生成,再用一些剪辑、特效工具加工后,才能出片。

Sora 的出现,突破了 AI 视频领域的这一限制,可以直接生成长达一分钟的视频。

提到时长,瞬间觉得 Pika、Runway 等 AI 视频工具不香了。

二)世界模型

除了视频时长有突破外,Sora 模型不仅了解用户在提示词中要求的内容,还了解这些东西「在物理世界中的存在方式」。

之前听过卡兹克大佬一个关于 AI 视频的分享,在分享中,也提到了「物理规律」这个概念。

比如一拳抡到一个怪物的头上,它是有一个物体的交互的,整个视频的呈现,都是要符合物理世界的规律。

但在 Sora 之前的 AI 视频工具中,这块并没有突破。

而这块如果没有突破,AI 生成的视频,是很难应用到影视或者工业这块的。

Sora 的出现,让我们看到了可能性。

比如官网上的这个示例视频,枕头和被子的凹陷,都呈现得非常真实。

OpenAI Sora 官方示例视频 cat-on-bed

Prompt: A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.

提示词:一只猫叫醒熟睡的主人要求吃早餐。主人试图无视猫,但猫尝试了新的策略,最后主人从枕头下掏出一个秘密的零食藏匿处,让猫多呆一会儿。

三)单视频多角度镜头

另外,Sora 还可以在单个生成的视频中创建多个角度的镜头,且「一致性」和「稳定性」强得惊人。

这在之前的 AI 视频工具中,是远远达不到的。

可以看官网的视频示例。

AI_Sora__74">三、OpenAI Sora 目前有哪些缺陷

虽然 OpenAISora 已经在技术上有了很大突破,但依然存在一些缺陷。

比如,它可能难以准确地模拟复杂场景的物理现象,也可能无法理解因果关系的具体实例。

官方也举了一个例子。

比如,一个人可能咬了一口饼干,但是之后,饼干上可能没有咬痕。

除此之外,该模型还可能混淆提示的空间细节。

例如,左右混淆,并且可能难以精确描述随时间推移发生的事件,比如遵循特定的相机轨迹。

AI_Sora__88">四、OpenAI Sora 技术实现

Sora 是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐转换视频。

Sora 能够一次生成整个视频或扩展生成的视频以使其更长。通过让模型一次看到许多帧,解决了一个具有挑战性的问题,即确保一个主题即使暂时离开视野也能保持不变。

与 GPT 模型类似,Sora 使用 transformer 架构,释放出卓越的扩展性能。

将视频和图像表示为称为补丁的较小数据单元的集合,每个补丁都类似于 GPT 中的一个 token。通过统一我们表示数据的方式,我们可以在比以前更广泛的视觉数据上训练扩散变压器,跨越不同的持续时间、分辨率和纵横比。

Sora建立在 DALL·E 和 GPT 模型上。它使用了 DALL·E 3,涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更忠实地遵循生成视频中用户的文本说明。

除了能够仅根据文本说明生成视频外,Sora 模型还能够获取现有的静止图像并从中生成视频,从而准确无误地对图像内容进行动画处理,并注重小细节。

该模型还可以拍摄现有视频并对其进行扩展或填充缺失的帧。

更多技术细节,请参考:

https://openai.com/research/video-generation-models-as-world-simulators

一觉醒来,Sora 已颠覆 AI 视频领域,视频、影视、广告等行业将重新洗牌,AGI 还远吗?


http://www.niftyadmin.cn/n/5379650.html

相关文章

【nginx实践连载-1】安装部署配置初始化

要在Ubuntu上安装、部署和配置Nginx,可以按照以下步骤进行操作: 步骤1:安装Nginx 打开终端(Terminal)。运行以下命令更新软件包索引:sudo apt update安装Nginx:sudo apt install nginx步骤2&a…

Bug分级处理指南:优先级与严重性的平衡

前言 大家好,我是chowley,今天来聊一聊Bug的等级划分。 在软件开发中,处理 Bug 是一个必不可少的环节。但并非所有 Bug 都是同等重要的,有些 Bug 的影响可能会比其他的更加严重,因此需要根据 Bug 的严重性和优先级来…

模型 IPO(输入、处理、输出)学习模型

系列文章 分享 模型,了解更多👉 模型_总纲目录。重在提升认知。信息转化与传递。 1 模型 IPO(输入、处理、输出)学习模型的应用 1.1 项目管理知识体系 PMBOK 中的IPO应用 在项目管理领域,PMBOK(Project Management Body of Know…

云计算基础-备份和容灾

什么是备份?什么是容灾? 备份: 备份是容灾的基础,通常指在数据中新内,将全部或部分数据集合从应用主机的硬盘或阵列复制到其他存储介质的过程。备份的本质就是存储数据的“复制”,目的是以外发生后的数据…

anomalib1.0学习纪实-续1:增加新算法

0、基本信息 现在我要增加一个新算法:DDAD 他的代码,可以在github中找到:GitHub - arimousa/DDAD 一、基础操作: 1、修改anomalib\src\anomalib\models\__init__.py 我增加的第33行和61行, 2、 增加ddad文件夹和文…

Redis篇----第三篇

系列文章目录 文章目录 系列文章目录前言一、缓存雪崩**二、缓存穿透三、缓存预热四、缓存更新五、缓存降级 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女…

Spring 用法学习总结(四)之 JdbcTemplate 连接数据库

🐉目录 9 JdbcTemplate 9 JdbcTemplate Spring 框架对 JDBC 进行了封装,使用 JdbcTemplate 方便实现对数据库操作 相关包: 百度网盘链接https://pan.baidu.com/s/1Gw1l6VKc-p4gdqDyD626cg?pwd6666 创建properties配置文件 💥注意…

机器学习入门--LSTM原理与实践

LSTM模型 长短期记忆网络(Long Short-Term Memory,LSTM)是一种常用的循环神经网络(RNN)变体,特别擅长处理长序列数据和捕捉长期依赖关系。本文将介绍LSTM模型的数学原理、代码实现和实验结果,并…