Sora：将文本转化为视频的创新之旅

一.能力

我们正致力于让 AI 掌握理解和模拟物理世界动态的能力，旨在培养能够协助人们解决现实世界互动问题的模型。

介绍 Sora——我们开发的文本到视频转换模型。Sora 能够根据用户的输入提示，生成最长达一分钟的高质量视频内容。

目前，Sora 正在被红队人员用于评估可能存在的风险和潜在危害。同时，我们也邀请了视觉艺术家、设计师和电影制作人等创意行业的专业人士，通过他们的反馈来进一步完善模型，使其更好地服务于创意产业。

通过提前公开我们的研究进展，我们希望能够与社会各界人士建立合作，收集外部反馈，同时让公众对 AI 技术的未来方向有一个直观的了解。

Sora 能够创建包含多个角色、特定运动类型和详细精确的主题及背景的复杂场景。它不仅能理解用户的文字提示，还能准确捕捉这些元素在现实世界中的表现。

得益于对语言的深入理解，Sora 能够精确解读用户的指令，生成展现丰富情绪的生动角色，并在一个视频中呈现出连贯的视觉风格和角色持续性。

然而，Sora 目前还存在一些局限。比如，在模拟复杂场景的物理动态时可能会遇到难题，或在理解特定因果关系时显得不足。举个例子，视频中的人物可能会咬下饼干一角，但视频中的饼干可能并未显示出相应的咬痕。

此外，Sora 在处理空间细节时也可能出现混淆，如左右方向的错误识别，或在描述一系列随时间展开的事件时，如追踪特定的摄影机动作轨迹时，可能不够精确。

二.安全

在将Sora纳入OpenAI产品之前，我们将采取几个重要的安全措施。我们正在与红队成员合作——在错误信息、仇恨内容和偏见等领域的领域专家——他们将对模型进行敌对测试。

我们还在开发工具来帮助检测误导性内容，比如一个检测分类器，能够识别出视频是由Sora生成的。如果我们在OpenAI产品中部署该模型，我们计划将来包括C2PA元数据。

除了我们开发新技术为部署做准备外，我们还利用了我们为使用DALL·E 3的产品构建的现有安全方法，这些方法也适用于Sora。

例如，一旦在OpenAI产品中，我们的文本分类器将检查并拒绝违反我们使用政策的文本输入提示，如那些请求极端暴力、性内容、仇恨图像、名人肖像或他人的知识产权的提示。我们还开发了强大的图像分类器，用于审查生成的每个视频帧，以帮助确保它遵守我们的使用政策，然后才向用户显示。

我们将与全球的政策制定者、教育工作者和艺术家进行接触，了解他们的担忧，并为这项新技术识别积极的使用案例。尽管进行了广泛的研究和测试，但我们无法预测人们将以所有有益的方式使用我们的技术，也无法预测人们会以所有的方式滥用它。这就是为什么我们相信，从现实世界的使用中学习是随着时间的推移创建和发布越来越安全的AI系统的一个关键组成部分。