DALLE 3技术分析 - 训练方式/模型结构

news/2024/5/20 10:28:08 标签: 人工智能, OPENAI, ChatGPT, DALL·E 2, DEALL·3

DALLE 3技术分析 - 训练方式/模型结构

1. 引言:

从 DALLE 3 开发者技术轨迹中,以及模型的演示视频,我们可以推导 DALLE 3 模型的某些架构信息。

2. DALLE 2 的评价:

DALLE 2 的性能不佳,主要归因于 CLIP 模型的限制。

CLIP 在为后续的 diffusion model 提供充足内容和详细特征上遇到了困难。

在生成详细图像方面,该模型遇到了显著的挑战。

3. GPT 模型的作用:

之前的实验使用 GPT 2 作为音频/视觉媒体的核心处理系统,任务是解释人类的文本输入并将其转化为 diffusion model 的视觉表示。

该基于 GPT 2 模型的性能超越了其众多同时代的模型,使得这种策略看起来是可行的。

对于 DALLE 3,作为自回归核心的 GPT 模型的确切版本,是 GPT 3 还是 GPT 4,尚未确定。但为了此次分析,我们假设使用了 GPT 4。

4. GPT 4 的图像解读:

几个月前,GPT 4 的图像解读能力已经显著提高,但 OpenAI 并未公之于众。

从商业角度来看,OpenAI 可能没有足够的计算资源进行图像解释。这引起了一个问题:计算能力被引导到哪里?

随着 DALLE 3 的发布,我们猜测 GPT 4 的图像能力被用于生成适合 DALLE 3 的训练数据。

GPT 4 的图像模型的架构可能采用与 BLIP2/mini GPT 4 相似的方法。这可能包括一个额外的视觉编码器(VIT)和几个转换层(例如 Qformer)来将图像转换为模型可以理解的格式。

预计 OpenAI 的 visual encoder/decoder 是自行训练的,可能导致更好的结果。

5. GPT 4 图像发布延迟的可能原因:

GPT 4 图像版本发布之久的可能原因:服务器被用于生产 image-text pair 数据集。

有了充足的数据,自然就为 DALLE 3 的创造铺平了道路。

6. DALLE 3 的假设结构和训练:

OpenAI 首先训练了一个高效的 visual encoder/decoder。

之后,他们可能采用与 miniGPT 4 类似的方法来训练 GPT 4 进行图像处理。

拥有了图像能力的 GPT 4 之后,可以生成一个全面的 image-text pair 数据集。这也可能是图像(image tokens)到文本(text tokens)的格式。

text tokens 到 image tokens 的配对可能被用于培养 DALLE 的主要部分,我们暂时称之为“GPT 4 image creator”。

接下来的步骤可能涉及将 image tokens 转换回图像。目前,diffusion model 在此任务上表现出色,甚至超过了原生 decoder。

我们猜测使用了一个 diffusion decoder 进行图像生成。

7. 最后的话:

此分析避免深入到模型的复杂细节,例如模型之间是否有潜在的 residual 结构,或 text tokens 是否与 image tokens 同时输入到 diffusion model 中。确定这些细节需要实际的实验操作。另外由于已经写的太长了,其中部分基于视频内容的推理暂时没有解释。

参考文献:
AI绘画软件DALL-E3上线,功能强大且免费使用


http://www.niftyadmin.cn/n/5150208.html

相关文章

如何用matlab导入excel数据

在MATLAB中,可以使用readtable函数导入Excel数据。以下是一个简单的示例: 首先,确保已经安装了Microsoft Excel,并在MATLAB中添加了Excel的路径。可以通过以下命令查看已安装的路径: excel_path which(excel); 然后…

redis-plus-plus访问REDIS集群

编程语言:C 开源库:redis-plus-plus 接口类:RedisCluster 初始化需要输入任意一个结点的IP和端口,如果设置了密码,还需要密码的明文并使用ConnectionOptions类。 初始化完成后可以直接进行读/写操作。 RedisClust…

第7章_单行函数

文章目录 1 函数的理解1.1 什么是函数1.2 不同DBMS函数的差异 2 数值函数2.1 基本函数2.2 角度与弧度2.3 三角函数2.4 指数函数、对数函数2.5 进制间的转换 3 字符串函数4 日期和时间函数4.1 获取日期、时间4.2 日期与时间戳的转换4.3 获取月份、星期、星期数、天数4.4 日期的操…

自动驾驶算法(五):Informed RRT*算法讲解与代码实现(基于采样的路径规划) 与比较

目录 1 RRT*与Informed RRT* 2 Informed RRT*代码解析 3 完整代码 4 算法比较 1 RRT*与Informed RRT* 上篇博客我们介绍了RRT*算法:我们在找到一个路径以后我们还会反复的搜索。 Informed RRT*算法提出的动机(motivation)是能否增加渐近最优的速度呢?…

Django使用APSchedule实现简单定时任务

一、环境依赖 系统:windows10 python: python3.9.0 djnago3.2.0 APScheduler3.10.1 二、django中的配置 1、创建utils包,在包里面创建schedulers包 utils/schedulers/task.py #1、设置 Django 环境,就可以导入项目的模型类这些了 imp…

android webview 打开腾讯文档不跳转到申请权限界面显示ERR_UNKNOWN_URL_SCHEME

webview 只识别https和http开头的地址 webview调用setWebViewClient方法,重写shouldOverrideUrlLoading方法,返回return super.shouldOverrideUrlLoading(view, url);就可以跳转到申请权限界面了,要登录QQ去申请权限的时候报错,因…

透射电镜的介绍

透射电镜 透射电镜(TEM),全称透射电子显微镜,用电磁场作透镜,把经加速和聚集的电子束投射到超薄切片的样品上(通常70-90nm),电子与样品中的原子碰撞而改变方向,从而产生立…

UI设计感大型数据管理仪表盘后台模板源码

大型数据管理仪表盘后台模板是一款适合数据统计管理后台网站模板下载。提示:本模板调用到谷歌字体库,可能会出现页面打开比较缓慢。 演示下载 qnziyw点cn/wysc/qdmb/20838点html