Bytedance揭秘OpenAI大模型: GPT-3到GPT-4进化路径

news/2024/5/20 7:21:55 标签: gpt-3, 人工智能, gpt-4, openai

文章目录

  • 探秘GPT-3到GPT-4进化之路
    • 1、SFT:早期GPT进化的推动者
    • 2、RLHF和SFT:编码能力提升的功臣
    • 3、代码加入预训练,对推理帮助最大
    • 4、“跷跷板”现象
  • 论文地址
  • 项目链接
  • Reference

GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond

在这里插入图片描述

在这里插入图片描述

探秘GPT-3到GPT-4进化之路

1、SFT:早期GPT进化的推动者

SFT只在较弱的基础模型上管用,用在更强的模型上收效甚微。类似现象在开源模型身上也可见(这个评测还测了Llama1和2、PaLM2-L、Claude 2等模型):

在初代Llama-65B之上,SFT成功提升了它在MMLU基准上的性能,但是,所有使用了SFT改进的Llama2-70B在Open LLM Leaderboard榜单上却只表现出微小的进步。

总结:在GPT3阶段,SFT技术对模型的进化起到了关键作用。

2、RLHF和SFT:编码能力提升的功臣

顺着GPT3.5系列接着看,从text-davinci-002开始,OpenAI开始引入新技术基于PPO算法的RLHF,得到text-davinci-003。

此时,它在大部分基准上的表现和前代模型持平或略变差,说明作用不是特别明显(在开源模型身上也是如此)。

但有一个除外:编码任务,最高足足增加了近30分。

LLM仍可以通过SFT和RLHF,不断将内在能力(但需要多次尝试)转化成一次性解决问题的能力,不断逼近LLM的能力上限。

3、代码加入预训练,对推理帮助最大

在GPT4进化之路上,还出现了2个特别的模型:

code-cushman-001 (Codex-12B)code-davinci-002

前者是OpenAI初次尝试使用代码数据训练模型,尽管它的规模较小,但也取得了不错的代码能力。后者是GPT3.5的基座模型,它是在GPT3的基础上使用RLHF+代码训练的结果,也就是文本和代码混合预训练。

可以看到,它大幅超越GPT-3(不止是编码能力)、在一些推理任务上(如BBH)表现甚至可以超过后面的gpt-3.5-turbo-0613。

4、“跷跷板”现象

通过比较2023年3月和2023年6月的OpenAI API模型,我们确实可以发现这一现象:

gpt-3.5-turbo-0301相比,升级后的gpt-3.5-turbo-0613在HumanEval上表现出色(53.9 -> 80.0),但在MATH上却大幅下降(32.0 -> 15.0)。

gpt-4-0613在DROP上的表现优于gpt-4-0314 (78.7 -> 87.2) ,但在MGSM上也出现了直线下降(82.2 -> 68.7) 。

作者认为:

“跷跷板现象”可能成为LLM通往AGI之路的绊脚石,因为AGI强调“通用智能”,要在所有task上都有优异的性能,要求模型不能“偏科”。在此,他们也呼吁社区重视这个问题,共同推进大模型平衡发展的研究。

论文地址

https://arxiv.org/abs/2309.16583

项目链接

https://github.com/GPT-Fathom/GPT-Fathom

Reference

https://mp.weixin.qq.com/s/-AWkDzAzoyQNmgYXuC6B4w


http://www.niftyadmin.cn/n/5151530.html

相关文章

基于 NGram 分词,优化 Es 搜索逻辑,并深入理解了 matchPhraseQuery 与 termQuery

基于 NGram 分词,优化 Es 搜索逻辑,并深入理解了 matchPhraseQuery 与 termQuery 前言问题描述排查索引库分词(发现问题)如何去解决这个问题?IK 分词器NGram 分词器使用替换 NGram 分词器后进行测试matchPhraseQuery 查…

消息投递:如何保证消息不丢失?

目录 前言 一、消息为什么会丢失? 二、在消息生产的过程中丢失消息 三、在消息队列中丢失消息 四、在消费的过程中存在消息丢失的可能 前言 在电商系统中,我们经常有这样的场景,在用户下单购买完商品后,需要给用户发送红包来…

VulnHub DC-4

一、信息收集 1.nmap扫描 ┌──(root💀kali)-[~/routing] └─# nmap -sS -A 192.168.103.194/24发现开放了22、80端口 ┌──(root💀kali)-[~/routing] └─# nmap --scriptvuln -p22,80 192.168.103.194--scriptvuln 是nmap中script模块&#xff0…

多个PDF发票合并实现一张A4纸打印2张电子/数电发票功能

python教程79--A4纸增值税电子发票合并打印_python 打印 发票设置_颐街的博客-CSDN博客文章浏览阅读7.9k次。接上篇https://blog.csdn.net/itmsn/article/details/121902974?spm1001.2014.3001.5501一张A4纸上下2张增值税电子发票实现办法。使用环境:python3.8、ma…

速学数据结构 | 链表实现队列究竟有什么优势?

🎬 鸽芷咕:个人主页 🔥 个人专栏:《速学数据结构》 《C语言进阶篇》 ⛺️生活的理想,就是为了理想的生活! 📋 前言 🌈hello! 各位宝子们大家好啊,栈区的实现我们前面已经讲了&#…

用wordpress搭建网站的10大优点

使用WordPress建立网站的优点有很多,以下列举出10个主要的优点,以及相应的详细解释和示例。 易于使用和设置 WordPress是一个非常用户友好的平台,使得即使是非技术用户也能轻松建立和管理一个网站。它提供了直观的界面和丰富的插件与主题选…

SpringBoot + Vue2项目打包部署到服务器后,使用Nginx配置SSL证书,配置访问HTTP协议转HTTPS协议

配置nginx.conf文件,这个文件一般在/etc/nginx/...中,由于每个人的体质不一样,也有可能在别的路径里,自己找找... # 配置工作进程的最大连接数 events {worker_connections 1024; }# 配置HTTP服务 http {# 导入mime.types配置文件…

广告引擎检索技术快速学习

目录 一、广告系统与广告引擎介绍 (一)广告系统与广告粗分 (二)广告引擎在广告系统中的重要性分析 二、广告引擎整体架构和工作过程 (一)一般概述 (二)核心功能架构图 三、标…