Re45:读论文 GPT-1 Improving Language Understanding by Generative Pre-Training

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文全名:Improving Language Understanding by Generative Pre-Training
论文下载地址:https://www.mikecaptain.com/resources/pdf/GPT-1.pdf

本文是2018年OpenAI的工作,是初代GPT的原始论文。

先用无监督数据预训练语言模型(Transformer decoder),再在有监督数据上微调(加一层prediction head,同时优化语言模型和有监督任务的损失函数)
在这里插入图片描述

文章目录

  • 1. 简介
  • 2. GPT-1
    • 1. 无监督预训练语言模型
    • 2. 微调
  • 3. 实验
    • 1. 数据集
    • 2. 下游任务指标
    • 3. 模型分析

1. 简介

NLU任务包括textual entailment, question answering, semantic similarity assessment, and document classification等子任务,本文测试了NLI、QA、语义相似度和文本分类4个任务。
有监督数据稀少,本文的解决方案是在语言模型上用海量无标签数据上进行generative pre-training,然后再在特定子任务上discriminative fine-tuning。
(算半监督学习)

普遍的使用无监督方法来学习语言学知识的方法,是构建预训练词嵌入来提升NLP任务的效果,这种做法有两个问题:1. 在学习文本表征中使用什么优化目标对迁移最有效,不知道。至今没有绝对优秀的方法。2. 如何利用文本表征最有效,不知道。

2. GPT-1

1. 无监督预训练语言模型

标准语言模型目标,最大化文本的似然:
在这里插入图片描述

k k k是上下文窗口尺寸,条件概率 P P P,神经网络的参数 Θ \Theta Θ

本文用多层Transofmer decoder1(多头自注意力机制+position-wise前馈神经网络生成target token上的输出分布):
在这里插入图片描述
U U U是token, n n n是层数, W e W_e We是token嵌入矩阵, W p W_p Wp是position embedding矩阵

Transformer相比LSTM的优势体验在对长文本的处理上

2. 微调

通过输入(每个任务被转变成不同形式的输入,见figure 1)得到表征,喂进线性输出层来预测 y y y
在这里插入图片描述

新的优化目标:
在这里插入图片描述

事实上是将两个优化目标加起来:
在这里插入图片描述

3. 实验

1. 数据集

  1. 上游预训练数据:BooksCorpus和1B Word Benchmark
  2. 下游微调数据
    在这里插入图片描述

2. 下游任务指标

  1. NLI任务的实验结果在这里插入图片描述
  2. QA和常识推理的实验结果在这里插入图片描述
  3. 语义相似度和文本分类的实验结果在这里插入图片描述

3. 模型分析

  1. 层数对微调结果的影响(答案是越多越好)和预训练更新次数对zero-shot表现的影响在这里插入图片描述
    (数值是经规范化后得到的)
  2. ablation study
    在这里插入图片描述

  1. Generating Wikipedia by Summarizing Long Sequences ↩︎


http://www.niftyadmin.cn/n/4999770.html

相关文章

TFTP服务器,NFS服务器

一,安装tftp服务器 1,什么是tftp服务器? tftp服务器是通过网络,将ubuntu程序下载到开发板中 2,安装步骤 1,保证连接外网成功 2,安装tftp服务器 sudo apt-get install tftp-hpa tftpd-hpat…

智慧导览|智能导游系统|AR景区导览系统|景区电子导览

随着文旅市场的加快复苏,以及元宇宙、VR、AR、虚拟数字人等新兴技术的快速发展,文旅行业也正在加快数字化转型的步伐,向智慧景区建设迈进。为满足不同年龄段游客的游览需要,提升旅游服务体验,越来越多的旅游景区、博物…

景区洗手间生活污水处理设备厂家电话

诸城市鑫淼环保小编带大家了解一下景区洗手间生活污水处理设备厂家电话 MBR生活污水处理设备构造介绍: mbr一体化污水处理的设计主要是对生活污水和相类似的工业有机污水的处理,其主要处理手段是采用目前较为成熟的生化处理技术接触氧化法,水…

cocosCreator2.4.x 打包 ios ,xcode问题记录

Q:Uncaught ReferenceError: CC_PHYSICS_BUILTIN is not defined A:先clean build folder....,然后重新build Q:xcode 使用模拟器预览 报错 In /Library/Developer/Xcode/DerivedData/hello_world-djnvsdcqyfoqvdepilidvunfunto…

界面控件DevExpress .NET应用安全 Web API v23.1亮点:支持Swagger模式

DevExpress拥有.NET开发需要的所有平台控件,包含600多个UI控件、报表平台、DevExpress Dashboard eXpressApp 框架、适用于 Visual Studio的CodeRush等一系列辅助工具。 DevExpress 今年第一个重要版本v23.1日前已正式发布了,该版本拥有众多新产品和数十…

RHCA之路---EX280(2)

RHCA之路—EX280(2) 1. 题目 Associate the share named /exports/registry to the built-in registry running within your OpenShift Enterprise instance so that it will be used for permanent storage Use exam-registry-volume for the volume name and exam-registry-…

spring service事务传播

spring定义的事务行为有以下几种: REQUIRED--支持当前事务,如果当前没有事务,就新建一个事务。这是最常见的选择。 SUPPORTS--支持当前事务,如果当前没有事务,就以非事务方式执行。 MANDATORY--支持当前事务&#xff…

AJAX学习笔记4解决乱码问题

AJAX学习笔记3练习_biubiubiu0706的博客-CSDN博客 在Tomcat10来说,AJAX GET或者POST接收响应都不存在乱码问题 对于Tomcat9来说 前端测试代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>测试A…