ChatGPT底层架构Transformer技术及源码实现(三)

news/2024/5/19 19:54:47 标签: transformer, ChatGPT国内, OpenAI

ChatGPT底层架构Transformer技术及源码实现(三)

贝叶斯Bayesian Transformer数学推导论证过程全生命周期详解及底层神经网络物理机制剖析

Gavin大咖微信:NLP_Matrix_Space

从数学的角度来讲,线性转换
在这里插入图片描述

其中函数g联合了所有头的操作结果,每个头的产生是采用一个f_att的函数,x是输入的数据,θ_i是第i个头(Head)的模型参数,如果有8个头就有8个θ_i,理论上讲它们是不一样的,而且我们期待它不一样。在式(3-17)中,x是数据,θ_i是参数,用数据更新模型,其实是后验概率MAP的过程,回到贝叶斯公式本身
在这里插入图片描述

对于多头注意力机制而言,数据是同样的数据,用这一个数据来更新不同的头和不同的模型,如图3-30所示,下标从0到7一共8个头,包括8个θ_i的内容(θ_0~θ_7),分子是P(D|θ)P(θ),分母P(D) 是所有模型的表现方式,这是Bayesian的精华。
在这里插入图片描述

图3- 30 8个注意力头


http://www.niftyadmin.cn/n/462428.html

相关文章

校园视频AI分析预警系统 TesnorFlow

校园视频AI分析预警系统通过分布式TensorFlow模型训练,校园视频AI分析预警系统对学生的行为进行实时监测,当系统检测到学生出现打架、翻墙、倒地、抽烟等异常行为时,校园视频AI分析预警系统将自动发出警报提示相关人员及时采取措施。深度学习…

ADC0808/ADC0809引脚图及功能和工作原理介绍

ADC0808芯片有28条引脚,采用双列直插式封装。如图所示: . . . 各引脚功能如下: 1-5和26-28(IN0-IN7):8路模拟量输入端。 8、14、15和17-21:8位数字量输出端。 22(ALE&#xff09…

【mysql】1731. 每位经理的下属员工数量

题目: Table: Employees --------------------- | Column Name | Type | --------------------- | employee_id | int | | name | varchar | | reports_to | int | | age | int | --------------------- employee_id 是这个表的主键. 该表包含员工以及需要听取他们…

HDFS写流程源码分析(一)-客户端

HDFS 写流程源码分析 一、客户端(一)文件创建及Pipeline构建阶段(二)数据写入(三)输出流关闭 二、NameNode端(一)create(二)addBlock 环境为hadoop 3.1.3 一、…

【Docker】Docker常用命令总结

文章目录 一、帮助命令二、镜像命令三、容器命令四、常用的其他命令 在开发过程中,经常涉及到 docker 的相关操作,本文对常用的指令进行汇总。 一、帮助命令 docker version # 显示docker版本信息 docker info # 显示docker系统信息&#xff…

JavaScript 手写代码 第四期

文章目录 1. 为什么要手写代码?2. 手写实现2.1 数组扁平化2.1.1 递归实现数组扁平化2.1.2 利用扩展运算符和数组方法some2.1.3 利用reduce方法进行迭代2.1.4 利用toString方法将数组扁平化2.1.5 可以直接使用 ES6 新增的 flat 方法2.1.6 JSON.Stringify实现和正则表…

【设计模式习题】答案和习题

一. 简答题(共1题,5分) 1. (简答题, 5分) 在某绘图软件中提供了多种大小不同的画笔(Pen),并且可以给画笔制定不同的颜色,模设计人员针对画笔的结构设计了如图1-1所示的初始类图。 通过仔细分析&…

akima 插值拟合算法 Python/C++/C版本

目录 前言Akima简介Akima优势 算法的代码实现python版C 版代码解析1代码解析2代码解析3 C版 实验对比 前言 鉴于“长沙等你”网站上Akima算法文章大部分要VIP观看或者下载,即使是付费也有质量不佳,浪费Money也浪费时间。 笔者根据查到的资料分享给大家。…