马斯克打脸成功!3140亿参数,向OpenAI开炮!地表最强开源大模型:Grok-1

news/2024/5/20 8:39:34 标签: 人工智能, AIGC, chatgpt, openai, Grok, 马斯克, xAI

前言:

         今天凌晨,马斯克xAI的大模型Grok-1的开源版本发布,其拥有314B的参数,以及8个混合专家模型(Mixture-of-Experts,MoE)。遵循Apache 2.0协议开放模型权重和架构,是迄今为止训练参数量最大的开源大语言模型。


我们先来看一个我觉得非常搞笑的事情

一周前,马斯克就在X上发布了一则消息,表示这周xAI会发布开源版本的Grok,然后今天就如期的实现了他的承诺。搞笑的事情来了,人家前脚刚发布了大模型,OpenAI就跑到马斯克地下凑热闹。

然后马斯克就直接阴阳OpenAI说:请你告诉我们关于OpenAI更多可以开放的信息。众所周知,马斯克一直热衷于开源,就连特斯拉的一些关键技术都被他公开了,可见这波马斯克是直接赢麻了。


由于Xai并没有公布任何关于Grok的机演示的视频。所以我们只能够简单的从其官网和GitHub上来了解到它的一些基本讯息。

斯坦福的研究员Andrew Kean Gao,分四个部分来梳理了Grok的架构信息:

Grok-1拥有314B的参数(GPT-3.5的参数为175B),包括8个混合专家的模型,其中有2个是活跃模型,拥有860亿激活参数(比Llama-2 70B还多)使用旋转嵌入,而不是固定位置嵌入。

①分词器词汇大小:131,072(类似于 GPT-4)2^17
②嵌入尺寸:6,144(48*128)

③64层Transformer(Sheesh)每层都有一个解码器层:多头注意块和密集块
④键值大小:128

①多头注意力块:有48个可查询的头与8个 表示键值 (KV),KV大小为128

②Dense 模块(密集前馈模块):
加宽因子: 8
隐藏层大小为32768

③每个token从 8 名专家中选出 2 名。

 

①旋转位置嵌入大小 6144,它与模型的输入嵌入大小相同

②上下文长度:8,192 个token
③精度为:BF16

放上两张Andrew Kean Gao提供的图片

xAI 遵守 Apache 2.0 (可商用,允许用户自由地使用、修改和分发软件)许可证来开源 Grok-1 的权重和架构。


早在2023年11月,xAI就已经推出了Grok-0(当时的训练参数为330亿),其水平基本接近LLaMA 2(70B),经过了几个月的迭代之后,进行了基准测试

在这些基准测试中,Grok-1 表现出色,超过了其计算类中的所有其他模型,包括 ChatGPT-3.5 和 Inflection-1。只有使用 GPT-4 等大量训练数据和计算资源进行训练的模型才能超越它。

在2023年的时候Grok参加了 匈牙利全国高中数学决赛 ,Grok 以 C (59%) 的成绩通过了考试,而 Claude-2 获得了相同的成绩 (55%),GPT-4 以 68% 的成绩获得了 B。所有模型均在相同的提示下进行评估。并且Grok没有为这次评估进行针对性的调整。


具体Grok-1实测能够达到什么样的水平还尚不可知,因为如果我们自己想用的话,可能需要拥有一台搭载628G运存的GPU设备

最后附上一张,截止到文章发布前,Grok在GitHub上的互动数据


http://www.niftyadmin.cn/n/5436147.html

相关文章

免费开源、支持自建服务的团队协作、个人学习文档管理系统

大家好,我是小麦。今天来给大家分享的是几款个人使用过的免费、开源、适合团队协作的文档管理工具,并且是完全支持自己搭建服务的文档管理系统。 相信大家在学习、办公等场景下对文档管理工具使用的场景是比较多的,例如技术开发手册、个人学…

Day43-2-企业级实时复制intofy介绍及实践

Day43-2-企业级实时复制intofy介绍及实践 1. 企业级备份方案介绍1.1 利用定时方式,实现周期备份重要数据信息。1.2 实时数据备份方案1.3 实时复制环境准备1.4 实时复制软件介绍1.5 实时复制inotify机制介绍1.6 项目部署实施1.6.1 部署环境准备1.6.2 检查Linux系统支…

第二证券|跳空大涨,成交超71亿元!电池巨头分红金额创纪录

社保基金持仓股揭秘。 电池巨头回应大手笔分红 周一A股商场开盘飘红,上证指数涨0.49%,深证成指涨0.76%,创业板指涨1.34%。飞翔轿车、轿车拆解和医药医疗等方向领涨,培育钻石、贵金属、煤炭、酿酒等板块下挫。 宁德年代早盘跳空大…

2024智慧农场系统安装教程

在上一篇文章我们介绍了2024智慧农场微信小程序版本的功能以及对应的功能截图 今天我们主要分享一下2024智慧农场拿到源码以后的安装步骤 首先拿到源码以后一共有6个文件 1.uniapp 2.后端代码(pc端后台源码) 3.前端(小程序前端代码&#xf…

【网络安全】 MSF生成木马教程

本文章仅用于信息安全学习,请遵守相关法律法规,严禁用于非法途径。若读者因此作出任何危害网络安全的行为,后果自负,与作者无关。 环境准备: 名称系统位数IP攻击机Kali Linux6410.3.0.231客户端Windows 76410.3.0.234…

avue 框架(原生)点击的时候状态未过,一直处于加载状态如何解决

方法: //关闭avue自带弹框 this.$refs.crud.$refs.dialogForm.closeDialog();//取消加载状态 loading(false); // 设置loading状态为false,表示加载完成

vue3中 给组件命名

方法一&#xff1a;编写一个不写 setup 的 script 标签&#xff0c;来指定组件名字 代码如下&#xff0c; <!-- vue2格式 &#xff08;vue3兼容vue2&#xff09; --> <script lang"ts">export default {name:Person,} </script><!-- 以下是set…

深度学习设计-基于机器学习的心血管疾病分析与预测

概要 在国富民强的今天&#xff0c;医疗卫生事业快速发展&#xff0c;平均人口寿命也逐年上升&#xff0c;随之而来的是人口老龄化问题&#xff0c;而心 血管疾病是近年来发病率极高的老年性疾病。其发病率和死亡率均有所上升&#xff0c;已然成为当今威胁人类健康的重大疾 病之…