马斯克的大模型 Grok-1 直接开源了sayai

马斯克的大模型 Grok-1 开源了，这是一款拥有3140亿参数的先进混合专家模型，截止目前参数量最大的开源大语言模型。这个版本包含了Grok-1在2023年10月完成预训练阶段时的基础模型数据。这意味着模型尚未经过针对特定应用（如对话系统）的微调。根据Apache

2.0许可协议，向公众开放模型的权重和架构。

模型详细信息

该基础模型通过大量文本数据训练而成，未专门针对任何具体任务进行优化。
3140亿参数构成的混合专家模型，其中25%的参数能够针对特定的数据单元（Token）激活。
xAI团队利用定制的训练技术栈，在JAX和Rust的基础上，从零开始构建了此模型，完成时间为2023年10月。
模型参数数量高达3140亿
混合专家模型(Mixture of Experts, MoE)
每一个数据单元(Token)由2位专家处理
共64个处理层
用于处理查询的有48个注意力机制单元(attention heads)
用于处理键(key)/值(value)的有8个注意力机制单元
嵌入向量(embeddings)的维度为6,144
采用旋转式嵌入表示(Rotary Position Embeddings, RoPE)
使用SentencePiece分词系统处理，包含131,072种数据单元
支持激活数据分布计算(activation sharding)和8位数字精度量化(8-bit quantization)
最大序列长度为8,192个数据单元，以处理更长的上下文信息

https://x.ai/blog/grok-os
https://github.com/xai-org/grok-1/tree/main

马斯克的大模型 Grok-1 直接开源了