Meta-Llama-3.1-8B-Instruct
文字生成
W4A16

Meta-Llama-3.1-8B-Instruct
Meta Llama 3.1系列是一个多语言大规模语言模型(LLM)集合,包含了8B、70B和405B尺寸的预训练和指令调优生成模型(文本输入/文本输出)。Llama 3.1指令调优的文本模型(8B、70B、405B)针对多语言对话场景进行了优化,在常见的行业基准测试中超过了许多现有的开源和闭源聊天模型。
模型开发者:Meta
性能参考
设备
AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小
模型详情
模型架构: Llama 3.1是一个自回归语言模型,使用了优化的Transformer架构。调优版本使用了有监督的微调(SFT)和基于人类反馈的强化学习(RLHF),以与人类在有用性和安全性方面的偏好对齐。
训练数据 | 参数量 | 输入模式 | 输出模式 | 上下文长度 | GQA | Token数 | 知识截止时间 | |
Llama 3.1 (仅文本) | 一种新的公开可用的在线数据混合。 | 8B | 多语言文本 | 多语言文本和代码 | 128k | 是 | 15T+ | 2023年12月 |
70B | 多语言文本 | 多语言文本和代码 | 128k | 是 | ||||
405B | 多语言文本 | 多语言文本和代码 | 128k | 是 |
支持的语言: 英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
Llama 3.1模型系列。Token数仅指预训练数据。所有模型版本均使用Grouped-Query Attention(GQA)来提高推理的可扩展性。
模型发布日期: 2024年7月23日。
状态: 这是一个在离线数据集上训练的静态模型。随着我们通过社区反馈改进模型安全性,未来版本的调优模型将会发布。
许可: 提供自定义商业许可,Llama 3.1社区许可,详情请见:https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/LICENSE
关于模型的提问或反馈请发送至 README。有关生成参数和如何在应用中使用Llama 3.1的更多技术信息,请访问 这里。
源模型评估
注意:此表格显示的是源模型的评估,而非量化模型的评估。源模型评估来自于 Meta-Llama-3.1-8B-Instruct 评估结果
Category | Benchmark | # Shots | Metric | Llama 3 8B Instruct | Llama 3.1 8B Instruct | Llama 3 70B Instruct | Llama 3.1 70B Instruct | Llama 3.1 405B Instruct |
General | MMLU | 5 | macro_avg/acc | 68.5 | 69.4 | 82.0 | 83.6 | 87.3 |
MMLU (CoT) | 0 | macro_avg/acc | 65.3 | 73.0 | 80.9 | 86.0 | 88.6 | |
MMLU-Pro (CoT) | 5 | micro_avg/acc_char | 45.5 | 48.3 | 63.4 | 66.4 | 73.3 | |
IFEval | 76.8 | 80.4 | 82.9 | 87.5 | 88.6 | |||
Reasoning | ARC-C | 0 | acc | 82.4 | 83.4 | 94.4 | 94.8 | 96.9 |
GPQA | 0 | em | 34.6 | 30.4 | 39.5 | 41.7 | 50.7 | |
Code | HumanEval | 0 | pass@1 | 60.4 | 72.6 | 81.7 | 80.5 | 89.0 |
MBPP ++ base version | 0 | pass@1 | 70.6 | 72.8 | 82.5 | 86.0 | 88.6 | |
Multipl-E HumanEval | 0 | pass@1 | - | 50.8 | - | 65.5 | 75.2 | |
Multipl-E MBPP | 0 | pass@1 | - | 52.4 | - | 62.0 | 65.7 | |
Math | GSM-8K (CoT) | 8 | em_maj1@1 | 80.6 | 84.5 | 93.0 | 95.1 | 96.8 |
MATH (CoT) | 0 | final_em | 29.1 | 51.9 | 51.0 | 68.0 | 73.8 | |
Tool Use | API-Bank | 0 | acc | 48.3 | 82.6 | 85.1 | 90.0 | 92.0 |
BFCL | 0 | acc | 60.3 | 76.1 | 83.0 | 84.8 | 88.5 | |
Gorilla Benchmark API Bench | 0 | acc | 1.7 | 8.2 | 14.7 | 29.7 | 35.3 | |
Nexus (0-shot) | 0 | macro_avg/acc | 18.1 | 38.5 | 47.8 | 56.7 | 58.7 | |
Multilingual | Multilingual MGSM (CoT) | 0 | em | - | 68.9 | - | 86.9 | 91.6 |
模型推理
用户可以通过以下两种方式实现大模型在高通芯片上的推理运行:
- 通过 APLUX AidGen 推理大模型:请参考 APLUX AidGen 开发者文档
- 通过 QualComm Genie 推理大模型:请参考 Qualcomm Genie 文档
性能参考
设备
AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小