
Llama 3.2系列多语言大语言模型(LLMs)是一系列预训练和指令微调的生成模型,分别为1B和3B参数量(仅文本输入/输出)。Llama 3.2指令微调的文本模型经过优化,专门用于多语言对话应用场景,包括代理检索和摘要任务。在许多常见的行业基准测试中,它们超过了许多现有的开源和闭源聊天模型。
模型开发者: Meta
模型架构: Llama 3.2 是一种自回归语言模型,使用了优化的变换器架构。微调版本通过监督微调(SFT)和强化学习与人类反馈(RLHF)对模型进行调整,以符合人类对有用性和安全性的偏好。
训练数据 | 参数 | 输入模态 | 输出模态 | 上下文长度 | GQA | 共享嵌入 | 令牌计数 | 知识截止时间 | |
---|---|---|---|---|---|---|---|---|---|
Llama 3.2 (仅文本) | 新混合的公开在线数据 | 1B (1.23B) | 多语言文本 | 多语言文本和代码 | 128k | 是 | 是 | 高达 9T tokens | 2023年12月 |
3B (3.21B) | 多语言文本 | 多语言文本和代码 | |||||||
Llama 3.2 量化版 (仅文本) | 新混合的公开在线数据 | 1B (1.23B) | 多语言文本 | 多语言文本和代码 | 8k | 是 | 是 | 高达 9T tokens | 2023年12月 |
3B (3.21B) | 多语言文本 | 多语言文本和代码 |
支持的语言: 官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2 已经在比这8种语言更广泛的语言集合上进行了训练。开发人员可以在遵守 Llama 3.2 社区许可协议和可接受使用政策的前提下,为这些支持语言之外的其他语言微调 Llama 3.2 模型。开发人员应确保他们的部署,包括涉及其他语言的部署,是安全且负责任的。
Llama 3.2 模型系列: 令牌计数仅指预训练数据。所有模型版本均使用了分组查询注意力(GQA),以提高推理的可扩展性。
模型发布日期: 2024年9月25日
状态: 这是一个静态模型,基于离线数据集进行训练。未来可能会发布改进模型能力和安全性的版本。
许可证: Llama 3.2 的使用受到 Llama 3.2 社区许可证(自定义商业许可协议)的管辖。
反馈: 如何提供反馈或对模型提出评论的说明,请参见 Llama 模型 README。有关生成参数的更多技术信息和如何在应用程序中使用 Llama 3.2 的配方,请访问 这里。
注意:此表格显示的是源模型的评估,而非量化模型的评估。源模型评估来自于 Meta-Llama-3.2-1B-Instruct 评估结果
Capability | Benchmark | # Shots | Metric | Llama 3.2 1B bf16 | Llama 3.2 1B Vanilla PTQ** | Llama 3.2 1B Spin Quant | Llama 3.2 1B QLoRA | Llama 3.2 3B bf16 | Llama 3.2 3B Vanilla PTQ** | Llama 3.2 3B Spin Quant | Llama 3.2 3B QLoRA | Llama 3.1 8B | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
General | MMLU | 5 | macro_avg/acc | 49.3 | 43.3 | 47.3 | 49.0 | 63.4 | 60.5 | 62 | 62.4 | 69.4 | |
Re-writing | Open-rewrite eval | 0 | micro_avg/rougeL | 41.6 | 39.2 | 40.9 | 41.2 | 40.1 | 40.3 | 40.8 | 40.7 | 40.9 | |
Summarization | TLDR9+ (test) | 1 | rougeL | 16.8 | 14.9 | 16.7 | 16.8 | 19.0 | 19.1 | 19.2 | 19.1 | 17.2 | |
Instruction following | IFEval | 0 | Avg(Prompt/Instruction acc Loose/Strict) | 59.5 | 51.5 | 58.4 | 55.6 | 77.4 | 73.9 | 73.5 | 75.9 | 80.4 | |
Math | GSM8K (CoT) | 8 | em_maj1@1 | 44.4 | 33.1 | 40.6 | 46.5 | 77.7 | 72.9 | 75.7 | 77.9 | 84.5 | |
MATH (CoT) | 0 | final_em | 30.6 | 20.5 | 25.3 | 31.0 | 48.0 | 44.2 | 45.3 | 49.2 | 51.9 | ||
Reasoning | ARC-C | 0 | acc | 59.4 | 54.3 | 57 | 60.7 | 78.6 | 75.6 | 77.6 | 77.6 | 83.4 | |
GPQA | 0 | acc | 27.2 | 25.9 | 26.3 | 25.9 | 32.8 | 32.8 | 31.7 | 33.9 | 32.8 | ||
Hellaswag | 0 | acc | 41.2 | 38.1 | 41.3 | 41.5 | 69.8 | 66.3 | 68 | 66.3 | 78.7 | ||
Tool Use | BFCL V2 | 0 | acc | 25.7 | 14.3 | 15.9 | 23.7 | 67.0 | 53.4 | 60.1 | 63.5 | 67.1 | |
Nexus | 0 | macro_avg/acc | 13.5 | 5.2 | 9.6 | 12.5 | 34.3 | 32.4 | 31.5 | 30.1 | 38.5 | ||
Long Context | InfiniteBench/En.QA | 0 | longbook_qa/f1 | 20.3 | N/A | N/A | N/A | 19.8 | N/A | N/A | N/A | 27.3 | |
InfiniteBench/En.MC | 0 | longbook_choice/acc | 38.0 | N/A | N/A | N/A | 63.3 | N/A | N/A | N/A | 72.2 | ||
NIH/Multi-needle | 0 | recall | 75.0 | N/A | N/A | N/A | 84.7 | N/A | N/A | N/A | 98.8 | ||
Multilingual | MGSM (CoT) | 0 | em | 24.5 | 13.7 | 18.2 | 24.4 | 58.2 | 48.9 | 54.3 | 56.8 | 68.9 |
待发布