
Llama 2 是一系列预训练和微调过的生成式文本模型,规模从 70 亿到 700 亿个参数不等。
注意:使用此模型受Meta许可证的约束。为了下载模型权重和分词器,请访问官网,并在此申请访问之前接受我们的许可证。
Meta开发并公开发布了Llama 2系列大型语言模型(LLMs),这是一个由预训练和微调过的生成式文本模型组成的集合,规模从70亿到700亿个参数不等。我们的微调LLM,名为Llama-2-Chat,针对对话应用进行了优化。Llama-2-Chat模型在我们测试的大多数基准测试中超过了开源聊天模型,并且在我们的帮助性和安全性的人类评估中,与一些流行的闭源模型(如ChatGPT和PaLM)相当。
模型开发者:Meta
模型变体:Llama 2提供多种参数规模——7B、13B和70B——以及预训练和微调版本。
输入:模型仅接受文本输入。
输出:模型仅生成文本。
模型架构:Llama 2是一个自回归语言模型,采用优化的变换器架构。微调版本通过监督式微调(SFT)和带有人工反馈的强化学习(RLHF)对模型进行调整,使其更好地符合人类对帮助性和安全性的偏好。
Training Data | Params | Content Length | GQA | Tokens | LR | |
---|---|---|---|---|---|---|
Llama 2 | A new mix of publicly available online data | 7B | 4k | ✗ | 2.0T | 3.0 x 10-4 |
Llama 2 | A new mix of publicly available online data | 13B | 4k | ✗ | 2.0T | 3.0 x 10-4 |
Llama 2 | A new mix of publicly available online data | 70B | 4k | ✔ | 2.0T | 1.5 x 10-4 |
Llama 2系列模型。标记数仅指预训练数据。所有模型均使用4M标记的全局批次大小进行训练。更大的模型——70B——使用了分组查询注意力(Grouped-Query Attention,GQA)以提高推理可扩展性。
模型日期:Llama 2的训练时间为2023年1月至2023年7月。
状态:这是一个静态模型,基于离线数据集进行训练。随着我们通过社区反馈改进模型安全性,未来将发布微调模型的版本。
许可证:可通过以下链接获取定制商业许可证:https://ai.meta.com/resources/models-and-libraries/llama-downloads/
注意:此表格显示的是源模型的评估,而非量化模型的评估。源模型评估来自于 Llama-2-7B-Chat 评估结果
Model | Size | Code | Commonsense Reasoning | World Knowledge | Reading Comprehension | Math | MMLU | BBH | AGI Eval |
---|---|---|---|---|---|---|---|---|---|
Llama 1 | 7B | 14.1 | 60.8 | 46.2 | 58.5 | 6.95 | 35.1 | 30.3 | 23.9 |
Llama 1 | 13B | 18.9 | 66.1 | 52.6 | 62.3 | 10.9 | 46.9 | 37.0 | 33.9 |
Llama 1 | 33B | 26.0 | 70.0 | 58.4 | 67.6 | 21.4 | 57.8 | 39.8 | 41.7 |
Llama 1 | 65B | 30.7 | 70.7 | 60.5 | 68.6 | 30.8 | 63.4 | 43.5 | 47.6 |
Llama 2 | 7B | 16.8 | 63.9 | 48.9 | 61.3 | 14.6 | 45.3 | 32.6 | 29.3 |
Llama 2 | 13B | 24.5 | 66.9 | 55.4 | 65.8 | 28.7 | 54.8 | 39.4 | 39.1 |
Llama 2 | 70B | 37.5 | 71.9 | 63.6 | 69.4 | 35.2 | 68.9 | 51.2 | 54.2 |
在分组学术基准上的整体表现。 代码: 我们报告了模型在HumanEval和MBPP上的平均pass@1得分。 常识推理: 我们报告了PIQA、SIQA、HellaSwag、WinoGrande、ARC easy和challenge、OpenBookQA以及CommonsenseQA的平均得分。对于CommonSenseQA,我们报告了7-shot结果,对于其他所有基准测试,我们报告了0-shot结果。 世界知识: 我们在NaturalQuestions和TriviaQA上评估了5-shot表现,并报告了平均得分。 阅读理解: 对于阅读理解,我们报告了在SQuAD、QuAC和BoolQ上的0-shot平均得分。 MATH: 我们报告了在GSM8K(8-shot)和MATH(4-shot)基准测试上的平均得分(top 1)。
TruthfulQA | Toxigen | ||
---|---|---|---|
Llama 1 | 7B | 27.42 | 23.00 |
Llama 1 | 13B | 41.74 | 23.08 |
Llama 1 | 33B | 44.19 | 22.57 |
Llama 1 | 65B | 48.71 | 21.77 |
Llama 2 | 7B | 33.29 | 21.25 |
Llama 2 | 13B | 41.86 | 26.10 |
Llama 2 | 70B | 50.18 | 24.60 |
预训练LLMs在自动安全基准上的评估。
对于TruthfulQA,我们展示了既真实又有信息量的生成比例(比例越高越好)。
对于ToxiGen,我们展示了有害生成的比例(比例越小越好)。
TruthfulQA | Toxigen | ||
---|---|---|---|
Llama-2-Chat | 7B | 57.04 | 0.00 |
Llama-2-Chat | 13B | 62.18 | 0.00 |
Llama-2-Chat | 70B | 64.14 | 0.01 |
用户可以通过以下两种方式实现大模型在高通芯片上的推理运行:
- 通过 APLUX AidGen 推理大模型:请参考 APLUX AidGen 开发者文档
- 通过 QualComm Genie 推理大模型:请参考 Qualcomm Genie 文档