Llama-2-7B-Chat
文字生成
W4A16
post
Llama-2-7B-Chat

Llama 2 是一系列预训练和微调过的生成式文本模型,规模从 70 亿到 700 亿个参数不等。

性能参考

设备

AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小
模型详情

注意:使用此模型受Meta许可证的约束。为了下载模型权重和分词器,请访问官网,并在此申请访问之前接受我们的许可证。

Meta开发并公开发布了Llama 2系列大型语言模型(LLMs),这是一个由预训练和微调过的生成式文本模型组成的集合,规模从70亿到700亿个参数不等。我们的微调LLM,名为Llama-2-Chat,针对对话应用进行了优化。Llama-2-Chat模型在我们测试的大多数基准测试中超过了开源聊天模型,并且在我们的帮助性和安全性的人类评估中,与一些流行的闭源模型(如ChatGPT和PaLM)相当。

模型开发者:Meta

模型变体:Llama 2提供多种参数规模——7B、13B和70B——以及预训练和微调版本。

输入:模型仅接受文本输入。

输出:模型仅生成文本。

模型架构:Llama 2是一个自回归语言模型,采用优化的变换器架构。微调版本通过监督式微调(SFT)和带有人工反馈的强化学习(RLHF)对模型进行调整,使其更好地符合人类对帮助性和安全性的偏好。

Training Data Params Content Length GQA Tokens LR
Llama 2 A new mix of publicly available online data 7B 4k 2.0T 3.0 x 10-4
Llama 2 A new mix of publicly available online data 13B 4k 2.0T 3.0 x 10-4
Llama 2 A new mix of publicly available online data 70B 4k 2.0T 1.5 x 10-4

Llama 2系列模型。标记数仅指预训练数据。所有模型均使用4M标记的全局批次大小进行训练。更大的模型——70B——使用了分组查询注意力(Grouped-Query Attention,GQA)以提高推理可扩展性。

模型日期:Llama 2的训练时间为2023年1月至2023年7月。

状态:这是一个静态模型,基于离线数据集进行训练。随着我们通过社区反馈改进模型安全性,未来将发布微调模型的版本。

许可证:可通过以下链接获取定制商业许可证:https://ai.meta.com/resources/models-and-libraries/llama-downloads/

研究论文“Llama-2: Open Foundation and Fine-tuned Chat Models”

源模型评估

注意:此表格显示的是源模型的评估,而非量化模型的评估。源模型评估来自于 Llama-2-7B-Chat 评估结果

Model Size Code Commonsense Reasoning World Knowledge Reading Comprehension Math MMLU BBH AGI Eval
Llama 1 7B 14.1 60.8 46.2 58.5 6.95 35.1 30.3 23.9
Llama 1 13B 18.9 66.1 52.6 62.3 10.9 46.9 37.0 33.9
Llama 1 33B 26.0 70.0 58.4 67.6 21.4 57.8 39.8 41.7
Llama 1 65B 30.7 70.7 60.5 68.6 30.8 63.4 43.5 47.6
Llama 2 7B 16.8 63.9 48.9 61.3 14.6 45.3 32.6 29.3
Llama 2 13B 24.5 66.9 55.4 65.8 28.7 54.8 39.4 39.1
Llama 2 70B 37.5 71.9 63.6 69.4 35.2 68.9 51.2 54.2

在分组学术基准上的整体表现。 代码: 我们报告了模型在HumanEval和MBPP上的平均pass@1得分。 常识推理: 我们报告了PIQA、SIQA、HellaSwag、WinoGrande、ARC easy和challenge、OpenBookQA以及CommonsenseQA的平均得分。对于CommonSenseQA,我们报告了7-shot结果,对于其他所有基准测试,我们报告了0-shot结果。 世界知识: 我们在NaturalQuestions和TriviaQA上评估了5-shot表现,并报告了平均得分。 阅读理解: 对于阅读理解,我们报告了在SQuAD、QuAC和BoolQ上的0-shot平均得分。 MATH: 我们报告了在GSM8K(8-shot)和MATH(4-shot)基准测试上的平均得分(top 1)。

TruthfulQA Toxigen
Llama 1 7B 27.42 23.00
Llama 1 13B 41.74 23.08
Llama 1 33B 44.19 22.57
Llama 1 65B 48.71 21.77
Llama 2 7B 33.29 21.25
Llama 2 13B 41.86 26.10
Llama 2 70B 50.18 24.60

预训练LLMs在自动安全基准上的评估。
对于TruthfulQA,我们展示了既真实又有信息量的生成比例(比例越高越好)。
对于ToxiGen,我们展示了有害生成的比例(比例越小越好)。

TruthfulQA Toxigen
Llama-2-Chat 7B 57.04 0.00
Llama-2-Chat 13B 62.18 0.00
Llama-2-Chat 70B 64.14 0.01
模型推理

用户可以通过以下两种方式实现大模型在高通芯片上的推理运行:

许可证
源模型许可证:LLAMA2
可部署模型许可证:LLAMA2
性能参考

设备

AI框架
数据精度
首字响应
编码速度
解码速度
上下文长度
文件大小