Phi-2

Phi-2

Phi-2 是一个具有 27 亿 参数的 Transformer 模型。它使用与 Phi-1.5 相同的数据来源进行训练，并额外引入了一种新的数据来源，其中包括各种 NLP 合成文本以及经过筛选的网站内容（以提高安全性和教育价值）。

在测试常识、语言理解和逻辑推理的基准测试中，Phi-2 在 小于 130 亿参数的模型 中表现出了接近最先进水平的性能。

Phi-2 未经过人类反馈强化学习（RLHF）微调。

该开源模型的目标是为研究社区提供一个 无限制的小型模型，以探索关键的安全挑战，例如：

性能参考

设备

AI框架

数据精度

首字响应

编码速度

解码速度

上下文长度

文件大小

模型详情

架构：基于 Transformer 的模型，采用 下一词预测（Next-word prediction） 目标
上下文长度：2048 个 token
数据集规模：250B token，由 AOAI GPT-3.5 生成的 NLP 合成数据 和 来自 Falcon RefinedWeb 与 SlimPajama 的筛选网页数据 组合而成，这些数据经过 AOAI GPT-4 评估
训练 token 数：1.4T token
训练 GPU：96×A100-80G
训练时长：14 天

源模型评估

直接用于生产任务而不进行评估超出了本项目的范围。因此，Phi-2 模型尚未经过测试，无法保证其在任何生产级应用中的表现是否足够可靠。

请参考限制部分了解更多信息。

模型推理

用户可以通过以下两种方式实现大模型在高通芯片上的推理运行：

许可证

源模型许可证：MIT

可部署模型许可证：APLUX-MODEL-FARM-LICENSE