MiniCPM-1B-sft
文字生成
W4A16
post
MiniCPM-1B-sft

MiniCPM 是面壁与清华大学自然语言处理实验室共同开源的系列端侧语言大模型,主体语言模型 MiniCPM-1B 仅有 12亿(1.2B)的非词嵌入参数量。

性能参考

设备

AI框架
精度
首字响应
编码速度
解码速度
上下文长度
文件大小
模型详情
  • 经过 SFT 后,MiniCPM 在公开综合性评测集上,MiniCPM 与 Mistral-7B相近(中文、数学、代码能力更优),整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。
  • 经过 DPO 后,MiniCPM 在当前最接近用户体感的评测集 MTBench上,MiniCPM-2B 也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。
  • 以 MiniCPM-2B 为基础构建端侧多模态大模型 MiniCPM-V,整体性能在同规模模型中实现最佳,超越基于 Phi-2 构建的现有多模态大模型,在部分评测集上达到与 9.6B Qwen-VL-Chat 相当甚至更好的性能。
  • 经过 Int4 量化后,MiniCPM 可在手机上进行部署推理,流式输出速度略高于人类说话速度。MiniCPM-V 也首次跑通了多模态大模型在手机上的部署。
  • 一张1080/2080可高效参数微调,一张3090/4090可全参数微调,一台机器可持续训练 MiniCPM,二次开发成本较低。
源模型评估

注意:此表格显示的是源模型的评估,而非量化模型的评估。源模型评估来自于 MiniCPM-1B-sft 评估结果

  • 代码生成:在 HumanEval(0-shot)和 MBPP(3-shot)上的平均 pass@1 得分。
  • 常识推理:在 PIQA、SIQA、HellaSwag、WinoGrande 和 COPA 上的平均 0-shot 准确率。
  • 阅读理解:在 BoolQ、LAMBADA 和 TyDi QA 上的平均 0-shot 准确率。

其他测试集:在GSM8K(8-shot)、MMLU(5-shot)、BBH(3-shot)和 AGI-Eval(0-shot)上的平均准确率。

Setting Average
Sparsity
Average
Performance
Code
Generation
Commonsense
Reasoning
Reading
Comprehension
GSM8K MMLU BBH AGI Eval
LLaMA2-7B - 37.96 16.37 69.59 61.87 12.96 44.45 32.96 27.53
ReluLLaMA-7B 66.98 37.62 15.85 69.64 70.54 5.84 38.64 35.07 27.73
ProSparse-7B* 88.11 38.31 19.47 66.29 63.33 12.74 45.21 33.59 27.55
ProSparse-7B 89.32 38.46 19.42 66.27 63.50 12.13 45.48 34.99 27.46
LLaMA2-13B - 44.06 20.19 72.58 71.55 22.21 54.69 37.89 29.33
ReluLLaMA-13B 71.56 42.74 20.19 70.44 73.29 18.50 50.58 37.97 28.22
ProSparse-13B* 87.97 45.07 29.03 69.75 67.54 25.40 54.78 40.20 28.76
ProSparse-13B 88.80 44.90 28.42 69.76 66.91 26.31 54.35 39.90 28.67
MiniCPM-1B - 44.44 36.85 63.67 60.90 35.48 50.44 35.03 28.71
MiniCPM-S-1B* 86.25 44.72 41.38 64.55 60.69 34.72 49.36 34.04 28.27
MiniCPM-S-1B 87.89 44.72 42.04 64.37 60.73 34.57 49.51 34.08 27.77
AidLite SDK推理

待发布

性能参考

设备

AI框架
精度
首字响应
编码速度
解码速度
上下文长度
文件大小