bitnet.cpp 的第一个版本是支持 CPU 上的推理。bitnet.cpp 在 ARM CPU 上实现了
1.37 倍
到
5.07 倍
的加速,较大的模型获得了更大的性能提升。此外,它还能将能耗降低
55.4%
至
70.0%
,进一步提高整体效率。在 x86 CPU 上,加速范围为
2.37 倍
至
6.17 倍
,能耗降低
71.9%
至
82.2%
。此外,bitnet.cpp 可以在单个 CPU 上运行 100B BitNet b1.58 模型,实现与人类阅读相当的速度(每秒 5-7 个令牌),从而显着增强在本地设备上运行LLMs的潜力。更多详情请参阅技术报告。
The tested models are dummy setups used in a research context to demonstrate the inference performance of bitnet.cpp.
测试的模型是在研究环境中使用的虚拟设置,用于演示 bitnet.cpp 的推理性能