模型 / 归档 / 2026-05-27

本期 (2)

昇腾原生1.58-bit三元LLM,推理内存降6x,保持95.7%性能

部署
  • py transformers: AutoModelForCausalLM.from_pretrained('openbmb/BitCPM-CANN-8B')
  • oll ollama create 从 https://huggingface.co/openbmb/BitCPM-CANN-8B-gguf 导入
入选理由
支持GGUF和Transformers快速部署,是首个昇腾NPU原生1.58-bit训练模型,性能保留超95%;但缺乏第三方独立评测。
对位
对位 MiniCPM4 8B 全精度版
适合
昇腾NPU上低内存推理 / 1.58-bit 三元量化研究
不适合
需BF16全精度的场景
规模
8B · 未知
授权
apache-2.0 · 需自查
框架
transformers / llama.cpp / ollama
可信度
11项基准平均保留95.7%全精度性能,推理内存减至1/6,QAT仅多5%训练开销,有GGUF

128GB Mac本地编码与工具调用GGUF

部署
  • oll ollama run hf.co/jedisct1/MiMo-V2.5-coder-Q2
  • py llama.cpp: llama-server -hf jedisct1/MiMo-V2.5-coder-Q2
  • py bash run-server.sh (克隆仓库)
入选理由
高质量编码专用GGUF,开箱即用,但缺乏第三方评测,本质为已有模型量化重打包。
对位
超大MoE编码模型的本地量化方案
适合
128GB Mac上的本地代码生成 / OpenAI兼容工具调用代理循环
不适合
中文/多模态任务
规模
未公开 · 100k
授权
MIT · 需自查
框架
llama.cpp
可信度
编码(11/11)、工具调用(22/22)、代理(10/10)通过本地验证

← 前一日 2026-05-26 · 后一日 2026-05-28 →