此页是 2026-05-20 的观测快照,查看该模型当前信息 → /m/prism-ml__bonsai-8b-mlx-1bit/

归档 / 2026-05-20 / Bonsai-8B-mlx-1bit (PrismML)

Bonsai-8B-mlx-1bit (PrismML)

Apple Silicon 的 1-bit LLM，端侧极低内存推理

Apple Silicon

入选理由: 提供Colab在线试用和MLX格式，5分钟可运行；下载量高；端到端1-bit量化，显著降低内存，核心创新。
对位: 对位 Qwen3-8B、Llama 3.1 8B 等全精度模型
适合: iPhone/Mac 本地隐私推理 / 移动端及边缘低功耗部署
不适合: 需全精度浮点的高敏感任务
规模: 8B · 65k · Q4 ~0.3GB / FP16 ~0.9GB
授权: Apache-2.0 · 可商用
框架: mlx / llama.cpp / mlx-swift
血统: 量化自 Bonsai-8B-unpacked
可信度: 下载量 15k+，平均分 70.5 接近全精度 8B，内存仅 1.28 GB

仅 safetensors · 无 pickle 加载风险

社区实测

社区普遍认为 Bonsai-8B 作为端到端 1-bit 模型的技术验证意义大于实用价值——模型确实能跑且速度极快，但实际能力远逊于同规模常规模型。

验证了端到端 1-bit LLM 在 8B 规模上技术可行，模型体积约为 FP16 同等参数的 1/14
推理速度极快，在 GPU 上响应延迟显著低于常规量化模型

在 CPU 上使用 Q1_0_g128 量化版本输出为乱码，GPU 似乎是必要条件
实际能力远低于同规模常规模型（如 Gemma-4-E2B），不适合作为日常实用工具
三元（1.58-bit）版本表现甚至比 1-bit 版本更差

来源

1-bit models are here: PrismMLs Bonsai series of models - Reddit Bonsai-8B is MUCH dumber than Gemma-4-E2B : r/LocalLLaMA PrismML Bonsai-8B (Q1_0_g128) produces garbage output on CPU -- GPU appears to be required : r/LocalLLaMA Show HN: 1-Bit Bonsai, the First Commercially Viable 1-Bit LLMs | Hacker News

截至 2026-06-19

评分详情

Q1: 今天能接上用吗 5 / 5
Q2: 有可信证据吗 3 / 5
Q3: 是新东西吗 5 / 5
总分: 13

HuggingFace 原始数据 (抓取于 2026-05-20)

作者: prism-ml
任务类型: text-generation
推理库: mlx
下载: 15,022
点赞: 206
许可证: Apache-2.0
标签: mlx, safetensors, qwen3, 1-bit, mlx-swift, apple-silicon, on-device, prismml, bonsai, text-generation, conversational, base_model:prism-ml/Bonsai-8B-unpacked, base_model:finetune:prism-ml/Bonsai-8B-unpacked, license:apache-2.0, eval-results, region:us

探索