三元1.58-bit量化8B模型,苹果芯片本地推理
- 部署
-
- py mlx_lm.load('prism-ml/Ternary-Bonsai-8B-mlx-2bit') 复制
- py mlx-lm generate --model prism-ml/Ternary-Bonsai-8B-mlx-2bit 复制
- 入选理由
- 极低比特量化模型,在Apple设备上性能优异且体积极小,但仅支持MLX,非Mac用户不可用。
- 对位
- 全精度8B模型(Qwen3-8B等)
- 适合
- 苹果设备本地AI助手 / 离线文本生成与隐私保护
- 不适合
- 非苹果设备或服务器端部署
- 规模
- 8B · 65k · Q4 ~0.4GB / FP16 ~1.5GB
- 授权
- Apache-2.0 · 需自查
- 框架
- mlx / mlx-swift
- 可信度
- 下载16k+,评测均分75.5,白皮书,iPhone 27 tok/s
Llama-3-8B 4-bit版,M系列芯片本地推理
- 部署
-
- pip pip install mlx-lm && mlx_lm.generate --model mlx-community/Meta-Llama-3-8B-Instruct-4bit --prompt "hello" 复制
- py from mlx_lm import load, generate; model, tokenizer = load('mlx-community/Meta-Llama-3-8B-Instruct-4bit'); generate(model, tokenizer, prompt='hello') 复制
- 入选理由
- Llama 3 8B的4bit量化版,可用mlx-lm快速运行,但无新能力,适合苹果用户部署。
- 对位
- 对位原始Llama-3-8B-Instruct,适配Mac本地推理
- 适合
- Mac本地聊天与文本生成 / 离线隐私敏感场景
- 不适合
- 非Apple Silicon设备(需MLX)
- 规模
- 8B · 8k · Q4 ~1.1GB / FP16 ~4.1GB
- 授权
- llama3 · 需自查
- 框架
- mlx-lm
- 可信度
- HuggingFace 10.5k下载,81点赞,mlx-community官方转换