模型 / 归档 / 2026-05-22

本期 (2)

三元1.58-bit量化8B模型,苹果芯片本地推理

  • Apple Silicon
部署
  • py mlx_lm.load('prism-ml/Ternary-Bonsai-8B-mlx-2bit')
  • py mlx-lm generate --model prism-ml/Ternary-Bonsai-8B-mlx-2bit
入选理由
极低比特量化模型,在Apple设备上性能优异且体积极小,但仅支持MLX,非Mac用户不可用。
对位
全精度8B模型(Qwen3-8B等)
适合
苹果设备本地AI助手 / 离线文本生成与隐私保护
不适合
非苹果设备或服务器端部署
规模
8B · 65k · Q4 ~0.4GB / FP16 ~1.5GB
授权
Apache-2.0 · 需自查
框架
mlx / mlx-swift
可信度
下载16k+,评测均分75.5,白皮书,iPhone 27 tok/s

Llama-3-8B 4-bit版,M系列芯片本地推理

  • Apple Silicon
部署
  • pip pip install mlx-lm && mlx_lm.generate --model mlx-community/Meta-Llama-3-8B-Instruct-4bit --prompt "hello"
  • py from mlx_lm import load, generate; model, tokenizer = load('mlx-community/Meta-Llama-3-8B-Instruct-4bit'); generate(model, tokenizer, prompt='hello')
入选理由
Llama 3 8B的4bit量化版,可用mlx-lm快速运行,但无新能力,适合苹果用户部署。
对位
对位原始Llama-3-8B-Instruct,适配Mac本地推理
适合
Mac本地聊天与文本生成 / 离线隐私敏感场景
不适合
非Apple Silicon设备(需MLX)
规模
8B · 8k · Q4 ~1.1GB / FP16 ~4.1GB
授权
llama3 · 需自查
框架
mlx-lm
可信度
HuggingFace 10.5k下载,81点赞,mlx-community官方转换

← 前一日 2026-05-21 · 后一日 2026-05-23 →