模型 / 归档 / 2026-06-01

本期 (1)

Qwen3.5-9B MoQ量化版,MTP推测解码,适合本地快速生成

部署
  • oll ollama run hf.co/w-ahmad/Qwen3.5-9B-GGUF-MoQ-MTP
  • py llama.cpp: ./llama-cli -m Qwen3.5-9B-MoQ-4.85.gguf
  • py llama-cpp-python: 直接加载 GGUF 文件进行推理
入选理由
基于Qwen3.5-9B的MoQ量化模型,有现成GGUF文件可直接用llama.cpp推理,第三方评测显示性能优于同类量化,但社区热度低。
对位
替代 Unsloth Dynamic 等均匀量化,同体积质量更高
适合
本地内存受限下的9B模型推理 / 利用MTP推测解码加速文本生成
不适合
追求极致精度或官方全量模型的任务
规模
9B · 32k
授权
MIT · 需自查
框架
llama.cpp / llama-cpp-python
可信度
6k下载,基于Qwen3.5-9B,MoQ量化在WikiText上优于UnslothDynamic约10%

← 前一日 2026-05-31 · 后一日 2026-06-02 →