Qwen3.5-9B (Qwen) Qwen3.5-9B MoQ量化版,MTP推测解码,适合本地快速生成 部署 oll ollama run hf.co/w-ahmad/Qwen3.5-9B-GGUF-MoQ-MTP 复制 py llama.cpp: ./llama-cli -m Qwen3.5-9B-MoQ-4.85.gguf 复制 py llama-cpp-python: 直接加载 GGUF 文件进行推理 复制 入选理由基于Qwen3.5-9B的MoQ量化模型,有现成GGUF文件可直接用llama.cpp推理,第三方评测显示性能优于同类量化,但社区热度低。 对位替代 Unsloth Dynamic 等均匀量化,同体积质量更高 适合本地内存受限下的9B模型推理 / 利用MTP推测解码加速文本生成 不适合追求极致精度或官方全量模型的任务 规模9B · 32k 授权MIT · 需自查 框架llama.cpp / llama-cpp-python 可信度6k下载,基于Qwen3.5-9B,MoQ量化在WikiText上优于UnslothDynamic约10%