此页是 2026-05-21 的观测快照,查看该模型当前信息 → /m/unsloth__qwen35-9b-mtp-gguf/

归档 / 2026-05-21 / Qwen3.5-9B-MTP-GGUF (unsloth)

Qwen3.5-9B-MTP-GGUF (unsloth)

Qwen3.5-9B 多模态模型，MTP 投机解码，本地快速运行

入选理由: GGUF直接可用但需编译llama.cpp；下载量5万+；仅为量化重打包，基础模型虽新但本仓库未增新能力。
对位: 官方 Qwen3.5-9B Transformers 版本
适合: 多模态图像理解与文档分析 / 本地 Agent 工具调用场景
不适合: 多进程推理或 mmproj 场景
规模: 9B · 262k (可扩展至1M)
授权: apache-2.0 · 可商用
框架: llama.cpp / unsloth
血统: 量化自 Qwen3.5-9B
可信度: 53048次下载，46点赞，MTP解码提速1.5-2倍，Unsloth Dynamic 2.0量化

社区实测

Unsloth 的 Qwen3.5-9B GGUF 量化版本相比官方版本推理速度更快，12GB 显存即可流畅运行且延迟良好；量化鲁棒性强，TQ1_0 等低比特量化几乎无损保留原始精度，但 MMLU Pro 等世界知识类基准上仍有明显退化。

12GB 显存即可部署，延迟表现良好
Unsloth 版本推理速度优于 lm-studio 及官方版本
TQ1_0 量化几乎无损保留原始模型精度
工具调用和编程性能较此前版本有改进
兼容 llama.cpp、vLLM、SGLang、Unsloth Studio 等多种推理引擎
Dynamic 2.0 量化方法进一步降低内存占用

MMLU Pro 上退化最明显，世界知识有所损失
量化后模型与原始 16 位版本不完全等同

来源

Qwen3.5 Unsloth GGUFs Update! - Reddit (Qwen3.5-9B) Unsloth vs lm-studio vs "official" : r/LocalLLaMA - Reddit unsloth/Qwen3.5-9B-MTP-GGUF - Hugging Face Unsloth Dynamic 2.0 GGUFs - Hacker News Benjamin Marie on X: "Here's a more complete evaluation of GGUF variants of Qwen3.5 (models by @UnslothAI ), and it's way better than I expected. - Qwen3.5 is very robust to Unsloth quantization - TQ1_0 preserves the original model's accuracy extremely well - Most of the degradation is on MMLU Pro https://t.co/Q5U2P9yq8b" / X Summary of Qwen3.5 GGUF Evaluations + My Evaluation Method

截至 2026-06-21

快速上手

git clone https://github.com/ggml-org/llama.cpp && cd llama.cpp && cmake -B build -DGGML_CUDA=ON && cmake --build build --target llama-server

评分详情

Q1: 今天能接上用吗 5 / 5
Q2: 有可信证据吗 3 / 5
Q3: 是新东西吗 1 / 5
总分: 9

HuggingFace 原始数据 (抓取于 2026-05-21)

作者: unsloth
任务类型: image-text-to-text
推理库: transformers
下载: 53,048
点赞: 46
许可证: apache-2.0
标签: transformers, gguf, unsloth, qwen, qwen3_5, image-text-to-text, base_model:Qwen/Qwen3.5-9B, base_model:quantized:Qwen/Qwen3.5-9B, license:apache-2.0, endpoints_compatible, region:us, conversational

探索