Qwen3.6-27B-MTP-GGUF (Unsloth)

Qwen3.6-27B的MTP量化版，推理速度1.5-2倍提升

入选理由: GGUF格式即用，下载量26万+，被llama.cpp引用；但仅量化打包，无新增能力，外部评测证据不足
对位: 替代原始Qwen3.6-27B，大幅减少资源占用
适合: 代码编写与Agent任务 / 本地多模态推理与节省显存
不适合: 低内存或无GPU环境
规模: 27B · 262k (可扩展至1M)
授权: Apache-2.0 · 可商用
框架: llama.cpp / Unsloth Studio
血统: 量化自 Qwen3.6-27B
可信度: 下载量268k，基于官方Qwen3.6-27B，Unsloth动态量化，Apache-2.0许可

社区实测

MTP版Qwen3.6-27B通过投机解码在llama.cpp上实现1.4x–2.5x吞吐提升，27B dense在编程上明确优于更大的35B MoE；但MTP版本在agentic coding场景下不如非MTP版且上下文占用更多，同时模型hidden layer维度增大使低显存用户需降级量化档位才能加载。

MTP投机解码带来1.4x–2.5x的token吞吐提升，draft token接受率高
27B dense在编程任务上明显优于35B MoE模型
2-bit量化可在12GB内存上完成26次工具调用、分类15个GitHub issue并执行代码修复
27B dense在多数编程基准上超越参数量大得多的前代Qwen3.5-397B-A17B
无需第二模型或vLLM，仅需三个llama.cpp flag即可启用MTP加速
Unsloth Dynamic 2.0量化基于真实场景数据集校准，关键层上采样以保持质量
可通过Unsloth Studio直接搜索、下载并运行MTP版GGUF

MTP版本在agentic coding场景下表现不如非MTP版，且上下文占用更多
Qwen3.6 hidden layer维度比Qwen3.5增大约20%，同量化档位更难装入12GB/16GB显存
llama.cpp主分支尚未合并MTP支持，需使用未合并的PR #22673自行编译
MTP可能禁用llama.cpp的并行处理能力
量化档位越低KLD越高，需关注内部概率分布稳定性而不仅是Top P匹配度

来源

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR unsloth Qwen3.6-27B-GGUF : r/LocalLLaMA 2-bit Qwen3.6-27B GGUF made 26 tool calls on 12GB RAM.Qwen3.6 MTP Unsloth GGUFs now 1.8x faster!Qwen 3.6 27B dense is much better than the 35B MoE model for coding Qwen3.6 - How to Run Locally | Unsloth Documentation unsloth/Qwen3.6-27B-MTP-GGUF · Noticeable Performance Decrease Qwen3.6-27B beats much larger predecessor on most coding benchmarks Qwen3.6-27B Quantization Benchmark : r/LocalLLaMA Qwen3.6 27B Gets 20% Faster with MTP and llama.cpp Locally

截至 2026-06-21

快速上手

llama.cpp llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:UD-Q4_K_XL --spec-type draft-mtp

Qwen3.6-27B-MTP-GGUF (Unsloth)

社区实测

评分详情

HuggingFace 原始数据 (抓取于 2026-05-18)

探索