支持MTP加速的3B激活参数量化视觉语言模型,面向本地编程代理
- 部署
-
- py llama-server -hf unsloth/Qwen3.6-35B-A3B-MTP-GGUF:UD-Q4_K_XL --spec-type draft-mtp --spec-draft-n-max 6 复制
- py Unsloth Studio 图形界面直接运行 MTP 模型 复制
- 入选理由
- GGUF 格式可直接用 llama.cpp 部署,下载量 23 万+,是 Qwen3.6 量化版,非新能力。
- 对位
- 对位 Qwen3.5-35B-A3B、Gemma4-26B-A4B
- 适合
- 本地多模态推理与编程代理 (MTP加速) / 视觉问答、文档理解与工具调用
- 不适合
- 要求原始精度的量化敏感场景
- 规模
- 35B (3B active, Q4_K_XL) · 262k (可扩展至1M)
- 授权
- Apache-2.0
- 框架
- llama.cpp / ollama / Unsloth Studio
- 可信度
- HuggingFace 23.7万下载,Qwen官方Apache-2.0,Unsloth提供原生MTP GGUF量化