归档 / 2026-06-01 / Qwen3.5-9B (Qwen)

Qwen3.5-9B (Qwen)

Qwen3.5-9B MoQ量化版,MTP推测解码,适合本地快速生成

部署
  • oll ollama run hf.co/w-ahmad/Qwen3.5-9B-GGUF-MoQ-MTP
  • py llama.cpp: ./llama-cli -m Qwen3.5-9B-MoQ-4.85.gguf
  • py llama-cpp-python: 直接加载 GGUF 文件进行推理
入选理由
基于Qwen3.5-9B的MoQ量化模型,有现成GGUF文件可直接用llama.cpp推理,第三方评测显示性能优于同类量化,但社区热度低。
对位
替代 Unsloth Dynamic 等均匀量化,同体积质量更高
适合
本地内存受限下的9B模型推理 / 利用MTP推测解码加速文本生成
不适合
追求极致精度或官方全量模型的任务
规模
9B · 32k
授权
MIT · 需自查
框架
llama.cpp / llama-cpp-python
可信度
6k下载,基于Qwen3.5-9B,MoQ量化在WikiText上优于UnslothDynamic约10%

评分详情

Q1
今天能接上用吗   5 / 5
Q2
有可信证据吗   3 / 5
Q3
是新东西吗   3 / 5
总分
11

HuggingFace 原始数据 (抓取于 2026-06-01)

作者
w-ahmad
任务类型
text-generation
推理库
gguf
下载
6,044
点赞
0
许可证
MIT
标签
gguf, MoQ, mixture-of-quants, GGUF, QWEN, quantization, text-generation, en, base_model:Qwen/Qwen3.5-9B, base_model:quantized:Qwen/Qwen3.5-9B, license:mit, endpoints_compatible, region:us, conversational

探索

源链接 ↗