归档 / 2026-05-31 / Qwen3.6-35B-A3B-NVFP4 (NVIDIA)

Qwen3.6-35B-A3B-NVFP4 (NVIDIA)

Qwen3.6-35B-A3B FP4量化版,面向vLLM高效推理

  • 已量化
部署
  • vll vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --quantization modelopt
入选理由
Qwen3.6-35B-A3B的NVFP4量化版,可直接通过vLLM部署,但缺少第三方评测且仅为量化重打包,适合有高端GPU的用户试用。
对位
对位Qwen3.6-35B-A3B BF16
适合
AI Agent系统 / RAG与聊天机器人
不适合
有毒提示或偏见内容生成
规模
35B (激活3B) · 262k · Q4 ~12GB / FP16 ~45GB
授权
Apache 2.0 · 需自查
框架
vllm
可信度
67020下载,46赞;FP4量化MMLU Pro 85.0,比BF16仅降0.6

评分详情

Q1
今天能接上用吗   5 / 5
Q2
有可信证据吗   1 / 5
Q3
是新东西吗   1 / 5
总分
7

HuggingFace 原始数据 (抓取于 2026-05-31)

作者
nvidia
任务类型
text-generation
推理库
Model Optimizer
下载
67,020
点赞
46
许可证
Apache 2.0
标签
Model Optimizer, safetensors, qwen3_5_moe, nvidia, ModelOpt, Qwen3.6, quantized, FP4, fp4, text-generation, conversational, base_model:Qwen/Qwen3.6-35B-A3B, base_model:quantized:Qwen/Qwen3.6-35B-A3B, license:apache-2.0, 8-bit, modelopt, region:us

探索

源链接 ↗