Qwen3.6-35B-A3B-NVFP4 (NVIDIA)

Qwen3.6-35B-A3B FP4量化版，面向vLLM高效推理

已量化

入选理由: Qwen3.6-35B-A3B的NVFP4量化版，可直接通过vLLM部署，仅为量化重打包，适合有高端GPU的用户。
对位: 对位Qwen3.6-35B-A3B BF16
适合: AI Agent系统 / RAG与聊天机器人
不适合: 有毒提示或偏见内容生成
规模: 35B (激活3B) · 262k · Q4 ~12GB / FP16 ~45GB
授权: Apache 2.0 · 可商用
框架: vllm
血统: 量化自 Qwen3.6-35B-A3B
可信度: 67020下载，46赞；FP4量化MMLU Pro 85.0，比BF16仅降0.6

仅 safetensors · 无 pickle 加载风险

社区实测

社区普遍认为 Qwen3.6-35B-A3B 是本地编程场景下速度与质量的最佳折中选择，NVFP4 量化版在 NVIDIA 硬件上部署便捷、推理极快，MoE 架构以接近稠密模型的质量换来了显著更高的吞吐，在 RTX 5090 上可达约 205 tok/s。部分用户反馈编程体验已接近 Claude 等云端闭源模型，但 NVFP4 量化存在质量损失和失控生成的风险。

本地编程推理速度极快，RTX 5090 上约 205 tok/s 且支持 125k 上下文
NVFP4 量化可直接通过 vLLM 部署，降低使用门槛
MoE 架构在保持接近稠密模型质量的同时大幅提升推理速度
在消费级 NVIDIA 硬件（RTX 5090、DGX Spark）上可流畅运行
编程体验接近云端闭源模型，有用户称可与 Claude 媲美
支持大上下文窗口（125k-250k），适合长代码任务
128GB 内存下可容纳模型并留有 256k+ 上下文余量

NVFP4 量化存在质量损失，可能出现失控生成和退化循环
在架构写作等非编程任务上，同系 27B 稠密模型可能更优
DGX Spark 上更新 vLLM 会遇到依赖冲突，部署有坑
稠密模型（27B）在某些任务上质量更好，只是速度不及 MoE
NVFP4 格式依赖 NVIDIA 硬件和 vLLM，通用性受限

来源

Qwen 3.6 35B A3B on rtx 5090 is absurdly fast for coding I'm running qwen3.6-35b-a3b with 8 bit quant and 64k context thru OpenCode on my mbp m5 max 128gb and it's as good as claude I tested Qwen3.6-27B, Qwen3.6-35B-A3B, Qwen3.5-27B and Gemma 4 on the same real architecture-writing task on an RTX 5090 Solved the DGX Spark, 102 stable tok/s Qwen3.5-35B-A3B on a single GB10 What's the best speed we can get with Qwen 3.6 27B without quantizing?Benchmark Report: Qwen3.6-35B-A3B-NVFP4 on NVIDIA DGX Spark, Jetson Thor, Blackwell 6000 Pro NVidia NVFP4 vs llama.cpp Q4: Faster Local LLMs But At What Quality?NVIDIA Releases Qwen3.6-35B-A3B-NVFP4: An FP4 Quantized Version for vLLM Deployment nvidia/Qwen3.6-35B-A3B-NVFP4 · Hugging Face Best Q4 / NVFP4 model for quality Qwen3.5-27B or alternatives?Qwen3.5-122B-A10B vs. old Coder-Next-80B: Both at NVFP4 nvidia/Qwen3.6-35B-A3B-NVFP4 · Hugging Face : r/LocalLLaMA

截至 2026-06-21

快速上手

vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --quantization modelopt

Qwen3.6-35B-A3B-NVFP4 (NVIDIA)

社区实测

评分详情

HuggingFace 原始数据 (抓取于 2026-05-31)

探索