模型 / 归档 / 2026-05-31

本期 (2)

198B MoE视觉模型GGUF量化,适合128GB统一内存本地推理

部署
  • py git clone https://github.com/stepfun-ai/llama.cpp && cd llama.cpp && git checkout step3.7 && cmake -B build && cmake --build build
  • py ./llama-server -m Step-3.7-flash-Q4_K_S.gguf --mmproj mmproj-Step-3.7-flash-f16.gguf -ngl 99 -c 32768
入选理由
官方量化版,可本地运行多模态MoE模型,但缺乏第三方独立验证,建议观望。
对位
对位Qwen2.5-VL-72B或闭源视觉API
适合
本地私有化视觉问答与Agent工具调用 / 长上下文多模态理解与推理
不适合
低于64GB内存设备
规模
198B (激活11B) · 256k
授权
Apache-2.0 · 需自查
框架
llama.cpp (step3.7分支)
可信度
近30天下载2.9万次,Q4_K_S在M4 Max 262K上下文下生成9.7 t/s

Qwen3.6-35B-A3B FP4量化版,面向vLLM高效推理

  • 已量化
部署
  • vll vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --quantization modelopt
入选理由
Qwen3.6-35B-A3B的NVFP4量化版,可直接通过vLLM部署,但缺少第三方评测且仅为量化重打包,适合有高端GPU的用户试用。
对位
对位Qwen3.6-35B-A3B BF16
适合
AI Agent系统 / RAG与聊天机器人
不适合
有毒提示或偏见内容生成
规模
35B (激活3B) · 262k · Q4 ~12GB / FP16 ~45GB
授权
Apache 2.0 · 需自查
框架
vllm
可信度
67020下载,46赞;FP4量化MMLU Pro 85.0,比BF16仅降0.6

← 前一日 2026-05-30 · 后一日 2026-06-01 →