归档 / 2026-05-31 / Step-3.7-Flash (StepFun)

Step-3.7-Flash (StepFun)

198B MoE视觉模型GGUF量化，适合128GB统一内存本地推理

部署

py git clone https://github.com/stepfun-ai/llama.cpp && cd llama.cpp && git checkout step3.7 && cmake -B build && cmake --build build
py ./llama-server -m Step-3.7-flash-Q4_K_S.gguf --mmproj mmproj-Step-3.7-flash-f16.gguf -ngl 99 -c 32768

入选理由: 官方量化版，可本地运行多模态MoE模型，但缺乏第三方独立验证，建议观望。
对位: 对位Qwen2.5-VL-72B或闭源视觉API
适合: 本地私有化视觉问答与Agent工具调用 / 长上下文多模态理解与推理
不适合: 低于64GB内存设备
规模: 198B (激活11B) · 256k
授权: Apache-2.0 · 需自查
框架: llama.cpp (step3.7分支)
可信度: 近30天下载2.9万次，Q4_K_S在M4 Max 262K上下文下生成9.7 t/s

评分详情

Q1: 今天能接上用吗 5 / 5
Q2: 有可信证据吗 3 / 5
Q3: 是新东西吗 1 / 5
总分: 9

HuggingFace 原始数据 (抓取于 2026-05-31)

作者: stepfun-ai
任务类型: image-text-to-text
推理库: gguf
下载: 29,666
点赞: 61
许可证: Apache-2.0
标签: gguf, llama.cpp, quantized, imatrix, moe, agent, tool-calling, reasoning, vision, multimodal, image-text-to-text, en, zh, ja, ko, ar, hi, de, fr, es, ru, base_model:stepfun-ai/Step-3.7-Flash, base_model:quantized:stepfun-ai/Step-3.7-Flash, license:apache-2.0, endpoints_compatible, region:us, conversational

探索