模型归档 · 2026-05-21

gemma-4-E2B-it-GGUF (LM Studio)

未知

谷歌 Gemma 4 指令模型 GGUF 量化版，本地高效部署

适合本地代码生成与补全 / 轻量级聊天机器人原型开发

短板高精度复杂推理任务

未知 · apache-2.0 · 未知 · llama.cpp可商用

证据267.3k 下载 / 12 赞 / 16 个社区来源

Qwopus3.5-9B-Coder-MTP (Jackrong)

9B

9B多令牌预测代码模型，GGUF量化，面向代码推理

适合本地代码生成与补全 / 高吞吐 Agent 代码推理

短板长上下文推理或非量化高精度需求

9B · apache-2.0 · 128k · llama.cpp可商用

证据6680 下载 / 51 赞 / 1 个社区来源

Nemotron-3-Nano-Omni-30B-A3B (NVIDIA)

30B (3B 激活)

NVIDIA 多模态推理模型 GGUF 量化版，本地推理用

适合本地多模态对话 / 图像理解与推理

短板生产级高并发推理

30B (3B 激活) · NVIDIA Open Model Agreement · 未知 · llama.cpp

证据168.9k 下载 / 8 赞 / 3 个社区来源

Qwen3.6-27B (Qwen)

27B

27B参数GGUF版，本地AI原型开发

适合多轮对话与长文本处理 / 本地量化模型快速验证

短板生产环境高并发API

27B · apache-2.0 · 未知 · llama.cpp可商用

证据663.9k 下载 / 19 赞 / 5 个社区来源

Qwen3.6-35B-A3B (Qwen)

35B (3B 激活)

35B MoE仅3B激活的GGUF量化版，适合本地中文开发

适合本地中文对话与代码补全 / 低内存占用（3B激活）的MoE推理

短板复杂数学或长链逻辑推理

35B (3B 激活) · apache-2.0 · 未知 · llama.cpp可商用

证据525.9k 下载 / 20 赞 / 14 个社区来源

gemma-4-26B-A4B-it (Google)

26B (4B活跃)

26B总参/4B活跃的MoE指令模型，面向本地推理

适合本地聊天与指令跟随 / 资源受限环境文本生成

短板高精度复杂推理

26B (4B活跃) · Apache-2.0 · 128k · llama.cpp可商用

证据321.4k 下载 / 24 赞 / 13 个社区来源

Gemma-4-31B-it-GGUF (LM Studio)

31B

Google 31B 指令模型 GGUF 量化版，本地消费级硬件推理

适合本地高参数量指令遵循与对话 / 长上下文理解与 RAG 应用

短板4GB 以下显存设备运行

31B · apache-2.0 · 未知 · llama.cpp可商用

证据340.4k 下载 / 25 赞 / 12 个社区来源

gemma-4-E4B-it (Google)

4B

Gemma4-4B-it 量化版, 本地轻量推理

适合本地轻量指令跟随与聊天 / 消费级 GPU/CPU 推理

短板复杂推理与多语言长文本

4B · apache-2.0 · 未知 · llama.cpp可商用

证据1229.1k 下载 / 38 赞 / 10 个社区来源

NuExtract3 (NuMind)

4B

文档结构化提取和Markdown转换的4B视觉语言模型

适合发票/合同/表格等文档JSON结构化提取 / 图片/扫描PDF转Markdown供RAG使用

短板通用图像问答或纯文本生成

Q4 ~3GB / FP16 ~11GB · Apache-2.0 · 131k · vllm可商用

证据1720 下载 / 45 赞 / 2 个社区来源

Nemotron-Labs-Diffusion-14B (NVIDIA)

14B

三模式 LM (AR/扩散/自推测)，为 AI 应用开发者提供高效生成

适合高吞吐对话生成（自推测解码） / 边缘设备单用户加速推理（DGX Spark）

短板长文本场景（上下文长度未公开）

Q4 ~8.9GB / FP16 ~32GB · NVIDIA Nemotron Open Model License · 未知 · transformers

证据65 下载 / 44 赞 / 4 个社区来源

Qwen3.5-9B-MTP-GGUF (unsloth)

9B

Qwen3.5-9B 多模态模型，MTP 投机解码，本地快速运行

适合多模态图像理解与文档分析 / 本地 Agent 工具调用场景

短板多进程推理或 mmproj 场景

9B · apache-2.0 · 262k (可扩展至1M) · llama.cpp可商用

证据53k 下载 / 46 赞 / 6 个社区来源

MiniMax-M2.7 (MiniMax)

2.7B

MiniMax M2.7 GGUF量化版，适合本地部署与实验

适合低成本本地推理实验 / 对话与文本生成原型

短板复杂逻辑推理与长篇生成

2.7B · other · 未知 · llama.cpp

证据13.6k 下载 / 2 赞 / 4 个社区来源

Granite-4.1-30B (IBM)

30B

IBM Granite 30B GGUF量化, 本地部署与推理

适合本地推理与微调基线 / 通用文本生成与对话

短板需高精度、无损推理的任务

30B · Apache 2.0 · 未知 · llama.cpp可商用

证据982 下载 / 3 个社区来源

Granite-4.1-3B-GGUF (IBM)

3B

IBM Granite 4.1 3B GGUF量化，本地推理与边缘部署

适合本地CPU推理 / 轻量级文本生成助手

短板高精度推理或长上下文

3B · Apache-2.0 · 未知 · llama.cpp可商用

证据582 下载 / 4 个社区来源

Granite-4.1-8B-GGUF (IBM)

8B

IBM Granite 4.1 8B的GGUF量化，用于本地推理

适合本地CPU推理 / 低资源设备文本生成

短板高并发生产环境

8B · apache-2.0 · 未知 · llama.cpp可商用

证据1015 下载 / 4 个社区来源

Llama-2-7b-chat-mlx (mlx-community)

7B

Apple芯片上本地运行的Llama2 7B对话模型

Apple Silicon

适合Apple芯片本地聊天机器人开发 / 离线文本生成与原型测试

短板非Apple芯片或NVIDIA GPU推理

7B · llama2 · 4096 · mlx限制商用

证据4057 下载 / 85 赞 / 6 个社区来源

本期 (16)