谷歌 Gemma 4 指令模型 GGUF 量化版,本地高效部署
- 部署
-
- py lmstudio://download?model=lmstudio-community/gemma-4-E2B-it-GGUF 复制
- hf huggingface-cli download lmstudio-community/gemma-4-E2B-it-GGUF --local-dir ./models 复制
- 入选理由
- GGUF格式可直接在LM Studio/Ollama使用,下载量26万,社区认可度高;但仅是量化重打包,无新能力。
- 对位
- 对位 Qwen2.5-3B、Llama-3.2-3B
- 适合
- 本地代码生成与补全 / 轻量级聊天机器人原型开发
- 不适合
- 高精度复杂推理任务
- 规模
- 未知 · 未知
- 授权
- apache-2.0
- 框架
- llama.cpp / LM Studio / ollama
- 可信度
- HuggingFace 下载量超 26 万,谷歌官方模型,LM Studio 团队量化
9B多令牌预测代码模型,GGUF量化,面向代码推理
- 部署
-
- oll ollama run hf.co/Jackrong/Qwopus3.5-9B-Coder-MTP-GGUF:Q4_K_M 复制
- py llama.cpp: ./llama-cli -m qwopus3.5-9b-coder-mtp.Q4_K_M.gguf -ngl 99 复制
- py llama-cpp-python: Llama(model_path='<gguf-path>') 复制
- 入选理由
- Q1: GGUF格式可直接部署;Q2: 无第三方评测,主要为作者自证;Q3: MTP提升速度与准确率,但属同系列微调。
- 对位
- 对位 Qwen2.5-Coder-7B,强调MTP推理加速
- 适合
- 本地代码生成与补全 / 高吞吐 Agent 代码推理
- 不适合
- 长上下文推理或非量化高精度需求
- 规模
- 9B · 128k
- 授权
- apache-2.0
- 框架
- llama.cpp / ollama / llama-cpp-python
- 可信度
- 下载量6680,点赞51;基于Qwen3.5-9B,MTP实测吞吐+35.8%
本地运行 397B MoE 多模态,GGUF 量化 + MTP 加速
- 部署
-
- py llama.cpp: ./llama-cli -m Qwen3.5-397B-A17B-Q4_K_M.gguf --spec-type draft-mtp --spec-draft-model ./mtp-Qwen_Qwen3.5-397B-A17B-Q8_0.gguf 复制
- py LM Studio: 搜索 bartowski Qwen3.5-397B-A17B 直接下载 复制
- hf huggingface-cli download bartowski/Qwen_Qwen3.5-397B-A17B-GGUF --include 'Qwen3.5-397B-A17B-Q4_K_M.gguf' --local-dir ./ 复制
- 入选理由
- GGUF格式直接可用,下载量近万;但仅为量化版本,无新能力,缺少第三方评测。
- 对位
- 对标 DeepSeek-V2 系列 236B MoE,本地量化替代云端 API
- 适合
- 多模态图像理解与对话 / 高吞吐本地推理,利用 MTP 加速
- 不适合
- RAM <200GB 或消费级硬件
- 规模
- 397B (17B active) · 未知
- 授权
- Apache 2.0
- 框架
- llama.cpp / LM Studio / koboldcpp
- 可信度
- imatrix 校准量化,SSM 小张量上转 F32,支持 MTP 推理 (llama.cpp b9180)
35B MoE仅3B激活的GGUF量化版,适合本地中文开发
- 部署
-
- hf huggingface-cli download lmstudio-community/Qwen3.6-35B-A3B-GGUF --include '*.gguf' --local-dir ./models 复制
- py llama-cli -m models/<文件名>.gguf -p '你好' 复制
- 入选理由
- GGUF格式可直接用LM Studio/Ollama运行,下载量超50万表明社区认可,但仅为量化重打包,非新模型。
- 对位
- 对位 Mixtral-8x7B 与 Llama-3-70B 混合专家模型
- 适合
- 本地中文对话与代码补全 / 低内存占用(3B激活)的MoE推理
- 不适合
- 复杂数学或长链逻辑推理
- 规模
- 35B (3B 激活) · 未知
- 授权
- apache-2.0
- 框架
- llama.cpp / ollama / LM Studio
- 可信度
- HuggingFace下载52.5万次,Qwen官方训练,LM Studio量化发布
26B总参/4B活跃的MoE指令模型,面向本地推理
- 部署
-
- hf huggingface-cli download lmstudio-community/gemma-4-26B-A4B-it-GGUF 复制
- py llama-cli -m gemma-4-26B-A4B-it-Q4_K_M.gguf -p 你好 复制
- py LM Studio 搜索 gemma-4-26B-A4B-it 加载 复制
- 入选理由
- GGUF量化版可直接本地运行,下载量32万但缺乏第三方评测,无新能力仅格式转换
- 对位
- 对位 Llama-3.1-8B、Qwen2.5-7B
- 适合
- 本地聊天与指令跟随 / 资源受限环境文本生成
- 不适合
- 高精度复杂推理
- 规模
- 26B (4B活跃) · 128k
- 授权
- Apache-2.0
- 框架
- llama.cpp / ollama / LM Studio
- 可信度
- Hugging Face 下载量32.1万,社区点赞24,基于 Google 官方模型GGUF量化
Google 31B 指令模型 GGUF 量化版,本地消费级硬件推理
- 部署
-
- oll ollama run hf.co/lmstudio-community/gemma-4-31B-it-GGUF:Q4_K_M 复制
- py llama-cli -m gemma-4-31b-it.Q4_K_M.gguf -p "你的提示" 复制
- 入选理由
- GGUF格式可直接在LM Studio/Ollama运行;下载量34万但无第三方评测;仅为量化重打包,非新能力。
- 对位
- 对位 Qwen2.5-32B、Llama-3.1-70B 蒸馏版
- 适合
- 本地高参数量指令遵循与对话 / 长上下文理解与 RAG 应用
- 不适合
- 4GB 以下显存设备运行
- 规模
- 31B · 未知
- 授权
- apache-2.0
- 框架
- llama.cpp / ollama / LM Studio
- 可信度
- HuggingFace 下载量 34 万,基于 Google gemma-4-31B-it 量化
- 部署
-
- hf huggingface-cli download lmstudio-community/Qwen3.6-27B-GGUF 复制
- py llama.cpp: ./llama-cli -m Qwen3.6-27B-Q4_K_M.gguf 复制
- py LM Studio: 社区模型页一键下载 复制
- 入选理由
- GGUF可直接在LM Studio/Ollama运行;下载量66万但缺第三方评测;仅为量化版本非新模型。
- 对位
- 对位Qwen2.5-32B或Yi-34B量化版
- 适合
- 多轮对话与长文本处理 / 本地量化模型快速验证
- 不适合
- 生产环境高并发API
- 规模
- 27B · 未知
- 授权
- apache-2.0
- 框架
- llama.cpp / LM Studio / ollama
- 可信度
- HuggingFace下载量663k+,LM Studio社区GGUF量化
- 部署
-
- py LM Studio 搜索 gemma-4-E4B-it-GGUF 下载 复制
- hf huggingface-cli download lmstudio-community/gemma-4-E4B-it-GGUF 复制
- py llama.cpp 加载 Q4_K_M 等量化文件 复制
- 入选理由
- GGUF格式可直接运行;下载量超百万;量化版本无新能力
- 对位
- 对位 Llama-3.2-3B、Phi-3-mini
- 适合
- 本地轻量指令跟随与聊天 / 消费级 GPU/CPU 推理
- 不适合
- 复杂推理与多语言长文本
- 规模
- 4B · 未知
- 授权
- apache-2.0
- 框架
- llama.cpp / LM Studio
- 可信度
- 下载 122 万, Google 官方权重, llama.cpp 量化
Qwen3.5-9B 多模态模型,MTP 投机解码,本地快速运行
- 部署
-
- py git clone https://github.com/ggml-org/llama.cpp && cd llama.cpp && cmake -B build -DGGML_CUDA=ON && cmake --build build --target llama-server 复制
- py ./llama.cpp/build/bin/llama-server -hf unsloth/Qwen3.5-9B-MTP-GGUF:UD-Q4_K_XL -ngl 99 -fa on --spec-type draft-mtp 复制
- 入选理由
- GGUF直接可用但需编译llama.cpp;下载量5万+;仅为量化重打包,基础模型虽新但本仓库未增新能力。
- 对位
- 官方 Qwen3.5-9B Transformers 版本
- 适合
- 多模态图像理解与文档分析 / 本地 Agent 工具调用场景
- 不适合
- 多进程推理或 mmproj 场景
- 规模
- 9B · 262k (可扩展至1M)
- 授权
- apache-2.0
- 框架
- llama.cpp / unsloth
- 可信度
- 53048次下载,46点赞,MTP解码提速1.5-2倍,Unsloth Dynamic 2.0量化
IBM Granite 30B GGUF量化, 本地部署与推理
- 部署
-
- py LM Studio: 搜索 'granite-4.1-30b' 直接下载 复制
- py llama.cpp: huggingface-cli download lmstudio-community/granite-4.1-30b-GGUF --include '*.gguf' --local-dir . && ./llama-cli -m <file> 复制
- 入选理由
- 有GGUF格式可直接运行,但下载量低且无第三方证据,仅量化重打包非新模型
- 对位
- 对位Qwen2.5-32B等30B级开源模型
- 适合
- 本地推理与微调基线 / 通用文本生成与对话
- 不适合
- 需高精度、无损推理的任务
- 规模
- 30B · 未知
- 授权
- Apache 2.0
- 框架
- llama.cpp / LM Studio
- 可信度
- HF下载量982, 基于IBM Granite官方模型, Apache 2.0许可, llama.cpp b8994量化
Apple芯片上本地运行的Llama2 7B对话模型
- 部署
-
- py git clone https://github.com/ml-explore/mlx-examples && pip install mlx huggingface_hub && huggingface-cli download mlx-community/Llama-2-7b-chat-mlx --local-dir model 复制
- py python mlx-examples/llama/llama.py --prompt 'Hi' model/ 复制
- 入选理由
- MLX格式仅限Apple设备,有清晰示例但非通用接口;社区转换,无新增能力;下载量中等。
- 对位
- 替代 llama.cpp 的 Llama2-7B-Chat
- 适合
- Apple芯片本地聊天机器人开发 / 离线文本生成与原型测试
- 不适合
- 非Apple芯片或NVIDIA GPU推理
- 规模
- 7B · 4096
- 授权
- llama2
- 框架
- mlx
- 可信度
- HuggingFace下载4057,点赞85,Meta Llama2官方权重转换