模型 / 归档 / 2026-05-21

本期 (17)

谷歌 Gemma 4 指令模型 GGUF 量化版,本地高效部署

部署
  • py lmstudio://download?model=lmstudio-community/gemma-4-E2B-it-GGUF
  • hf huggingface-cli download lmstudio-community/gemma-4-E2B-it-GGUF --local-dir ./models
入选理由
GGUF格式可直接在LM Studio/Ollama使用,下载量26万,社区认可度高;但仅是量化重打包,无新能力。
对位
对位 Qwen2.5-3B、Llama-3.2-3B
适合
本地代码生成与补全 / 轻量级聊天机器人原型开发
不适合
高精度复杂推理任务
规模
未知 · 未知
授权
apache-2.0
框架
llama.cpp / LM Studio / ollama
可信度
HuggingFace 下载量超 26 万,谷歌官方模型,LM Studio 团队量化

9B多令牌预测代码模型,GGUF量化,面向代码推理

部署
  • oll ollama run hf.co/Jackrong/Qwopus3.5-9B-Coder-MTP-GGUF:Q4_K_M
  • py llama.cpp: ./llama-cli -m qwopus3.5-9b-coder-mtp.Q4_K_M.gguf -ngl 99
  • py llama-cpp-python: Llama(model_path='<gguf-path>')
入选理由
Q1: GGUF格式可直接部署;Q2: 无第三方评测,主要为作者自证;Q3: MTP提升速度与准确率,但属同系列微调。
对位
对位 Qwen2.5-Coder-7B,强调MTP推理加速
适合
本地代码生成与补全 / 高吞吐 Agent 代码推理
不适合
长上下文推理或非量化高精度需求
规模
9B · 128k
授权
apache-2.0
框架
llama.cpp / ollama / llama-cpp-python
可信度
下载量6680,点赞51;基于Qwen3.5-9B,MTP实测吞吐+35.8%

本地运行 397B MoE 多模态,GGUF 量化 + MTP 加速

部署
  • py llama.cpp: ./llama-cli -m Qwen3.5-397B-A17B-Q4_K_M.gguf --spec-type draft-mtp --spec-draft-model ./mtp-Qwen_Qwen3.5-397B-A17B-Q8_0.gguf
  • py LM Studio: 搜索 bartowski Qwen3.5-397B-A17B 直接下载
  • hf huggingface-cli download bartowski/Qwen_Qwen3.5-397B-A17B-GGUF --include 'Qwen3.5-397B-A17B-Q4_K_M.gguf' --local-dir ./
入选理由
GGUF格式直接可用,下载量近万;但仅为量化版本,无新能力,缺少第三方评测。
对位
对标 DeepSeek-V2 系列 236B MoE,本地量化替代云端 API
适合
多模态图像理解与对话 / 高吞吐本地推理,利用 MTP 加速
不适合
RAM <200GB 或消费级硬件
规模
397B (17B active) · 未知
授权
Apache 2.0
框架
llama.cpp / LM Studio / koboldcpp
可信度
imatrix 校准量化,SSM 小张量上转 F32,支持 MTP 推理 (llama.cpp b9180)

NVIDIA 多模态推理模型 GGUF 量化版,本地推理用

部署
  • py LM Studio 搜索 Nemotron-3-Nano-Omni 一键下载
  • py llama.cpp 运行: ./llama-cli -m <gguf-file>
入选理由
GGUF格式可直接在LM Studio/Ollama本地运行,下载量高但仅量化版本,无新能力
对位
对位 3B 激活量的推理模型
适合
本地多模态对话 / 图像理解与推理
不适合
生产级高并发推理
规模
30B (3B 激活) · 未知
授权
NVIDIA Open Model Agreement
框架
llama.cpp / ollama / lm-studio
可信度
HuggingFace 168900 下载,LM Studio 社区精选

35B MoE仅3B激活的GGUF量化版,适合本地中文开发

部署
  • hf huggingface-cli download lmstudio-community/Qwen3.6-35B-A3B-GGUF --include '*.gguf' --local-dir ./models
  • py llama-cli -m models/<文件名>.gguf -p '你好'
入选理由
GGUF格式可直接用LM Studio/Ollama运行,下载量超50万表明社区认可,但仅为量化重打包,非新模型。
对位
对位 Mixtral-8x7B 与 Llama-3-70B 混合专家模型
适合
本地中文对话与代码补全 / 低内存占用(3B激活)的MoE推理
不适合
复杂数学或长链逻辑推理
规模
35B (3B 激活) · 未知
授权
apache-2.0
框架
llama.cpp / ollama / LM Studio
可信度
HuggingFace下载52.5万次,Qwen官方训练,LM Studio量化发布

26B总参/4B活跃的MoE指令模型,面向本地推理

部署
  • hf huggingface-cli download lmstudio-community/gemma-4-26B-A4B-it-GGUF
  • py llama-cli -m gemma-4-26B-A4B-it-Q4_K_M.gguf -p 你好
  • py LM Studio 搜索 gemma-4-26B-A4B-it 加载
入选理由
GGUF量化版可直接本地运行,下载量32万但缺乏第三方评测,无新能力仅格式转换
对位
对位 Llama-3.1-8B、Qwen2.5-7B
适合
本地聊天与指令跟随 / 资源受限环境文本生成
不适合
高精度复杂推理
规模
26B (4B活跃) · 128k
授权
Apache-2.0
框架
llama.cpp / ollama / LM Studio
可信度
Hugging Face 下载量32.1万,社区点赞24,基于 Google 官方模型GGUF量化

Google 31B 指令模型 GGUF 量化版,本地消费级硬件推理

部署
  • oll ollama run hf.co/lmstudio-community/gemma-4-31B-it-GGUF:Q4_K_M
  • py llama-cli -m gemma-4-31b-it.Q4_K_M.gguf -p "你的提示"
入选理由
GGUF格式可直接在LM Studio/Ollama运行;下载量34万但无第三方评测;仅为量化重打包,非新能力。
对位
对位 Qwen2.5-32B、Llama-3.1-70B 蒸馏版
适合
本地高参数量指令遵循与对话 / 长上下文理解与 RAG 应用
不适合
4GB 以下显存设备运行
规模
31B · 未知
授权
apache-2.0
框架
llama.cpp / ollama / LM Studio
可信度
HuggingFace 下载量 34 万,基于 Google gemma-4-31B-it 量化

27B参数GGUF版,本地AI原型开发

部署
  • hf huggingface-cli download lmstudio-community/Qwen3.6-27B-GGUF
  • py llama.cpp: ./llama-cli -m Qwen3.6-27B-Q4_K_M.gguf
  • py LM Studio: 社区模型页一键下载
入选理由
GGUF可直接在LM Studio/Ollama运行;下载量66万但缺第三方评测;仅为量化版本非新模型。
对位
对位Qwen2.5-32B或Yi-34B量化版
适合
多轮对话与长文本处理 / 本地量化模型快速验证
不适合
生产环境高并发API
规模
27B · 未知
授权
apache-2.0
框架
llama.cpp / LM Studio / ollama
可信度
HuggingFace下载量663k+,LM Studio社区GGUF量化

Gemma4-4B-it 量化版, 本地轻量推理

部署
  • py LM Studio 搜索 gemma-4-E4B-it-GGUF 下载
  • hf huggingface-cli download lmstudio-community/gemma-4-E4B-it-GGUF
  • py llama.cpp 加载 Q4_K_M 等量化文件
入选理由
GGUF格式可直接运行;下载量超百万;量化版本无新能力
对位
对位 Llama-3.2-3B、Phi-3-mini
适合
本地轻量指令跟随与聊天 / 消费级 GPU/CPU 推理
不适合
复杂推理与多语言长文本
规模
4B · 未知
授权
apache-2.0
框架
llama.cpp / LM Studio
可信度
下载 122 万, Google 官方权重, llama.cpp 量化

文档结构化提取和Markdown转换的4B视觉语言模型

部署
入选理由
有HF Space和vLLM接口可即用,但缺乏第三方评测,本质为微调改进
对位
对位Qwen3.5-4B、Gemma-4-E4B等小型文档VLM
适合
发票/合同/表格等文档JSON结构化提取 / 图片/扫描PDF转Markdown供RAG使用
不适合
通用图像问答或纯文本生成
规模
4B · 131k
授权
Apache-2.0
框架
vllm / transformers
可信度
内部600样本benchmark结构提取均分0.651,超Gemma-4-E4B-it(0.538)与Qwen3.5-4B(0.417)

三模式 LM (AR/扩散/自推测),为 AI 应用开发者提供高效生成

部署
  • py transformers from_pretrained()
入选理由
有推理代码但无现成接口;仅官方宣传;模型架构创新
对位
对位 Qwen3-8B / Eagle3
适合
高吞吐对话生成(自推测解码) / 边缘设备单用户加速推理(DGX Spark)
不适合
长文本场景(上下文长度未公开)
规模
14B · 未知
授权
NVIDIA Nemotron Open Model License
框架
transformers
可信度
自推测接受长度 3× vs Qwen3-8B-Eagle3,DGX Spark 上 2.7× 加速 (w4a16)

Qwen3.5-9B 多模态模型,MTP 投机解码,本地快速运行

部署
  • py git clone https://github.com/ggml-org/llama.cpp && cd llama.cpp && cmake -B build -DGGML_CUDA=ON && cmake --build build --target llama-server
  • py ./llama.cpp/build/bin/llama-server -hf unsloth/Qwen3.5-9B-MTP-GGUF:UD-Q4_K_XL -ngl 99 -fa on --spec-type draft-mtp
入选理由
GGUF直接可用但需编译llama.cpp;下载量5万+;仅为量化重打包,基础模型虽新但本仓库未增新能力。
对位
官方 Qwen3.5-9B Transformers 版本
适合
多模态图像理解与文档分析 / 本地 Agent 工具调用场景
不适合
多进程推理或 mmproj 场景
规模
9B · 262k (可扩展至1M)
授权
apache-2.0
框架
llama.cpp / unsloth
可信度
53048次下载,46点赞,MTP解码提速1.5-2倍,Unsloth Dynamic 2.0量化

MiniMax M2.7 GGUF量化版,适合本地部署与实验

部署
  • hf huggingface-cli download lmstudio-community/MiniMax-M2.7-GGUF --local-dir . && ./llama-cli -m <file>.gguf
  • oll ollama create MiniMax-M2.7 -f Modelfile (FROM ./file.gguf)
入选理由
GGUF格式可直接用Ollama/LM Studio;下载量过万但缺独立评测;量化版本无新增能力
对位
对位 Phi-2、Gemma 2B 等小模型
适合
低成本本地推理实验 / 对话与文本生成原型
不适合
复杂逻辑推理与长篇生成
规模
2.7B · 未知
授权
other
框架
llama.cpp / ollama
可信度
LM Studio 团队量化,HuggingFace 下载量 13,632

IBM Granite 30B GGUF量化, 本地部署与推理

部署
  • py LM Studio: 搜索 'granite-4.1-30b' 直接下载
  • py llama.cpp: huggingface-cli download lmstudio-community/granite-4.1-30b-GGUF --include '*.gguf' --local-dir . && ./llama-cli -m <file>
入选理由
有GGUF格式可直接运行,但下载量低且无第三方证据,仅量化重打包非新模型
对位
对位Qwen2.5-32B等30B级开源模型
适合
本地推理与微调基线 / 通用文本生成与对话
不适合
需高精度、无损推理的任务
规模
30B · 未知
授权
Apache 2.0
框架
llama.cpp / LM Studio
可信度
HF下载量982, 基于IBM Granite官方模型, Apache 2.0许可, llama.cpp b8994量化

IBM Granite 4.1 3B GGUF量化,本地推理与边缘部署

部署
  • py LM Studio 搜索 granite-4.1-3b-GGUF 下载运行
  • py llama.cpp -m granite-4.1-3b-Q4_K_M.gguf
入选理由
GGUF格式可直接使用,但下载量低且无第三方评测,仅为量化重打包。
对位
对位Phi-3-mini、Qwen2.5-3B
适合
本地CPU推理 / 轻量级文本生成助手
不适合
高精度推理或长上下文
规模
3B · 未知
授权
Apache-2.0
框架
llama.cpp / LM Studio
可信度
IBM Granite系列,Apache-2.0许可,HuggingFace 582次下载

IBM Granite 4.1 8B的GGUF量化,用于本地推理

部署
  • py 在LM Studio中搜索'granite-4.1-8b-GGUF'下载加载
  • py llama.cpp -m granite-4.1-8b.gguf
入选理由
GGUF格式可直接运行,但缺乏第三方评测,本质是量化重打包
对位
对位 Llama-3.1-8B
适合
本地CPU推理 / 低资源设备文本生成
不适合
高并发生产环境
规模
8B · 未知
授权
apache-2.0
框架
llama.cpp / LM Studio / ollama
可信度
HF下载1015,由LM Studio使用llama.cpp b8994量化

Apple芯片上本地运行的Llama2 7B对话模型

  • Apple Silicon
部署
  • py git clone https://github.com/ml-explore/mlx-examples && pip install mlx huggingface_hub && huggingface-cli download mlx-community/Llama-2-7b-chat-mlx --local-dir model
  • py python mlx-examples/llama/llama.py --prompt 'Hi' model/
入选理由
MLX格式仅限Apple设备,有清晰示例但非通用接口;社区转换,无新增能力;下载量中等。
对位
替代 llama.cpp 的 Llama2-7B-Chat
适合
Apple芯片本地聊天机器人开发 / 离线文本生成与原型测试
不适合
非Apple芯片或NVIDIA GPU推理
规模
7B · 4096
授权
llama2
框架
mlx
可信度
HuggingFace下载4057,点赞85,Meta Llama2官方权重转换

← 前一日 2026-05-20 · 后一日 2026-05-22 →