HuggingFace

最近 9 天 · 共 22 个

模型
第 18 期 · 2026-06-03

8.3B总参/1.5B活跃,面向端侧个人助手的混合架构模型

部署
  • oll ollama run hf.co/unsloth/LFM2.5-8B-A1B-GGUF
  • py llama.cpp -m LFM2.5-8B-A1B-Q4_K_M.gguf
  • py LM Studio 搜索 LFM2.5-8B-A1B
入选理由
LFM2.5 基础模型性能强且支持工具调用,但本模型仅为量化版本,无新能力。
对位
对位 Granite-4.0-H-Tiny (7B/A1B) 与 Qwen3.5-4B
适合
端侧个人助理及工具调用 / 多语言指令跟随与结构化输出
不适合
重度编程及无检索知识问答
规模
8.3B (1.5B active) · 128k
授权
LFM1.0 · 需自查
框架
llama.cpp / LM Studio / ollama
血统
量化自 LFM2.5-8B-A1B
可信度
下载量29k,Unsloth Dynamic 2.0量化,原模型IFEval 91.84,AA-Omniscience指数-24.70

思考型助手,在<think>块中输出推理链后给出最终答案

部署
  • vll vllm serve JetBrains/Mellum2-12B-A2.5B-Thinking --max-model-len 131072 --reasoning-parser qwen3
  • py transformers.AutoModelForCausalLM.from_pretrained("JetBrains/Mellum2-12B-A2.5B-Thinking")
入选理由
来源于JetBrains的MoE思考模型,推理能力较强,支持vLLM快速部署;但缺乏第三方验证,社区热度低。
对位
对位Qwen3.5与OLMo-3等开源推理模型
适合
复杂代码调试与多步规划 / 数学竞赛与逻辑推理题
不适合
低延迟闲聊或直接指令回答
规模
12B · 131k · Q4 ~8GB / FP16 ~29GB
授权
Apache 2.0 · 需自查
框架
vllm / transformers
可信度
在LiveCodeBench v6代码评测中pass@1达69.9%,在AIME 2025+2026数学评测均分58.4%
第 17 期 · 2026-06-02

6.3B 文本生成同步音视频,支持多说话人音色控制

部署
  • hf huggingface-cli download <repo-id> 后 bash scripts/inference.sh
  • py torchrun 自定义 JSONL 推理,支持 8 卡 Ulysses 并行
  • py Gradio Web UI: bash gradio_demo/start_gradio.sh
入选理由
有详细使用示例和评测,但需手动下载数十GB权重并配置8卡环境,目前下载量仅百余,缺乏第三方验证。
对位
对位 Ovi 1.1、MOVA、Davinci、LTX 2.3 等
适合
文本/图片生成 720p 同步音视频 / 多说话人音色控制配音视频
不适合
长于 10 秒视频或非中英文输入
规模
6.3B · 文本 512 tokens · 最大 10 秒视频
授权
apache-2.0 · 需自查
框架
diffusers / torchrun
视频
文生 · 720p · 10s · 推荐 8 卡 Ulysses 并行
血统
微调自 Wan2.2-TI2V-5B
可信度
VerseBench Sync-C 7.79,基于 Wan2.2-TI2V-5B,论文 arxiv 2605.30073

文本生成高保真图像,面向物理AI与创作

部署
  • vll vllm serve nvidia/Cosmos3-Super-Text2Image (vLLM-Omni)
  • py diffusers.Cosmos3OmniPipeline.from_pretrained()
  • dkr docker pull vllm/vllm-omni:cosmos3
入选理由
完备的推理接口(vLLM-Omni、Diffusers)可快速上手;但下载量低、无第三方评测,创新性一般,暂列观察。
对位
开源替代Flux、SD3等文生图模型
适合
物理世界场景生成 / 文本到高保真图像创作
不适合
安全关键任务与精确物理模拟
规模
64B · 4k tokens (文本输入) · Q4 ~43GB / FP16 ~155GB
授权
OpenMDW1.1 · 需自查
框架
vLLM-Omni / Diffusers / PyTorch
可信度
NVIDIA发布,64B参数,支持vLLM-Omni/Diffusers,经GB200/H100推理验证
第 16 期 · 2026-06-01

Qwen3.5-9B MoQ量化版,MTP推测解码,适合本地快速生成

部署
  • oll ollama run hf.co/w-ahmad/Qwen3.5-9B-GGUF-MoQ-MTP
  • py llama.cpp: ./llama-cli -m Qwen3.5-9B-MoQ-4.85.gguf
  • py llama-cpp-python: 直接加载 GGUF 文件进行推理
入选理由
基于Qwen3.5-9B的MoQ量化模型,有现成GGUF文件可直接用llama.cpp推理,第三方评测显示性能优于同类量化,但社区热度低。
对位
替代 Unsloth Dynamic 等均匀量化,同体积质量更高
适合
本地内存受限下的9B模型推理 / 利用MTP推测解码加速文本生成
不适合
追求极致精度或官方全量模型的任务
规模
9B · 32k
授权
MIT · 需自查
框架
llama.cpp / llama-cpp-python
可信度
6k下载,基于Qwen3.5-9B,MoQ量化在WikiText上优于UnslothDynamic约10%
第 15 期 · 2026-05-31

198B MoE视觉模型GGUF量化,适合128GB统一内存本地推理

部署
  • py git clone https://github.com/stepfun-ai/llama.cpp && cd llama.cpp && git checkout step3.7 && cmake -B build && cmake --build build
  • py ./llama-server -m Step-3.7-flash-Q4_K_S.gguf --mmproj mmproj-Step-3.7-flash-f16.gguf -ngl 99 -c 32768
入选理由
官方量化版,可本地运行多模态MoE模型,但缺乏第三方独立验证,建议观望。
对位
对位Qwen2.5-VL-72B或闭源视觉API
适合
本地私有化视觉问答与Agent工具调用 / 长上下文多模态理解与推理
不适合
低于64GB内存设备
规模
198B (激活11B) · 256k
授权
Apache-2.0 · 需自查
框架
llama.cpp (step3.7分支)
可信度
近30天下载2.9万次,Q4_K_S在M4 Max 262K上下文下生成9.7 t/s

Qwen3.6-35B-A3B FP4量化版,面向vLLM高效推理

  • 已量化
部署
  • vll vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --quantization modelopt
入选理由
Qwen3.6-35B-A3B的NVFP4量化版,可直接通过vLLM部署,但缺少第三方评测且仅为量化重打包,适合有高端GPU的用户试用。
对位
对位Qwen3.6-35B-A3B BF16
适合
AI Agent系统 / RAG与聊天机器人
不适合
有毒提示或偏见内容生成
规模
35B (激活3B) · 262k · Q4 ~12GB / FP16 ~45GB
授权
Apache 2.0 · 需自查
框架
vllm
可信度
67020下载,46赞;FP4量化MMLU Pro 85.0,比BF16仅降0.6
第 14 期 · 2026-05-30

指令式多语言TTS,流式延迟低至97ms,9音色

部署
  • pip pip install qwen-tts && python -c 'from qwen_tts import Qwen3TTSModel; model=Qwen3TTSModel.from_pretrained("Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice", device_map="cuda:0")'
  • py qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --ip 0.0.0.0 --port 8000
  • py modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --local_dir ./local_model
入选理由
Qwen3-TTS新增指令控制与低延迟流式生成,通过pip/DashScope即可试用,性能领先,但社区第三方验证尚缺。
对位
对位 CosyVoice3、Spark-TTS 等开源指令TTS
适合
低延迟实时语音交互(端到端97ms) / 多语言指令式配音(9音色,10语种)
不适合
需语音克隆的场景(应使用Base模型)
规模
1.7B · 未公开 · Q4 ~1.3GB / FP16 ~4.6GB
授权
Apache-2.0 · 需自查
框架
transformers / vllm-omni
可信度
HF下载182万,点赞1.5k,vLLM-Omni day-0支持,含多项基准数据
第 13 期 · 2026-05-29

端侧部署的混合MoE模型,用于工具调用与多语言助理

部署
  • py transformers >= 5.0.0: AutoModelForCausalLM.from_pretrained('LiquidAI/LFM2.5-8B-A1B')
  • py llama.cpp 加载 GGUF 量化文件
  • py vLLM 部署 OpenAI-compatible 服务
入选理由
支持GGUF/vLLM/Transformers,5分钟可部署;性能显著优于前代,但缺乏社区验证,下载量为0。
对位
对位 Qwen3.5-4B, Gemma-4-E2B 等端侧模型
适合
工具调用与结构化输出 / 多语言端侧个人助理
不适合
重编程或无检索的知识密集型问答
规模
8.3B (1.5B active) · 131K · Q4 ~5.6GB / FP16 ~20GB
授权
LFM1.0 (custom) · 需自查
框架
transformers / vllm / llama.cpp / mlx
可信度
IFEVAL 91.84, MATH500 88.76, 吞吐18.5K tok/s @ H100

1-bit量化文生图模型,专为Apple Silicon本地运行

  • Apple Silicon
部署
  • py MLX Python: BONSAI_VARIANT=binary ./scripts/generate.sh --prompt "..."
  • py MLX Swift: 安装Bonsai Studio (App Store)
入选理由
首个1比特4B扩散模型,0.93GB可在苹果设备本地运行;但下载量为零、无第三方验证,建议观望社区反馈。
对位
对位FLUX.2 Klein 4B (FP16)
适合
Mac/iPhone/iPad本地生图 / 内存受限设备上运行扩散模型
不适合
高保真细节与复杂构图
规模
4B · N/A
授权
apache-2.0 · 需自查
框架
MLX / MLX Swift
可信度
GenEval 0.671, HPSv3 11.15, DPG-Bench 0.822 (H100评测)

混合架构边缘语言模型,GGUF 量化,供 llama.cpp 部署

部署
  • oll ollama run hf.co/LiquidAI/LFM2.5-8B-A1B-GGUF
  • py llama-cli -hf LiquidAI/LFM2.5-8B-A1B-GGUF
入选理由
模型以GGUF格式提供,可通过llama.cpp直接运行;但下载量低,缺乏第三方评测,仅为原始模型的量化版本,创新有限。
对位
对位 Llama-3-8B、Phi-3-mini 等边缘模型
适合
移动端/边缘设备文本生成 / 多语言轻量级本地部署
不适合
高精度复杂推理任务
规模
8B (激活 1B) · 未知
授权
other (lfm1.0) · 需自查
框架
llama.cpp
可信度
支持 llama.cpp 的直接 HF 调用,多语言(含中文),Liquid AI 发布

零样本语音克隆多语言TTS模型,支持31种语言及显式暂停控制。

部署
  • py git clone https://github.com/OpenMOSS/MOSS-TTS.git && pip install -e .
  • py transformers.AutoModel.from_pretrained('OpenMOSS-Team/MOSS-TTS-v1.5')
入选理由
需自行部署推理代码,但示例清晰;社区证据有限(仅论文和GitHub);相比1.0版本有质量改进和新增语言支持。
对位
对位CosyVoice、FishSpeech等开源TTS
适合
多语种有声内容生成 / 零样本个性化语音克隆
不适合
低延迟实时语音交互场景
规模
8.5B · 未知 · Q4 ~5.6GB / FP16 ~20GB
授权
Apache-2.0 · 需自查
框架
transformers
可信度
论文arxiv 2603.18090,ModelScope可访问,支持31种语言零样本克隆。

1.21GB三元文生图模型,4步采样,本地GPU运行

部署
  • py git clone https://github.com/PrismML-Eng/Bonsai-Image-Demo && cd Bonsai-Image-Demo && ./setup.sh && ./scripts/download_model.sh && ./scripts/serve.sh
  • py Python API: from backend_gpu.server import build_pipeline; pipe = build_pipeline('prism-ml/bonsai-image-ternary-4B-gemlite-2bit')
入选理由
三元量化FLUX模型,1.2GB体积可本地运行,质量接近原版,但缺乏第三方验证,需手动部署。
对位
对位FP16 FLUX.2 Klein 4B,压缩6.4倍
适合
本地低显存GPU文生图创作 / 私有化部署与快速创意迭代
不适合
精细文字与严格构图约束
规模
4B · 不适用
授权
Apache-2.0 · 需自查
框架
gemlite / HQQ
可信度
GenEval 0.723, 6.4×压缩至1.21GB, RTX3080 4.5s/1024²

1.21GB 三元文生图扩散模型,苹果芯片本地运行

  • Apple Silicon
部署
  • py macOS: git clone https://github.com/PrismML-Eng/Bonsai-Image-Demo && cd Bonsai-Image-Demo && ./setup.sh && ./scripts/download_model.sh && ./scripts/generate.sh
  • py iOS: Bonsai Studio 应用 (App Store,三元默认)
入选理由
为Apple Silicon优化的三元量化扩散模型,1.2GB且运行快,但刚发布无第三方验证,建议观望。
对位
替代 FLUX.2 Klein 4B,端侧三元量化图像生成
适合
苹果芯片本地隐私图像生成 / 移动端快速创意迭代
不适合
精细文字、严格构图和细节要求高场景
规模
4B · 不适用
授权
apache-2.0 · 需自查
框架
mlx / mlx-swift / gemlite
可信度
GenEval 0.723, 6.4×压缩至1.21GB, 苹果芯片MLX部署
第 12 期 · 2026-05-28

1B 模型 GGUF 量化,本地 agent 与边缘部署用

部署
  • oll ollama run hf.co/openbmb/MiniCPM5-1B-GGUF
  • py llama.cpp 直接加载 GGUF 文件运行
  • py 魔搭 ModelScope 下载 GGUF
入选理由
MiniCPM5-1B GGUF格式即下即用,1B参数长上下文+工具调用,多项优化达SOTA,推荐用于本地部署。
对位
对位 LFM2.5-1.2B / Qwen3.5-0.8B
适合
本地工具调用 agent / 边缘推理与桌面宠物
不适合
高吞吐量线上服务
规模
1B · 128k
授权
apache-2.0 · 需自查
框架
llama.cpp / ollama / LM Studio
可信度
RL+OPD 训练带来平均分 +16、超长回复率 ↓29pp;1B 级工具调用/推理 SOTA
第 11 期 · 2026-05-27

昇腾原生1.58-bit三元LLM,推理内存降6x,保持95.7%性能

部署
  • py transformers: AutoModelForCausalLM.from_pretrained('openbmb/BitCPM-CANN-8B')
  • oll ollama create 从 https://huggingface.co/openbmb/BitCPM-CANN-8B-gguf 导入
入选理由
支持GGUF和Transformers快速部署,是首个昇腾NPU原生1.58-bit训练模型,性能保留超95%;但缺乏第三方独立评测。
对位
对位 MiniCPM4 8B 全精度版
适合
昇腾NPU上低内存推理 / 1.58-bit 三元量化研究
不适合
需BF16全精度的场景
规模
8B · 未知
授权
apache-2.0 · 需自查
框架
transformers / llama.cpp / ollama
可信度
11项基准平均保留95.7%全精度性能,推理内存减至1/6,QAT仅多5%训练开销,有GGUF

128GB Mac本地编码与工具调用GGUF

部署
  • oll ollama run hf.co/jedisct1/MiMo-V2.5-coder-Q2
  • py llama.cpp: llama-server -hf jedisct1/MiMo-V2.5-coder-Q2
  • py bash run-server.sh (克隆仓库)
入选理由
高质量编码专用GGUF,开箱即用,但缺乏第三方评测,本质为已有模型量化重打包。
对位
超大MoE编码模型的本地量化方案
适合
128GB Mac上的本地代码生成 / OpenAI兼容工具调用代理循环
不适合
中文/多模态任务
规模
未公开 · 100k
授权
MIT · 需自查
框架
llama.cpp
可信度
编码(11/11)、工具调用(22/22)、代理(10/10)通过本地验证
第 10 期 · 2026-05-26

文本到图像生成,用于开发者与创作者的视觉内容创建

部署
  • py diffusers: FluxPipeline.from_pretrained('black-forest-labs/FLUX.1-dev')
  • py ComfyUI: 安装 Flux Dev 自定义节点加载模型
入选理由
FLUX.1-dev 可通过 Hugging Face Space 或 API 直接试用,社区下载量和第三方评测充分,是开源图像生成的新标杆。
对位
对位 Stable Diffusion 3, Midjourney v6
适合
高质量文本到图像生成 / 复杂语义与文字渲染
不适合
低显存或实时生成场景
规模
12B · 不适用
授权
非商业许可 · 需自查
框架
diffusers / ComfyUI
可信度
HuggingFace 下载 70.8 万,点赞 1.29 万

1B 端侧模型,工具调用与混合推理

部署
  • vll vllm serve openbmb/MiniCPM5-1B --port 8000
  • py sglang --model-path openbmb/MiniCPM5-1B --port 30000
  • py transformers AutoModelForCausalLM.from_pretrained('openbmb/MiniCPM5-1B')
入选理由
今天可直接试用HF Space或GGUF/Ollama,1B参数长上下文+推理能力亮眼,但下载量极少,第三方验证不足。
对位
对位 Qwen3-0.6B / LFM2.5-1.2B
适合
端侧部署与桌面助手 / 工具调用与代码生成
不适合
安全关键任务需人工校验
规模
1.08B · 131k · Q4 ~0.7GB / FP16 ~2.6GB
授权
Apache-2.0 · 需自查
框架
vllm / sglang / transformers / ollama / llama.cpp
可信度
RL+OPD 提升 16 分; 标准 Llama 架构, 无需自定义内核

为ARO语言微调的代码生成器,4bit量化,供ARO DSL开发者使用

  • Apple Silicon
  • 已量化
部署
  • py mlx_lm.load('ARO-Lang/aro-coder-4bit')
  • py python -m mlx_lm.server --model ARO-Lang/aro-coder-4bit --port 8080
  • oll ollama run aro-coder
入选理由
支持MLX和Ollama等快速部署,但下载量低、无第三方评测,且仅针对小众ARO DSL微调,实用性有限。
对位
通用代码模型,专为ARO DSL优化
适合
生成ARO语言代码片段 / 辅助学习ARO DSL语法
不适合
非ARO语言的通用编程
规模
30B (3B active) · 未知 · Q4 ~0.8GB / FP16 ~3.1GB
授权
MIT · 需自查
框架
mlx / ollama
可信度
训练样本2862条,语法通过率73%,基于Qwen3-Coder-30B-A3B-4bit LoRA微调

像素扩散解码器,将潜在表征一步超分至2K/4K图像

部署
  • py hf download nvidia/PiD --local-dir . --include 'checkpoints/*'
  • py git clone https://github.com/nv-tlabs/PiD
入选理由
有清晰的推理脚本但需自行部署,技术新颖,但缺乏第三方评测且许可证限制科研用途。
对位
替代SD/Flux原生VAE解码+上采样
适合
从LDM潜在空间直接生成2K/4K图像 / 一步完成解码与超分辨率
不适合
生产环境或商业生成
规模
未公开 · N/A
授权
NVIDIA Internal SRDML (仅限研究) · 需自查
框架
pytorch
可信度
NVIDIA发布,代码与checkpoint公开,论文arXiv:2605.23902

面向远场、混响、重叠语音等严重声学退化的鲁棒语音识别

部署
  • py git clone https://github.com/xzf-thu/Mega-ASR
  • pip pip install -r requirements.txt
  • py from MegaASR.model.megaASR import MegaASR
入选理由
基于Qwen3-ASR的鲁棒ASR新方案,有论文和代码示例,但下载量为零,缺乏第三方验证,建议观望。
对位
对位Whisper等常规ASR在恶劣声学条件下
适合
严重噪声、混响、剪切、限带语音转录 / 远场、重叠语音、低质量录音识别
不适合
安静环境下的高保真转写
规模
1.7B · 未知
授权
apache-2.0 · 需自查
框架
PyTorch / Transformers
可信度
arXiv论文2605.19833,仓库含模型权重、路由器和评估脚本

更早内容见 归档 →