模型 / 归档 / 2026-05-26

本期 (5)

文本到图像生成,用于开发者与创作者的视觉内容创建

部署
  • py diffusers: FluxPipeline.from_pretrained('black-forest-labs/FLUX.1-dev')
  • py ComfyUI: 安装 Flux Dev 自定义节点加载模型
入选理由
FLUX.1-dev 可通过 Hugging Face Space 或 API 直接试用,社区下载量和第三方评测充分,是开源图像生成的新标杆。
对位
对位 Stable Diffusion 3, Midjourney v6
适合
高质量文本到图像生成 / 复杂语义与文字渲染
不适合
低显存或实时生成场景
规模
12B · 不适用
授权
非商业许可 · 需自查
框架
diffusers / ComfyUI
可信度
HuggingFace 下载 70.8 万,点赞 1.29 万

1B 端侧模型,工具调用与混合推理

部署
  • vll vllm serve openbmb/MiniCPM5-1B --port 8000
  • py sglang --model-path openbmb/MiniCPM5-1B --port 30000
  • py transformers AutoModelForCausalLM.from_pretrained('openbmb/MiniCPM5-1B')
入选理由
今天可直接试用HF Space或GGUF/Ollama,1B参数长上下文+推理能力亮眼,但下载量极少,第三方验证不足。
对位
对位 Qwen3-0.6B / LFM2.5-1.2B
适合
端侧部署与桌面助手 / 工具调用与代码生成
不适合
安全关键任务需人工校验
规模
1.08B · 131k · Q4 ~0.7GB / FP16 ~2.6GB
授权
Apache-2.0 · 需自查
框架
vllm / sglang / transformers / ollama / llama.cpp
可信度
RL+OPD 提升 16 分; 标准 Llama 架构, 无需自定义内核

为ARO语言微调的代码生成器,4bit量化,供ARO DSL开发者使用

  • Apple Silicon
  • 已量化
部署
  • py mlx_lm.load('ARO-Lang/aro-coder-4bit')
  • py python -m mlx_lm.server --model ARO-Lang/aro-coder-4bit --port 8080
  • oll ollama run aro-coder
入选理由
支持MLX和Ollama等快速部署,但下载量低、无第三方评测,且仅针对小众ARO DSL微调,实用性有限。
对位
通用代码模型,专为ARO DSL优化
适合
生成ARO语言代码片段 / 辅助学习ARO DSL语法
不适合
非ARO语言的通用编程
规模
30B (3B active) · 未知 · Q4 ~0.8GB / FP16 ~3.1GB
授权
MIT · 需自查
框架
mlx / ollama
可信度
训练样本2862条,语法通过率73%,基于Qwen3-Coder-30B-A3B-4bit LoRA微调

像素扩散解码器,将潜在表征一步超分至2K/4K图像

部署
  • py hf download nvidia/PiD --local-dir . --include 'checkpoints/*'
  • py git clone https://github.com/nv-tlabs/PiD
入选理由
有清晰的推理脚本但需自行部署,技术新颖,但缺乏第三方评测且许可证限制科研用途。
对位
替代SD/Flux原生VAE解码+上采样
适合
从LDM潜在空间直接生成2K/4K图像 / 一步完成解码与超分辨率
不适合
生产环境或商业生成
规模
未公开 · N/A
授权
NVIDIA Internal SRDML (仅限研究) · 需自查
框架
pytorch
可信度
NVIDIA发布,代码与checkpoint公开,论文arXiv:2605.23902

面向远场、混响、重叠语音等严重声学退化的鲁棒语音识别

部署
  • py git clone https://github.com/xzf-thu/Mega-ASR
  • pip pip install -r requirements.txt
  • py from MegaASR.model.megaASR import MegaASR
入选理由
基于Qwen3-ASR的鲁棒ASR新方案,有论文和代码示例,但下载量为零,缺乏第三方验证,建议观望。
对位
对位Whisper等常规ASR在恶劣声学条件下
适合
严重噪声、混响、剪切、限带语音转录 / 远场、重叠语音、低质量录音识别
不适合
安静环境下的高保真转写
规模
1.7B · 未知
授权
apache-2.0 · 需自查
框架
PyTorch / Transformers
可信度
arXiv论文2605.19833,仓库含模型权重、路由器和评估脚本

← 前一日 2026-05-25 · 后一日 2026-05-27 →