模型 / 归档 / 2026-05-29

本期 (6)

端侧部署的混合MoE模型,用于工具调用与多语言助理

部署
  • py transformers >= 5.0.0: AutoModelForCausalLM.from_pretrained('LiquidAI/LFM2.5-8B-A1B')
  • py llama.cpp 加载 GGUF 量化文件
  • py vLLM 部署 OpenAI-compatible 服务
入选理由
支持GGUF/vLLM/Transformers,5分钟可部署;性能显著优于前代,但缺乏社区验证,下载量为0。
对位
对位 Qwen3.5-4B, Gemma-4-E2B 等端侧模型
适合
工具调用与结构化输出 / 多语言端侧个人助理
不适合
重编程或无检索的知识密集型问答
规模
8.3B (1.5B active) · 131K · Q4 ~5.6GB / FP16 ~20GB
授权
LFM1.0 (custom) · 需自查
框架
transformers / vllm / llama.cpp / mlx
可信度
IFEVAL 91.84, MATH500 88.76, 吞吐18.5K tok/s @ H100

1-bit量化文生图模型,专为Apple Silicon本地运行

  • Apple Silicon
部署
  • py MLX Python: BONSAI_VARIANT=binary ./scripts/generate.sh --prompt "..."
  • py MLX Swift: 安装Bonsai Studio (App Store)
入选理由
首个1比特4B扩散模型,0.93GB可在苹果设备本地运行;但下载量为零、无第三方验证,建议观望社区反馈。
对位
对位FLUX.2 Klein 4B (FP16)
适合
Mac/iPhone/iPad本地生图 / 内存受限设备上运行扩散模型
不适合
高保真细节与复杂构图
规模
4B · N/A
授权
apache-2.0 · 需自查
框架
MLX / MLX Swift
可信度
GenEval 0.671, HPSv3 11.15, DPG-Bench 0.822 (H100评测)

混合架构边缘语言模型,GGUF 量化,供 llama.cpp 部署

部署
  • oll ollama run hf.co/LiquidAI/LFM2.5-8B-A1B-GGUF
  • py llama-cli -hf LiquidAI/LFM2.5-8B-A1B-GGUF
入选理由
模型以GGUF格式提供,可通过llama.cpp直接运行;但下载量低,缺乏第三方评测,仅为原始模型的量化版本,创新有限。
对位
对位 Llama-3-8B、Phi-3-mini 等边缘模型
适合
移动端/边缘设备文本生成 / 多语言轻量级本地部署
不适合
高精度复杂推理任务
规模
8B (激活 1B) · 未知
授权
other (lfm1.0) · 需自查
框架
llama.cpp
可信度
支持 llama.cpp 的直接 HF 调用,多语言(含中文),Liquid AI 发布

零样本语音克隆多语言TTS模型,支持31种语言及显式暂停控制。

部署
  • py git clone https://github.com/OpenMOSS/MOSS-TTS.git && pip install -e .
  • py transformers.AutoModel.from_pretrained('OpenMOSS-Team/MOSS-TTS-v1.5')
入选理由
需自行部署推理代码,但示例清晰;社区证据有限(仅论文和GitHub);相比1.0版本有质量改进和新增语言支持。
对位
对位CosyVoice、FishSpeech等开源TTS
适合
多语种有声内容生成 / 零样本个性化语音克隆
不适合
低延迟实时语音交互场景
规模
8.5B · 未知 · Q4 ~5.6GB / FP16 ~20GB
授权
Apache-2.0 · 需自查
框架
transformers
可信度
论文arxiv 2603.18090,ModelScope可访问,支持31种语言零样本克隆。

1.21GB三元文生图模型,4步采样,本地GPU运行

部署
  • py git clone https://github.com/PrismML-Eng/Bonsai-Image-Demo && cd Bonsai-Image-Demo && ./setup.sh && ./scripts/download_model.sh && ./scripts/serve.sh
  • py Python API: from backend_gpu.server import build_pipeline; pipe = build_pipeline('prism-ml/bonsai-image-ternary-4B-gemlite-2bit')
入选理由
三元量化FLUX模型,1.2GB体积可本地运行,质量接近原版,但缺乏第三方验证,需手动部署。
对位
对位FP16 FLUX.2 Klein 4B,压缩6.4倍
适合
本地低显存GPU文生图创作 / 私有化部署与快速创意迭代
不适合
精细文字与严格构图约束
规模
4B · 不适用
授权
Apache-2.0 · 需自查
框架
gemlite / HQQ
可信度
GenEval 0.723, 6.4×压缩至1.21GB, RTX3080 4.5s/1024²

1.21GB 三元文生图扩散模型,苹果芯片本地运行

  • Apple Silicon
部署
  • py macOS: git clone https://github.com/PrismML-Eng/Bonsai-Image-Demo && cd Bonsai-Image-Demo && ./setup.sh && ./scripts/download_model.sh && ./scripts/generate.sh
  • py iOS: Bonsai Studio 应用 (App Store,三元默认)
入选理由
为Apple Silicon优化的三元量化扩散模型,1.2GB且运行快,但刚发布无第三方验证,建议观望。
对位
替代 FLUX.2 Klein 4B,端侧三元量化图像生成
适合
苹果芯片本地隐私图像生成 / 移动端快速创意迭代
不适合
精细文字、严格构图和细节要求高场景
规模
4B · 不适用
授权
apache-2.0 · 需自查
框架
mlx / mlx-swift / gemlite
可信度
GenEval 0.723, 6.4×压缩至1.21GB, 苹果芯片MLX部署

← 前一日 2026-05-28 · 后一日 2026-05-30 →