端侧部署的混合MoE模型,用于工具调用与多语言助理
- 部署
-
- py transformers >= 5.0.0: AutoModelForCausalLM.from_pretrained('LiquidAI/LFM2.5-8B-A1B') 复制
- py llama.cpp 加载 GGUF 量化文件 复制
- py vLLM 部署 OpenAI-compatible 服务 复制
- 入选理由
- 支持GGUF/vLLM/Transformers,5分钟可部署;性能显著优于前代,但缺乏社区验证,下载量为0。
- 对位
- 对位 Qwen3.5-4B, Gemma-4-E2B 等端侧模型
- 适合
- 工具调用与结构化输出 / 多语言端侧个人助理
- 不适合
- 重编程或无检索的知识密集型问答
- 规模
- 8.3B (1.5B active) · 131K · Q4 ~5.6GB / FP16 ~20GB
- 授权
- LFM1.0 (custom) · 需自查
- 框架
- transformers / vllm / llama.cpp / mlx
- 可信度
- IFEVAL 91.84, MATH500 88.76, 吞吐18.5K tok/s @ H100
1-bit量化文生图模型,专为Apple Silicon本地运行
- 部署
-
- py MLX Python: BONSAI_VARIANT=binary ./scripts/generate.sh --prompt "..." 复制
- py MLX Swift: 安装Bonsai Studio (App Store) 复制
- 入选理由
- 首个1比特4B扩散模型,0.93GB可在苹果设备本地运行;但下载量为零、无第三方验证,建议观望社区反馈。
- 对位
- 对位FLUX.2 Klein 4B (FP16)
- 适合
- Mac/iPhone/iPad本地生图 / 内存受限设备上运行扩散模型
- 不适合
- 高保真细节与复杂构图
- 规模
- 4B · N/A
- 授权
- apache-2.0 · 需自查
- 框架
- MLX / MLX Swift
- 可信度
- GenEval 0.671, HPSv3 11.15, DPG-Bench 0.822 (H100评测)
混合架构边缘语言模型,GGUF 量化,供 llama.cpp 部署
- 部署
-
- oll ollama run hf.co/LiquidAI/LFM2.5-8B-A1B-GGUF 复制
- py llama-cli -hf LiquidAI/LFM2.5-8B-A1B-GGUF 复制
- 入选理由
- 模型以GGUF格式提供,可通过llama.cpp直接运行;但下载量低,缺乏第三方评测,仅为原始模型的量化版本,创新有限。
- 对位
- 对位 Llama-3-8B、Phi-3-mini 等边缘模型
- 适合
- 移动端/边缘设备文本生成 / 多语言轻量级本地部署
- 不适合
- 高精度复杂推理任务
- 规模
- 8B (激活 1B) · 未知
- 授权
- other (lfm1.0) · 需自查
- 框架
- llama.cpp
- 可信度
- 支持 llama.cpp 的直接 HF 调用,多语言(含中文),Liquid AI 发布
零样本语音克隆多语言TTS模型,支持31种语言及显式暂停控制。
- 部署
-
- py git clone https://github.com/OpenMOSS/MOSS-TTS.git && pip install -e . 复制
- py transformers.AutoModel.from_pretrained('OpenMOSS-Team/MOSS-TTS-v1.5') 复制
- 入选理由
- 需自行部署推理代码,但示例清晰;社区证据有限(仅论文和GitHub);相比1.0版本有质量改进和新增语言支持。
- 对位
- 对位CosyVoice、FishSpeech等开源TTS
- 适合
- 多语种有声内容生成 / 零样本个性化语音克隆
- 不适合
- 低延迟实时语音交互场景
- 规模
- 8.5B · 未知 · Q4 ~5.6GB / FP16 ~20GB
- 授权
- Apache-2.0 · 需自查
- 框架
- transformers
- 可信度
- 论文arxiv 2603.18090,ModelScope可访问,支持31种语言零样本克隆。
1.21GB三元文生图模型,4步采样,本地GPU运行
- 部署
-
- py git clone https://github.com/PrismML-Eng/Bonsai-Image-Demo && cd Bonsai-Image-Demo && ./setup.sh && ./scripts/download_model.sh && ./scripts/serve.sh 复制
- py Python API: from backend_gpu.server import build_pipeline; pipe = build_pipeline('prism-ml/bonsai-image-ternary-4B-gemlite-2bit') 复制
- 入选理由
- 三元量化FLUX模型,1.2GB体积可本地运行,质量接近原版,但缺乏第三方验证,需手动部署。
- 对位
- 对位FP16 FLUX.2 Klein 4B,压缩6.4倍
- 适合
- 本地低显存GPU文生图创作 / 私有化部署与快速创意迭代
- 不适合
- 精细文字与严格构图约束
- 规模
- 4B · 不适用
- 授权
- Apache-2.0 · 需自查
- 框架
- gemlite / HQQ
- 可信度
- GenEval 0.723, 6.4×压缩至1.21GB, RTX3080 4.5s/1024²
1.21GB 三元文生图扩散模型,苹果芯片本地运行
- 部署
-
- py macOS: git clone https://github.com/PrismML-Eng/Bonsai-Image-Demo && cd Bonsai-Image-Demo && ./setup.sh && ./scripts/download_model.sh && ./scripts/generate.sh 复制
- py iOS: Bonsai Studio 应用 (App Store,三元默认) 复制
- 入选理由
- 为Apple Silicon优化的三元量化扩散模型,1.2GB且运行快,但刚发布无第三方验证,建议观望。
- 对位
- 替代 FLUX.2 Klein 4B,端侧三元量化图像生成
- 适合
- 苹果芯片本地隐私图像生成 / 移动端快速创意迭代
- 不适合
- 精细文字、严格构图和细节要求高场景
- 规模
- 4B · 不适用
- 授权
- apache-2.0 · 需自查
- 框架
- mlx / mlx-swift / gemlite
- 可信度
- GenEval 0.723, 6.4×压缩至1.21GB, 苹果芯片MLX部署