模型 / 归档 / 2026-05-20

本期 (9)

Apple Silicon 的 1-bit LLM,端侧极低内存推理

  • Apple Silicon
部署
  • pip pip install mlx-lm; pip install mlx@git+https://github.com/PrismML-Eng/mlx.git@prism; from mlx_lm import load; load('prism-ml/Bonsai-8B-mlx-1bit')
  • py Colab 在线试用: https://colab.research.google.com/drive/1EzyAaQ2nwDv_1X0jaC5XiVC3ZREg9bdG
入选理由
提供Colab在线试用和MLX格式,5分钟可运行;下载量高;端到端1-bit量化,显著降低内存,核心创新。
对位
对位 Qwen3-8B、Llama 3.1 8B 等全精度模型
适合
iPhone/Mac 本地隐私推理 / 移动端及边缘低功耗部署
不适合
需全精度浮点的高敏感任务
规模
8B · 65k
授权
Apache-2.0
框架
mlx / llama.cpp / mlx-swift
可信度
下载量 15k+,平均分 70.5 接近全精度 8B,内存仅 1.28 GB

Gemma4 26B 无审查 MLX, 本地代理加速

  • Apple Silicon
  • 已量化
部署
  • py mlx_lm.server --model Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2
  • py mlx_lm.generate --model Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2 --prompt '...'
入选理由
提供MLX命令行与OpenAI兼容接口,可快速部署;下载量2.5万+社区采用;基于Gemma4微调优化,benchmark提升
对位
vs 原版 Gemma 4 26B IT 量化
适合
代码与工具使用代理 / 无审查对话与指令跟随
不适合
视觉或多模态任务
规模
26B (4-bit) · 未知
授权
gemma
框架
mlx
可信度
下载 2.5 万, bench 95.8, 生成 46.2 tok/s

DS4引擎专用量化,128/256GB Mac本地推理

  • 已量化
部署
  • oll ollama run hf.co/antirez/deepseek-v4-gguf
  • py git clone https://github.com/antirez/ds4 && cd ds4 && ./download_model.sh q2
  • py ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192
入选理由
有完整GGUF量化文件与ds4运行脚本,可快速试用;下载量大但缺乏第三方评测;仅量化重打包无新能力
对位
对位其他DeepSeek-V4的GGUF量化,专为ds4优化
适合
128/256 GB Mac本地运行DeepSeek V4 / MTP推测解码加速生成
不适合
非Apple Silicon或RAM<128GB
规模
未公开 · 100k
授权
MIT
框架
ds4 / llama.cpp
可信度
322k下载,149赞,作者antirez(Redis之父),量化配方透明

覆盖4000+语言的语音基础模型,供ASR/翻译微调

  • Apple Silicon
部署
  • py git lfs install && git clone https://huggingface.co/espnet/XEUS
  • pip pip install 'espnet @ git+https://github.com/wanchichen/espnet.git@ssl'
  • py python -c "from espnet2.tasks.ssl import SSLTask; model, _ = SSLTask.build_model_from_file(None, 'espnet/XEUS/checkpoint.pth', 'cuda')"
入选理由
需ESPnet代码运行,无现成API;仅有自引论文和基准,无社区复现;覆盖4000+语言,新架构SOTA
对位
对位MMS、XLS-R等跨语言语音模型
适合
多语言语音识别微调 / 语音翻译与语音tokenization
不适合
不微调直接用于生产ASR
规模
577M · 未知
授权
CC BY-NC-SA 4.0
框架
espnet / pytorch / flash-attn
可信度
ML-SUPERB超越MMS/XLS-R,577M参数,100万小时预训练

Apple Silicon 上运行的 Whisper 语音识别模型

  • Apple Silicon
部署
  • pip pip install mlx-whisper
  • py mlx_whisper.transcribe(audio, path_or_hf_repo='mlx-community/whisper-large-v3-mlx')
入选理由
mlx-whisper库可直接运行,下载量高但仅为whisper格式转换,无新能力
对位
替代 OpenAI Whisper large-v3,专为 Apple Silicon 优化
适合
Mac 本地离线语音转录 / 与 MLX 生态无缝集成
不适合
非 Apple Silicon 设备
规模
1.55B · 30s 音频片段
授权
MIT
框架
mlx
可信度
HuggingFace 下载量 151k,81 点赞,mlx-community 发布

为开发者输出最少代码行的可运行代码

  • Apple Silicon
部署
  • py mlx_lm.server --model mlx-community/Qwen2.5-Coder-0.5B-Instruct-4bit --adapter-path salakash/Minimalism --port 8080
  • py python -c "from peft import PeftModel; PeftModel.from_pretrained('Qwen/Qwen2.5-Coder-0.5B-Instruct', 'salakash/Minimalism')"
入选理由
多种部署方式(MLX/Transformers/API)易用,但缺乏第三方证据,仅是基于Qwen2.5-Coder的LoRA微调,有质量改进而非全新
对位
替代冗长输出的通用代码助手
适合
输出最少代码行的可运行代码 / Apple Silicon本地推理
不适合
非Python或复杂软件项目
规模
0.5B · 32k
授权
Apache-2.0
框架
mlx-lm / transformers
可信度
适配器仅12MB,9步质量门(G1-G5)确保输出可运行,内部测试代码行数减少约30%

1B预对齐前缀LM,用前缀条件做结构化输出与推理

部署
  • pip pip install git+https://github.com/huggingface/transformers.git@main
  • py AutoModelForCausalLM.from_pretrained('sapientinc/HRM-Text-1B', trust_remote_code=True)
入选理由
需手动安装最新transformers,有示例;缺第三方验证;HRM循环架构新颖;总分9达到观察线
对位
对位SmolLM2-1.7B、Qwen2.5-0.5B等小型预训练LM
适合
Few-shot 直接答案提取(direct前缀) / 复合条件 CoT 推理(synth,cot前缀)
不适合
聊天对话与代码生成
规模
1B · 4096
授权
Apache-2.0
框架
transformers
可信度
下载884次,点赞112;训练数据开源(data_io),许可证Apache-2.0

Mac端Whisper large-v3-turbo,MLX低延迟转写

  • Apple Silicon
部署
  • pip pip install mlx-whisper && mlx_whisper audio.wav --model mlx-community/whisper-large-v3-turbo
入选理由
MLX格式可直接用mlx-whisper运行,但限Apple硬件;下载量3.2万,有社区使用;仅格式转换无新增能力。
对位
对位PyTorch版Whisper large-v3-turbo,Mac端加速
适合
Mac本地离线语音转写 / 低延迟实时字幕生成
不适合
非Apple Silicon设备
规模
809M · 30s
授权
unknown
框架
mlx
可信度
32.6k下载,93赞; mlx-community官方转换,MLX加速可用

LTX-2.3模型的ComfyUI工作流集合,用于图像/视频生成。

部署
  • py git clone https://huggingface.co/RuneXX/LTX-2.3-Workflows
  • py 下载并安装ComfyUI节点:KJNodes、ComfyUI-GGUF
  • py 按照仓库说明放置LTX-2.3 split模型文件
入选理由
工作流需自行搭建ComfyUI并下载多个模型,无在线试用;有第三方GGUF支持和官方引用;属重打包,无模型创新。
对位
替代手动搭建LTX-2.3工作流。
适合
快速搭建图像/视频到视频流水线 / image-to-video等多媒体生成任务
不适合
不使用ComfyUI的纯脚本生成
规模
未公开 · 未知
授权
unknown
框架
ComfyUI
可信度
Hugging Face点赞589,依赖节点KJNodes和GGUF已获社区验证。

← 前一日 2026-05-19 · 后一日 2026-05-21 →