Apple Silicon 的 1-bit LLM,端侧极低内存推理
- 部署
-
- pip pip install mlx-lm; pip install mlx@git+https://github.com/PrismML-Eng/mlx.git@prism; from mlx_lm import load; load('prism-ml/Bonsai-8B-mlx-1bit') 复制
- py Colab 在线试用: https://colab.research.google.com/drive/1EzyAaQ2nwDv_1X0jaC5XiVC3ZREg9bdG 复制
- 入选理由
- 提供Colab在线试用和MLX格式,5分钟可运行;下载量高;端到端1-bit量化,显著降低内存,核心创新。
- 对位
- 对位 Qwen3-8B、Llama 3.1 8B 等全精度模型
- 适合
- iPhone/Mac 本地隐私推理 / 移动端及边缘低功耗部署
- 不适合
- 需全精度浮点的高敏感任务
- 规模
- 8B · 65k
- 授权
- Apache-2.0
- 框架
- mlx / llama.cpp / mlx-swift
- 可信度
- 下载量 15k+,平均分 70.5 接近全精度 8B,内存仅 1.28 GB
Gemma4 26B 无审查 MLX, 本地代理加速
- 部署
-
- py mlx_lm.server --model Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2 复制
- py mlx_lm.generate --model Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2 --prompt '...' 复制
- 入选理由
- 提供MLX命令行与OpenAI兼容接口,可快速部署;下载量2.5万+社区采用;基于Gemma4微调优化,benchmark提升
- 对位
- vs 原版 Gemma 4 26B IT 量化
- 适合
- 代码与工具使用代理 / 无审查对话与指令跟随
- 不适合
- 视觉或多模态任务
- 规模
- 26B (4-bit) · 未知
- 授权
- gemma
- 框架
- mlx
- 可信度
- 下载 2.5 万, bench 95.8, 生成 46.2 tok/s
DS4引擎专用量化,128/256GB Mac本地推理
- 部署
-
- oll ollama run hf.co/antirez/deepseek-v4-gguf 复制
- py git clone https://github.com/antirez/ds4 && cd ds4 && ./download_model.sh q2 复制
- py ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192 复制
- 入选理由
- 有完整GGUF量化文件与ds4运行脚本,可快速试用;下载量大但缺乏第三方评测;仅量化重打包无新能力
- 对位
- 对位其他DeepSeek-V4的GGUF量化,专为ds4优化
- 适合
- 128/256 GB Mac本地运行DeepSeek V4 / MTP推测解码加速生成
- 不适合
- 非Apple Silicon或RAM<128GB
- 规模
- 未公开 · 100k
- 授权
- MIT
- 框架
- ds4 / llama.cpp
- 可信度
- 322k下载,149赞,作者antirez(Redis之父),量化配方透明
覆盖4000+语言的语音基础模型,供ASR/翻译微调
- 部署
-
- py git lfs install && git clone https://huggingface.co/espnet/XEUS 复制
- pip pip install 'espnet @ git+https://github.com/wanchichen/espnet.git@ssl' 复制
- py python -c "from espnet2.tasks.ssl import SSLTask; model, _ = SSLTask.build_model_from_file(None, 'espnet/XEUS/checkpoint.pth', 'cuda')" 复制
- 入选理由
- 需ESPnet代码运行,无现成API;仅有自引论文和基准,无社区复现;覆盖4000+语言,新架构SOTA
- 对位
- 对位MMS、XLS-R等跨语言语音模型
- 适合
- 多语言语音识别微调 / 语音翻译与语音tokenization
- 不适合
- 不微调直接用于生产ASR
- 规模
- 577M · 未知
- 授权
- CC BY-NC-SA 4.0
- 框架
- espnet / pytorch / flash-attn
- 可信度
- ML-SUPERB超越MMS/XLS-R,577M参数,100万小时预训练
Apple Silicon 上运行的 Whisper 语音识别模型
- 部署
-
- pip pip install mlx-whisper 复制
- py mlx_whisper.transcribe(audio, path_or_hf_repo='mlx-community/whisper-large-v3-mlx') 复制
- 入选理由
- mlx-whisper库可直接运行,下载量高但仅为whisper格式转换,无新能力
- 对位
- 替代 OpenAI Whisper large-v3,专为 Apple Silicon 优化
- 适合
- Mac 本地离线语音转录 / 与 MLX 生态无缝集成
- 不适合
- 非 Apple Silicon 设备
- 规模
- 1.55B · 30s 音频片段
- 授权
- MIT
- 框架
- mlx
- 可信度
- HuggingFace 下载量 151k,81 点赞,mlx-community 发布
Mac端Whisper large-v3-turbo,MLX低延迟转写
- 部署
-
- pip pip install mlx-whisper && mlx_whisper audio.wav --model mlx-community/whisper-large-v3-turbo 复制
- 入选理由
- MLX格式可直接用mlx-whisper运行,但限Apple硬件;下载量3.2万,有社区使用;仅格式转换无新增能力。
- 对位
- 对位PyTorch版Whisper large-v3-turbo,Mac端加速
- 适合
- Mac本地离线语音转写 / 低延迟实时字幕生成
- 不适合
- 非Apple Silicon设备
- 规模
- 809M · 30s
- 授权
- unknown
- 框架
- mlx
- 可信度
- 32.6k下载,93赞; mlx-community官方转换,MLX加速可用