Meta-Llama-3-8B-Instruct-4bit (mlx-community)

Llama-3-8B 4-bit版，M系列芯片本地推理

Apple Silicon

入选理由: Llama 3 8B的4bit量化版，可用mlx-lm快速运行，但无新能力，适合苹果用户部署。
对位: 对位原始Llama-3-8B-Instruct，适配Mac本地推理
适合: Mac本地聊天与文本生成 / 离线隐私敏感场景
不适合: 非Apple Silicon设备（需MLX）
规模: 8B · 8k · Q4 ~1.1GB / FP16 ~4.1GB
授权: llama3 · 需自查
框架: mlx-lm
可信度: HuggingFace 10.5k下载，81点赞，mlx-community官方转换

仅 safetensors · 无 pickle 加载风险

社区实测

社区普遍认为 MLX 4bit 版 Llama 3 8B 是 Apple Silicon Mac 上最便捷的本地部署方案之一，几行代码即可加载运行；在 MMLU Pro 上质量与 GGUF q4_K_M 基本持平，8GB 内存的 M2 mini 即可跑到约 18.5 tok/s；首次加载内存占用比 GGUF q4_K_M 减少约 30%，适合轻量日常使用和快速原型验证。

在 8GB 统一内存的 M2 mini 上即可流畅运行，部署门槛极低
通过 mlx_lm 库两行代码即可加载和生成，上手简单
MLX 4bit 量化在 MMLU Pro 上的质量与 GGUF q4_K_M 基本持平
首次加载时内存占用比 GGUF q4_K_M 减少约 30%
已被 Xinference 收录为内置模型，支持一键部署
基于 Meta 官方 Llama 3 Instruct 直接转换，对话优化表现稳定

在相同硬件上吞吐量低于 gemma-2-9b，尽管参数量更少
MMLU Pro 评测结果存在一定的随机波动，单次跑分需谨慎解读

来源

mlx-community/Meta-Llama-3-8B-Instruct-4bit · Hugging Face mlx-community/Meta-Llama-3-8B-Instruct-4bit · ml-explore/mlx · Discussion #1013 · GitHub LM Studio ships an MLX backend! Run any LLM from the Hugging ...MLX-4bit vs GGUF-q4_K_M : r/LocalLLaMA llama-3-instruct — Xinference Running LLMs Locally on Your Mac: A Deep Dive into MLX ...

截至 2026-06-21

快速上手示例

pip install mlx-lm && mlx_lm.generate --model mlx-community/Meta-Llama-3-8B-Instruct-4bit --prompt "hello"

依赖版本和硬件参数请以源仓库说明为准。

Meta-Llama-3-8B-Instruct-4bit (mlx-community)

社区实测

评分详情

HuggingFace 原始数据 (抓取于 2026-05-22)

探索