模型 / 归档 / 2026-06-03

本期 (2)

8.3B总参/1.5B活跃,面向端侧个人助手的混合架构模型

部署
  • oll ollama run hf.co/unsloth/LFM2.5-8B-A1B-GGUF
  • py llama.cpp -m LFM2.5-8B-A1B-Q4_K_M.gguf
  • py LM Studio 搜索 LFM2.5-8B-A1B
入选理由
LFM2.5 基础模型性能强且支持工具调用,但本模型仅为量化版本,无新能力。
对位
对位 Granite-4.0-H-Tiny (7B/A1B) 与 Qwen3.5-4B
适合
端侧个人助理及工具调用 / 多语言指令跟随与结构化输出
不适合
重度编程及无检索知识问答
规模
8.3B (1.5B active) · 128k
授权
LFM1.0 · 需自查
框架
llama.cpp / LM Studio / ollama
血统
量化自 LFM2.5-8B-A1B
可信度
下载量29k,Unsloth Dynamic 2.0量化,原模型IFEval 91.84,AA-Omniscience指数-24.70

思考型助手,在<think>块中输出推理链后给出最终答案

部署
  • vll vllm serve JetBrains/Mellum2-12B-A2.5B-Thinking --max-model-len 131072 --reasoning-parser qwen3
  • py transformers.AutoModelForCausalLM.from_pretrained("JetBrains/Mellum2-12B-A2.5B-Thinking")
入选理由
来源于JetBrains的MoE思考模型,推理能力较强,支持vLLM快速部署;但缺乏第三方验证,社区热度低。
对位
对位Qwen3.5与OLMo-3等开源推理模型
适合
复杂代码调试与多步规划 / 数学竞赛与逻辑推理题
不适合
低延迟闲聊或直接指令回答
规模
12B · 131k · Q4 ~8GB / FP16 ~29GB
授权
Apache 2.0 · 需自查
框架
vllm / transformers
可信度
在LiveCodeBench v6代码评测中pass@1达69.9%,在AIME 2025+2026数学评测均分58.4%

← 前一日 2026-06-02 · 后一日 不可用 (已是最新)