模型 / 归档 / 2026-05-24

本期 (4)

Claude CoT 逆推微调的推理模型,支持视觉与工具调用

部署
  • oll ollama run hf.co/Jackrong/Qwopus3.6-27B-v2-GGUF:Q5_K_M
  • hf huggingface-cli download Jackrong/Qwopus3.6-27B-v2-GGUF --include '*.gguf'
  • py 下载 gguf 文件后 llama-server -m <gguf-file> --n-gpu-layers 99
入选理由
有现成GGUF可快速部署,但缺乏第三方独立评测,性能提升基于自报告benchmark,社区关注度一般。
对位
替代 Qwen3.6-27B,推理效率更高
适合
复杂代码修复与 SWE-bench 任务 / 多模态推理与 CoT 生成
不适合
低显存(<16GB)本地运行
规模
27B · 128K
授权
apache-2.0 · 需自查
框架
ollama / llama.cpp
可信度
SWE-bench 75.25%, MMLU-Pro 子集 87.43%, 下载 2.8k, 赞 87

多Token预测推理模型,面向编码、数学、DevOps开发者

部署
  • hf huggingface-cli download Jackrong/Qwopus3.6-27B-v2-MTP-GGUF qwopus3.6-27b-v2-mtp.Q4_K_M.gguf
  • py llama.cpp server -m qwopus3.6-27b-v2-mtp.Q4_K_M.gguf -ngl 99
入选理由
Qwen3.6-27B的GGUF微调版,支持MTP加速生成,可直接用Ollama运行,但缺乏第三方评测,需自行验证质量。
对位
Qwen3.6-27B 加速替代,同参数量解码速度提升66%
适合
代码生成与系统设计 / 数学推导与复杂逻辑推理
不适合
生产关键任务(社区实验模型)
规模
27B · 128k
授权
Apache 2.0 · 需自查
框架
llama.cpp / ollama / LM Studio
可信度
下载3.5k+、63赞;30题基准测试吞吐10.46t/s,较原版Qwen3.6-27B快66%

移除拒绝回路,能力保持,本地全栈部署

部署
  • oll ollama run hf.co/OBLITERATUS/Qwen3.6-27B-OBLITERATED
  • py transformers: AutoModelForCausalLM.from_pretrained('OBLITERATUS/Qwen3.6-27B-OBLITERATED')
  • vll vllm serve OBLITERATUS/Qwen3.6-27B-OBLITERATED
入选理由
提供GGUF/Ollama支持,5分钟可跑;但缺乏第三方独立评测,证据主要来自作者自测。
对位
原版Qwen3.6-27B及其它拒绝过滤27B模型
适合
本地低拒答文本生成 / 拒绝消融与红队研究
不适合
生产环境用户产品(需安全控制)
规模
26.9B · 8192 · Q4 ~18GB / FP16 ~65GB
授权
apache-2.0 · 需自查
框架
transformers / vllm / llama.cpp / ollama
可信度
842对提示非拒答率95.84%, MMLU-Pro与源模型匹配, GGUF四量化级别可用

3.8B文本生成图像基础模型,高效训练与高分辨率生成

部署
  • py git clone https://github.com/microsoft/Lens && python inference.py
  • py LensPipeline.from_pretrained('microsoft/Lens')
入选理由
模型有完整推理代码和论文,但缺少社区量化/第三方评测,下载量低,建议等后续生态集成再评估。
对位
以3.8B参数量竞争更大T2I模型(如FLUX)
适合
高分辨率(1440×1440)图像生成 / 密集描述与多语言提示跟随
不适合
生产环境与商业产品部署
规模
3.8B · 未知
授权
MIT · 需自查
框架
diffusers / transformers / pytorch
可信度
GitHub仓库开源,论文arXiv 2605.21573,MIT许可证

← 前一日 2026-05-23 · 后一日 2026-05-25 →