模型 / 归档 / 2026-05-25

本期 (2)

多说话人分割模型,从音频中区分谁在何时说话

部署
  • pip pip install pyannote.audio && from pyannote.audio import Pipeline; pipeline = Pipeline.from_pretrained('pyannote/speaker-diarization-3.1')
  • py Hugging Face Inference API
  • py HF Space 一键部署
入选理由
可通过HuggingFace pipeline一行代码跑通说话人分离,下载量破千万,社区验证充分;是当前最实用的开源方案。
对位
对位 NeMo Speaker Diarization,替代 pyannote 2.x
适合
会议转录说话人分离 / 多角色电话录音分割
不适合
低资源实时流式处理
规模
未公开 · 不适用(音频长度可分批)
授权
unknown · 需自查
框架
pyannote.audio / HuggingFace Transformers
可信度
HuggingFace 下载超 1000 万次,1946 赞

轻量多语言翻译模型,支持 llama.cpp 本地部署

部署
  • py llama.cpp 直接加载 GGUF 文件推理
  • py modelscope 下载: tencent/Hy-MT2-1.8B-GGUF
入选理由
腾讯开源的新一代翻译模型GGUF版,支持33种语言,可直接用llama.cpp运行,性能超越多个商业API,值得关注。
对位
替代商业翻译 API 如微软、豆包轻量级翻译
适合
多语言文本翻译(33 种语言) / 边缘设备离线翻译部署
不适合
非翻译类文本生成
规模
1.8B · 未知
授权
未知 · 需自查
框架
llama.cpp
可信度
HF 下载量 8515,点赞 50;论文报告多维度翻译评测

← 前一日 2026-05-24 · 后一日 2026-05-26 →