归档 / 2026-05-25 / speaker-diarization-3.1 (pyannote)

speaker-diarization-3.1 (pyannote)

多说话人分割模型,从音频中区分谁在何时说话

部署
  • pip pip install pyannote.audio && from pyannote.audio import Pipeline; pipeline = Pipeline.from_pretrained('pyannote/speaker-diarization-3.1')
  • py Hugging Face Inference API
  • py HF Space 一键部署
入选理由
可通过HuggingFace pipeline一行代码跑通说话人分离,下载量破千万,社区验证充分;是当前最实用的开源方案。
对位
对位 NeMo Speaker Diarization,替代 pyannote 2.x
适合
会议转录说话人分离 / 多角色电话录音分割
不适合
低资源实时流式处理
规模
未公开 · 不适用(音频长度可分批)
授权
unknown · 需自查
框架
pyannote.audio / HuggingFace Transformers
可信度
HuggingFace 下载超 1000 万次,1946 赞

评分详情

Q1
今天能接上用吗   5 / 5
Q2
有可信证据吗   5 / 5
Q3
是新东西吗   3 / 5
总分
13

HuggingFace 原始数据 (抓取于 2026-05-25)

作者
pyannote
任务类型
automatic-speech-recognition
推理库
pyannote-audio
下载
10,040,330
点赞
1,946
许可证
unknown
标签
pyannote-audio, pyannote, pyannote-audio-pipeline, audio, voice, speech, speaker, speaker-diarization, speaker-change-detection, voice-activity-detection, overlapped-speech-detection, automatic-speech-recognition, arxiv:2111.14448, arxiv:2012.01477, license:mit, endpoints_compatible, region:us

探索

源链接 ↗