此页是 2026-05-25 的观测快照,查看该模型当前信息 → /m/pyannote__speaker-diarization-31/

归档 / 2026-05-25 / speaker-diarization-3.1 (pyannote)

speaker-diarization-3.1 (pyannote)

多说话人分割模型，从音频中区分谁在何时说话

入选理由: 可通过HuggingFace pipeline一行代码跑通说话人分离。
对位: 对位 NeMo Speaker Diarization，替代 pyannote 2.x
适合: 会议转录说话人分离 / 多角色电话录音分割
不适合: 低资源实时流式处理
规模: 未公开 · 不适用（音频长度可分批）
授权: mit · 可商用
框架: pyannote.audio / HuggingFace Transformers
可信度: HuggingFace 下载超 1000 万次，1946 赞

社区实测

Pyannote 3.1 被广泛视为开源说话人日志的事实标准，在准确率、实现难度与社区支持之间取得了最佳平衡；但社区反馈其非英语场景表现不佳，且已被后续社区版 community-1 在所有关键指标上大幅超越。

提供开源、免费可用的说话人日志能力
在准确率、实现难度和社区支持之间取得良好平衡，适合大多数开发者
语音活动检测和重叠语音检测的切分性能被社区认可
通过按说话人分段音频，可显著减少下游 ASR 任务的计算量
可在中等配置 GPU 上运行，配合 Vast.ai 等平台实现低成本部署
可与 Whisper 结合（如 WhisperX）实现转录与说话人日志的一体化流程

非英语场景表现不佳，有用户反馈「does not work very well」
说话人识别效果被部分用户评价为「lackluster」
已被社区版 community-1 大幅超越，后者在所有关键指标上显著优于 3.1
模型更适配英语，中文等非英语语言效果可能打折扣
需要 GPU 才能获得较快的推理速度，纯 CPU 场景不理想
部署配置难度为中等

来源

Best Speaker Diarization Models Compared [2026]Community-1: Unleashing open-source diarization Ask HN: What Speaker Diarization tools should I look into?Looking for diarization model better than Pyannote - Reddit Best diarization model? : r/LocalLLaMA Towards Approximate Fast Diarization: A CPU-Only Alternative to Pyannote 3.1 Speaker Diarization with Pyannote on VAST Can YouTube Stream Recordings Improve Speech Recognition for ...

截至 2026-06-21

快速上手

pip install pyannote.audio && from pyannote.audio import Pipeline; pipeline = Pipeline.from_pretrained('pyannote/speaker-diarization-3.1')

评分详情

Q1: 今天能接上用吗 5 / 5
Q2: 有可信证据吗 5 / 5
Q3: 是新东西吗 3 / 5
总分: 13

HuggingFace 原始数据 (抓取于 2026-05-25)

作者: pyannote
任务类型: automatic-speech-recognition
推理库: pyannote-audio
下载: 10,040,330
点赞: 1,946
许可证: mit
标签: pyannote-audio, pyannote, pyannote-audio-pipeline, audio, voice, speech, speaker, speaker-diarization, speaker-change-detection, voice-activity-detection, overlapped-speech-detection, automatic-speech-recognition, arxiv:2111.14448, arxiv:2012.01477, license:mit, endpoints_compatible, region:us

探索