归档 / 2026-05-26 / Mega-ASR (THU)

Mega-ASR (THU)

面向远场、混响、重叠语音等严重声学退化的鲁棒语音识别

部署
  • py git clone https://github.com/xzf-thu/Mega-ASR
  • pip pip install -r requirements.txt
  • py from MegaASR.model.megaASR import MegaASR
入选理由
基于Qwen3-ASR的鲁棒ASR新方案,有论文和代码示例,但下载量为零,缺乏第三方验证,建议观望。
对位
对位Whisper等常规ASR在恶劣声学条件下
适合
严重噪声、混响、剪切、限带语音转录 / 远场、重叠语音、低质量录音识别
不适合
安静环境下的高保真转写
规模
1.7B · 未知
授权
apache-2.0 · 需自查
框架
PyTorch / Transformers
可信度
arXiv论文2605.19833,仓库含模型权重、路由器和评估脚本

评分详情

Q1
今天能接上用吗   3 / 5
Q2
有可信证据吗   1 / 5
Q3
是新东西吗   5 / 5
总分
9

HuggingFace 原始数据 (抓取于 2026-05-26)

作者
zhifeixie
任务类型
automatic-speech-recognition
推理库
未指定
下载
0
点赞
59
许可证
apache-2.0
标签
safetensors, automatic-speech-recognition, speech-recognition, audio, robust-asr, qwen3-asr, en, zh, dataset:zhifeixie/Voices-in-the-Wild-2M, arxiv:2605.19833, license:apache-2.0, region:us

探索

源链接 ↗