此页是 2026-05-26 的观测快照,查看该模型当前信息 → /m/zhifeixie__mega-asr/

归档 / 2026-05-26 / Mega-ASR (THU)

Mega-ASR (THU)

面向远场、混响、重叠语音等严重声学退化的鲁棒语音识别

入选理由: 基于Qwen3-ASR的鲁棒ASR新方案，有论文和代码示例。
对位: 对位Whisper等常规ASR在恶劣声学条件下
适合: 严重噪声、混响、剪切、限带语音转录 / 远场、重叠语音、低质量录音识别
不适合: 安静环境下的高保真转写
规模: 1.7B · 未知
授权: apache-2.0 · 可商用
框架: PyTorch / Transformers
血统: 微调自 Qwen3-ASR-1.7B
可信度: arXiv论文2605.19833，仓库含模型权重、路由器和评估脚本

社区实测

社区对 Mega-ASR 的实际表现持观望态度，有人指出其演示在理想条件下效果很好，但真实场景的鲁棒性仍有待验证。

演示在完美条件下表现良好，但实际复杂声学环境下的泛化能力存疑

来源

Mega-ASR: Towards In-the-wild 2 Speech Recognition via scaling ...

截至 2026-06-19

快速上手

from MegaASR.model.megaASR import MegaASR

评分详情

Q1: 今天能接上用吗 3 / 5
Q2: 有可信证据吗 1 / 5
Q3: 是新东西吗 5 / 5
总分: 9

HuggingFace 原始数据 (抓取于 2026-05-26)

作者: zhifeixie
任务类型: automatic-speech-recognition
推理库: 未指定
下载: 0
点赞: 59
许可证: apache-2.0
标签: safetensors, automatic-speech-recognition, speech-recognition, audio, robust-asr, qwen3-asr, en, zh, dataset:zhifeixie/Voices-in-the-Wild-2M, arxiv:2605.19833, license:apache-2.0, region:us

探索