Qwen3-TTS-12Hz-1.7B-CustomVoice (Qwen)

指令式多语言TTS，流式延迟低至97ms，9音色

入选理由: Qwen3-TTS新增指令控制与低延迟流式生成，通过pip/DashScope即可试用，性能领先。
对位: 对位 CosyVoice3、Spark-TTS 等开源指令TTS
适合: 低延迟实时语音交互（端到端97ms） / 多语言指令式配音（9音色，10语种）
不适合: 需语音克隆的场景（应使用Base模型）
规模: 1.7B · 未公开 · Q4 ~1.3GB / FP16 ~4.6GB
授权: Apache-2.0 · 可商用
框架: transformers / vllm-omni
可信度: HF下载182万，点赞1.5k，vLLM-Omni day-0支持，含多项基准数据

仅 safetensors · 无 pickle 加载风险

社区实测

社区普遍认为 Qwen3-TTS 是当前最强的开源语音克隆 TTS 之一，仅需 3 秒参考音频即可生成高度拟人的克隆语音，支持 10 余种语言且可在 CUDA/ROCm/MPS 等多种硬件上本地运行，已被用于替代 ElevenLabs 等付费服务。但推理速度偏慢、GPU 利用率低，部分用户认为其表达力相比 VibeVoice 偏平淡。

仅需 3 秒参考音频即可完成语音克隆
可在 CUDA、ROCm、MPS 等多种硬件后端上本地运行
支持中英日韩德法俄葡西意等 10 种主流语言
支持通过自然语言指令进行语音设计
CustomVoice 提供 9 种覆盖不同性别、年龄、语言和方言的预置音色
已被社区用于生产环境生成博客旁白，替代 Google Cloud TTS 和 ElevenLabs
社区 fork 实现了实时流式推理，RTF 可超过 1.0
已有 ComfyUI 自定义节点集成

推理速度偏慢，有用户反馈生成速度低
GPU 利用率仅约 12%，存在优化空间
与 VibeVoice 相比表达力偏平淡/单调
VoiceDesign 模型设计的语音难以在下一次生成中保留复用
社区反馈缺少阿拉伯语、越南语、荷兰语、罗马尼亚语、粤语等语言支持
社区 faster 版本在 PyTorch ≤2.5.0 上 CUDA graph 捕获不可靠

来源

Qwen3 TTS 1.7B Best Open Source Voice Cloning Model : r/aicuriosity Qwen3-TTS is an open-source series of TTS models ... - GitHub Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice · Discussions VoiceDesign, CustomVoice, and Base, 5 models (0.6B & 1.8B), Support for 10 languages : r/LocalLLaMA Qwen3-TTS 1.7B vs VibeVoice 7B : r/StableDiffusion The Real Cost of Running Qwen TTS Locally: Three Machines Compared | TinyComputers.io Qwen3-TTS Family is Now Open Sourced: Voice Design, Clone, and Generation! - Alibaba Cloud Community GitHub - andimarafioti/faster-qwen3-tts: Real-time text-to-speech with Qwen3-TTS · GitHub Qwen3-TTS: The ElevenLabs Killer?

截至 2026-06-21

快速上手

pip install qwen-tts && python -c 'from qwen_tts import Qwen3TTSModel; model=Qwen3TTSModel.from_pretrained("Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice", device_map="cuda:0")'

Qwen3-TTS-12Hz-1.7B-CustomVoice (Qwen)

社区实测

评分详情

HuggingFace 原始数据 (抓取于 2026-05-30)

探索