归档 / 2026-05-30 / Qwen3-TTS-12Hz-1.7B-CustomVoice (Qwen)

Qwen3-TTS-12Hz-1.7B-CustomVoice (Qwen)

指令式多语言TTS,流式延迟低至97ms,9音色

部署
  • pip pip install qwen-tts && python -c 'from qwen_tts import Qwen3TTSModel; model=Qwen3TTSModel.from_pretrained("Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice", device_map="cuda:0")'
  • py qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --ip 0.0.0.0 --port 8000
  • py modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --local_dir ./local_model
入选理由
Qwen3-TTS新增指令控制与低延迟流式生成,通过pip/DashScope即可试用,性能领先,但社区第三方验证尚缺。
对位
对位 CosyVoice3、Spark-TTS 等开源指令TTS
适合
低延迟实时语音交互(端到端97ms) / 多语言指令式配音(9音色,10语种)
不适合
需语音克隆的场景(应使用Base模型)
规模
1.7B · 未公开 · Q4 ~1.3GB / FP16 ~4.6GB
授权
Apache-2.0 · 需自查
框架
transformers / vllm-omni
可信度
HF下载182万,点赞1.5k,vLLM-Omni day-0支持,含多项基准数据

评分详情

Q1
今天能接上用吗   5 / 5
Q2
有可信证据吗   3 / 5
Q3
是新东西吗   5 / 5
总分
13

HuggingFace 原始数据 (抓取于 2026-05-30)

作者
Qwen
任务类型
text-to-speech
推理库
未指定
下载
1,821,209
点赞
1,548
许可证
Apache-2.0
标签
safetensors, qwen3_tts, text-to-speech, arxiv:2601.15621, license:apache-2.0, region:us

探索

源链接 ↗