模型 / 归档 / 2026-05-30

本期 (1)

指令式多语言TTS,流式延迟低至97ms,9音色

部署
  • pip pip install qwen-tts && python -c 'from qwen_tts import Qwen3TTSModel; model=Qwen3TTSModel.from_pretrained("Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice", device_map="cuda:0")'
  • py qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --ip 0.0.0.0 --port 8000
  • py modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --local_dir ./local_model
入选理由
Qwen3-TTS新增指令控制与低延迟流式生成,通过pip/DashScope即可试用,性能领先,但社区第三方验证尚缺。
对位
对位 CosyVoice3、Spark-TTS 等开源指令TTS
适合
低延迟实时语音交互(端到端97ms) / 多语言指令式配音(9音色,10语种)
不适合
需语音克隆的场景(应使用Base模型)
规模
1.7B · 未公开 · Q4 ~1.3GB / FP16 ~4.6GB
授权
Apache-2.0 · 需自查
框架
transformers / vllm-omni
可信度
HF下载182万,点赞1.5k,vLLM-Omni day-0支持,含多项基准数据

← 前一日 2026-05-29 · 后一日 2026-05-31 →