6.3B 文本生成同步音视频,支持多说话人音色控制
- 部署
-
- hf huggingface-cli download <repo-id> 后 bash scripts/inference.sh 复制
- py torchrun 自定义 JSONL 推理,支持 8 卡 Ulysses 并行 复制
- py Gradio Web UI: bash gradio_demo/start_gradio.sh 复制
- 入选理由
- 有详细使用示例和评测,但需手动下载数十GB权重并配置8卡环境,目前下载量仅百余,缺乏第三方验证。
- 对位
- 对位 Ovi 1.1、MOVA、Davinci、LTX 2.3 等
- 适合
- 文本/图片生成 720p 同步音视频 / 多说话人音色控制配音视频
- 不适合
- 长于 10 秒视频或非中英文输入
- 规模
- 6.3B · 文本 512 tokens · 最大 10 秒视频
- 授权
- apache-2.0 · 需自查
- 框架
- diffusers / torchrun
- 视频
- 文生 · 720p · 10s · 推荐 8 卡 Ulysses 并行
- 血统
- 微调自 Wan2.2-TI2V-5B
- 可信度
- VerseBench Sync-C 7.79,基于 Wan2.2-TI2V-5B,论文 arxiv 2605.30073