归档 / 2026-06-02 / NAVA (Baidu)

NAVA (Baidu)

6.3B 文本生成同步音视频，支持多说话人音色控制

部署

hf huggingface-cli download <repo-id> 后 bash scripts/inference.sh
py torchrun 自定义 JSONL 推理，支持 8 卡 Ulysses 并行
py Gradio Web UI: bash gradio_demo/start_gradio.sh

入选理由: 有详细使用示例和评测，但需手动下载数十GB权重并配置8卡环境，目前下载量仅百余，缺乏第三方验证。
对位: 对位 Ovi 1.1、MOVA、Davinci、LTX 2.3 等
适合: 文本/图片生成 720p 同步音视频 / 多说话人音色控制配音视频
不适合: 长于 10 秒视频或非中英文输入
规模: 6.3B · 文本 512 tokens · 最大 10 秒视频
授权: apache-2.0 · 需自查
框架: diffusers / torchrun
视频: 文生 · 720p · 10s · 推荐 8 卡 Ulysses 并行
血统: 微调自 Wan2.2-TI2V-5B
可信度: VerseBench Sync-C 7.79，基于 Wan2.2-TI2V-5B，论文 arxiv 2605.30073

评分详情

Q1: 今天能接上用吗 3 / 5
Q2: 有可信证据吗 1 / 5
Q3: 是新东西吗 5 / 5
总分: 9

HuggingFace 原始数据 (抓取于 2026-06-02)

作者: ernie-research
任务类型: text-to-video
推理库: custom
下载: 104
点赞: 49
许可证: apache-2.0
标签: custom, ti2v, text-to-video, text-to-audio-video, audio-video-generation, mmdit, flow-matching, wan2.2, en, zh, arxiv:2605.30073, base_model:Wan-AI/Wan2.2-TI2V-5B, base_model:finetune:Wan-AI/Wan2.2-TI2V-5B, license:apache-2.0, region:us

探索