归档 / 2026-06-02 / NAVA (Baidu)

NAVA (Baidu)

6.3B 文本生成同步音视频,支持多说话人音色控制

部署
  • hf huggingface-cli download <repo-id> 后 bash scripts/inference.sh
  • py torchrun 自定义 JSONL 推理,支持 8 卡 Ulysses 并行
  • py Gradio Web UI: bash gradio_demo/start_gradio.sh
入选理由
有详细使用示例和评测,但需手动下载数十GB权重并配置8卡环境,目前下载量仅百余,缺乏第三方验证。
对位
对位 Ovi 1.1、MOVA、Davinci、LTX 2.3 等
适合
文本/图片生成 720p 同步音视频 / 多说话人音色控制配音视频
不适合
长于 10 秒视频或非中英文输入
规模
6.3B · 文本 512 tokens · 最大 10 秒视频
授权
apache-2.0 · 需自查
框架
diffusers / torchrun
视频
文生 · 720p · 10s · 推荐 8 卡 Ulysses 并行
血统
微调自 Wan2.2-TI2V-5B
可信度
VerseBench Sync-C 7.79,基于 Wan2.2-TI2V-5B,论文 arxiv 2605.30073

评分详情

Q1
今天能接上用吗   3 / 5
Q2
有可信证据吗   1 / 5
Q3
是新东西吗   5 / 5
总分
9

HuggingFace 原始数据 (抓取于 2026-06-02)

作者
ernie-research
任务类型
text-to-video
推理库
custom
下载
104
点赞
49
许可证
apache-2.0
标签
custom, ti2v, text-to-video, text-to-audio-video, audio-video-generation, mmdit, flow-matching, wan2.2, en, zh, arxiv:2605.30073, base_model:Wan-AI/Wan2.2-TI2V-5B, base_model:finetune:Wan-AI/Wan2.2-TI2V-5B, license:apache-2.0, region:us

探索

源链接 ↗