模型 / 归档 / 2026-06-02

本期 (2)

6.3B 文本生成同步音视频,支持多说话人音色控制

部署
  • hf huggingface-cli download <repo-id> 后 bash scripts/inference.sh
  • py torchrun 自定义 JSONL 推理,支持 8 卡 Ulysses 并行
  • py Gradio Web UI: bash gradio_demo/start_gradio.sh
入选理由
有详细使用示例和评测,但需手动下载数十GB权重并配置8卡环境,目前下载量仅百余,缺乏第三方验证。
对位
对位 Ovi 1.1、MOVA、Davinci、LTX 2.3 等
适合
文本/图片生成 720p 同步音视频 / 多说话人音色控制配音视频
不适合
长于 10 秒视频或非中英文输入
规模
6.3B · 文本 512 tokens · 最大 10 秒视频
授权
apache-2.0 · 需自查
框架
diffusers / torchrun
视频
文生 · 720p · 10s · 推荐 8 卡 Ulysses 并行
血统
微调自 Wan2.2-TI2V-5B
可信度
VerseBench Sync-C 7.79,基于 Wan2.2-TI2V-5B,论文 arxiv 2605.30073

文本生成高保真图像,面向物理AI与创作

部署
  • vll vllm serve nvidia/Cosmos3-Super-Text2Image (vLLM-Omni)
  • py diffusers.Cosmos3OmniPipeline.from_pretrained()
  • dkr docker pull vllm/vllm-omni:cosmos3
入选理由
完备的推理接口(vLLM-Omni、Diffusers)可快速上手;但下载量低、无第三方评测,创新性一般,暂列观察。
对位
开源替代Flux、SD3等文生图模型
适合
物理世界场景生成 / 文本到高保真图像创作
不适合
安全关键任务与精确物理模拟
规模
64B · 4k tokens (文本输入) · Q4 ~43GB / FP16 ~155GB
授权
OpenMDW1.1 · 需自查
框架
vLLM-Omni / Diffusers / PyTorch
可信度
NVIDIA发布,64B参数,支持vLLM-Omni/Diffusers,经GB200/H100推理验证

← 前一日 2026-06-01 · 后一日 2026-06-03 →