模型归档 · 2026-06-02

模型 / 归档 / 2026-06-02

本期 (2)

6.3B

6.3B 文本生成同步音视频，支持多说话人音色控制

适合文本/图片生成 720p 同步音视频 / 多说话人音色控制配音视频

短板长于 10 秒视频或非中英文输入

6.3B · apache-2.0 · 文本 512 tokens · 最大 10 秒视频 · diffusers可商用

证据104 下载 / 49 赞

64B

文本生成高保真图像，面向物理AI与创作

适合物理世界场景生成 / 文本到高保真图像创作

短板安全关键任务与精确物理模拟

Q4 ~43GB / FP16 ~155GB · OpenMDW1.1 · 4k tokens (文本输入) · vLLM-Omni需自查

证据139 下载 / 50 赞 / 4 个社区来源