此页是 2026-06-02 的观测快照,查看该模型当前信息 → /m/nvidia__cosmos3-super-text2image/

归档 / 2026-06-02 / Cosmos3-Super-Text2Image (nvidia)

Cosmos3-Super-Text2Image (nvidia)

文本生成高保真图像，面向物理AI与创作

入选理由: 完备的推理接口（vLLM-Omni、Diffusers）可快速上手。
对位: 开源替代Flux、SD3等文生图模型
适合: 物理世界场景生成 / 文本到高保真图像创作
不适合: 安全关键任务与精确物理模拟
规模: 64B · 4k tokens (文本输入) · Q4 ~43GB / FP16 ~155GB
授权: OpenMDW1.1 · 需自查
框架: vLLM-Omni / Diffusers / PyTorch
可信度: NVIDIA发布，64B参数，支持vLLM-Omni/Diffusers，经GB200/H100推理验证

社区实测

开源权重文生图模型排名第一，长 prompt 遵循度和物理合理性表现突出，但 128GB+ 显存门槛使本地部署对绝大多数用户不现实。

长 prompt 下多语义元素完整率显著优于同类开源模型
物理合理性（折射、阴影方向、液体表面张力等）比通用模型扎实
在 Artificial Analysis 开源权重文生图与图生视频榜单均位列第一

部署需 8×H100 或等效显存，消费级显卡无法运行
模型仓库未附带正式技术报告，架构细节依赖社区逆向
文字渲染（尤其是中文长文本和手写体）仍落后于 GPT-image-2
官方技术资料未包含与 GPT-image-2 的对比

来源

英伟达Cosmos3-Super-Text2Image开源：生图新王登场，128G显存劝退本地党 - OpenAI Hub Nvidia releasesCosmos3-Super-Text2Image model . 64 billion paramteres : r/StableDiffusion Artificial Analysis on X nvidia/Cosmos3-Super-Text2Image | vLLM Recipes

截至 2026-06-19

快速上手

vllm serve nvidia/Cosmos3-Super-Text2Image (vLLM-Omni)

评分详情

Q1: 今天能接上用吗 5 / 5
Q2: 有可信证据吗 1 / 5
Q3: 是新东西吗 3 / 5
总分: 9

HuggingFace 原始数据 (抓取于 2026-06-02)

作者: nvidia
任务类型: text-to-image
推理库: cosmos
下载: 139
点赞: 50
许可证: OpenMDW1.1
标签: cosmos, diffusers, safetensors, cosmos3_omni, nvidia, cosmos3, vllm-omni, text-to-image, image-generation, license:other, region:us

探索