英伟达发布面向物理AI的世界基础模型Cosmos 3-汽车资讯-盖世汽车社区

首页 > 资讯 > 新技术 > 英伟达发布面向物理AI的世界基础模型Cosmos

英伟达发布面向物理AI的世界基础模型Cosmos 3

盖世汽车刘丽婷 2026-06-03 16:56:42

盖世汽车讯据外媒报道，英伟达（NVIDIA）发布专为物理AI打造的开放世界基础模型NVIDIA Cosmos™ 3。该模型基于突破性的“混合Transformer”架构构建，将视觉推理、世界生成与动作预测整合于单一系统中。

图片来源：英伟达

Cosmos 3是全球首个完全开放的“全能模型”（omnimodel），能够以领先的物理精度原生理解并生成文本、图像、视频、环境音效及动作，从而将物理AI的训练与评估周期从数月缩短至数日。

NVIDIA还推出了“NVIDIA Cosmos 联盟”（NVIDIA Cosmos Coalition），这是一个汇聚了世界模型构建者与AI开发者的全球协作平台——成员包括Agile Robots、Black Forest Labs、Generalist、LTX、Runway和Skild AI——旨在携手推动下一代世界模型的发展。

NVIDIA创始人兼首席执行官黄仁勋表示：“得益于多模态推理、语言、视觉以及世界模型领域的突破性进展，物理AI的‘大爆炸’时刻已近在咫尺。Cosmos 3系列开放式前沿全能模型，将赋予开发者跨越代际的能力提升，助其打造出能够在物理世界中进行感知、推理、规划与行动的机器人、自动驾驶车辆以及视觉AI系统。”

面向物理AI的全新架构

Cosmos 3旨在解决物理AI领域的一项根本性挑战：即如何在训练数据有限且仿真堆栈碎片化的条件下，赋予机器人、自动驾驶车辆（AV）或视觉智能体在现实世界中实现泛化的能力。

该模型采用了“混合Transformer”（Mixture-of-Transformers）架构，将负责推理的Transformer与负责专家级生成的Transformer相结合；这一设计使Cosmos 3能够在生成视频及动作轨迹之前，充分理解物体间的交互、运动状态以及时空关系。

该模型基于目前规模最为庞大的多模态物理AI数据集之一进行训练——该数据集涵盖了文本、图像、视频、音频及动作轨迹等多种模态，样本总量高达数十亿条。凭借这一强大的预训练基础，开发者如今能够以更少的数据投入和更低的训练成本，高效构建各类物理AI系统。

开发者可以将Cosmos 3用于以下用途：

作为一种跨模态进行理解与推理的视觉语言模型。
作为一种“世界模型”或视频基础模型，用于模拟物理环境并预测未来的世界状态，以服务于模型训练与评估。
作为“世界动作模型”的核心，辅助训练机器人执行特定任务。

Cosmos 3系列为开发者提供了针对物理AI开发不同阶段的多种选择：

Cosmos 3 Super：专为需要极高物理精度与生成质量的机器人及自动驾驶（AV）模型后训练阶段而设计。
Cosmos 3 Nano：专为在极短时间内（毫秒级）实现高质量视频处理与动作推理而设计。
Cosmos 3 Edge（即将推出）：专为边缘端的实时推理应用而设计。

可用性

Cosmos 3 Super和Cosmos 3 Nano现已上市；专为实时推理设计的Cosmos 3 Edge也即将推出。

英伟达发布面向物理AI的世界基础模型Cosmos 3

新闻分类