英伟达发布面向物理AI的世界基础模型Cosmos 3
盖世汽车讯 据外媒报道,英伟达(NVIDIA)发布专为物理AI打造的开放世界基础模型NVIDIA Cosmos™ 3。该模型基于突破性的“混合Transformer”架构构建,将视觉推理、世界生成与动作预测整合于单一系统中。

图片来源:英伟达
Cosmos 3是全球首个完全开放的“全能模型”(omnimodel),能够以领先的物理精度原生理解并生成文本、图像、视频、环境音效及动作,从而将物理AI的训练与评估周期从数月缩短至数日。
NVIDIA还推出了“NVIDIA Cosmos 联盟”(NVIDIA Cosmos Coalition),这是一个汇聚了世界模型构建者与AI开发者的全球协作平台——成员包括Agile Robots、Black Forest Labs、Generalist、LTX、Runway和Skild AI——旨在携手推动下一代世界模型的发展。
NVIDIA创始人兼首席执行官黄仁勋表示:“得益于多模态推理、语言、视觉以及世界模型领域的突破性进展,物理AI的‘大爆炸’时刻已近在咫尺。Cosmos 3系列开放式前沿全能模型,将赋予开发者跨越代际的能力提升,助其打造出能够在物理世界中进行感知、推理、规划与行动的机器人、自动驾驶车辆以及视觉AI系统。”
面向物理AI的全新架构
Cosmos 3旨在解决物理AI领域的一项根本性挑战:即如何在训练数据有限且仿真堆栈碎片化的条件下,赋予机器人、自动驾驶车辆(AV)或视觉智能体在现实世界中实现泛化的能力。
该模型采用了“混合Transformer”(Mixture-of-Transformers)架构,将负责推理的Transformer与负责专家级生成的Transformer相结合;这一设计使Cosmos 3能够在生成视频及动作轨迹之前,充分理解物体间的交互、运动状态以及时空关系。
该模型基于目前规模最为庞大的多模态物理AI数据集之一进行训练——该数据集涵盖了文本、图像、视频、音频及动作轨迹等多种模态,样本总量高达数十亿条。凭借这一强大的预训练基础,开发者如今能够以更少的数据投入和更低的训练成本,高效构建各类物理AI系统。
开发者可以将Cosmos 3用于以下用途:
作为一种跨模态进行理解与推理的视觉语言模型。
作为一种“世界模型”或视频基础模型,用于模拟物理环境并预测未来的世界状态,以服务于模型训练与评估。
作为“世界动作模型”的核心,辅助训练机器人执行特定任务。
Cosmos 3系列为开发者提供了针对物理AI开发不同阶段的多种选择:
Cosmos 3 Super:专为需要极高物理精度与生成质量的机器人及自动驾驶(AV)模型后训练阶段而设计。
Cosmos 3 Nano:专为在极短时间内(毫秒级)实现高质量视频处理与动作推理而设计。
Cosmos 3 Edge(即将推出):专为边缘端的实时推理应用而设计。
可用性
Cosmos 3 Super和Cosmos 3 Nano现已上市;专为实时推理设计的Cosmos 3 Edge也即将推出。
欢欢@盖世汽车供应链
悠悠@盖世汽车
豆豆@盖世汽车





