—— 汽车产业链供需平台 ——
下载盖世APP

首页 > 资讯 > 新技术 > 英伟达发布面向物理AI的世界基础模型Cosmos

英伟达发布面向物理AI的世界基础模型Cosmos 3

盖世汽车 刘丽婷 2026-06-03 16:56:42
分享

盖世汽车讯 据外媒报道,英伟达(NVIDIA)发布专为物理AI打造的开放世界基础模型NVIDIA Cosmos™ 3。该模型基于突破性的“混合Transformer”架构构建,将视觉推理、世界生成与动作预测整合于单一系统中。

nvidia-cosmos-3.jpg

图片来源:英伟达

Cosmos 3是全球首个完全开放的“全能模型”(omnimodel),能够以领先的物理精度原生理解并生成文本、图像、视频、环境音效及动作,从而将物理AI的训练与评估周期从数月缩短至数日。

NVIDIA还推出了“NVIDIA Cosmos 联盟”(NVIDIA Cosmos Coalition),这是一个汇聚了世界模型构建者与AI开发者的全球协作平台——成员包括Agile Robots、Black Forest Labs、Generalist、LTX、Runway和Skild AI——旨在携手推动下一代世界模型的发展。

NVIDIA创始人兼首席执行官黄仁勋表示:“得益于多模态推理、语言、视觉以及世界模型领域的突破性进展,物理AI的‘大爆炸’时刻已近在咫尺。Cosmos 3系列开放式前沿全能模型,将赋予开发者跨越代际的能力提升,助其打造出能够在物理世界中进行感知、推理、规划与行动的机器人、自动驾驶车辆以及视觉AI系统。”

面向物理AI的全新架构

Cosmos 3旨在解决物理AI领域的一项根本性挑战:即如何在训练数据有限且仿真堆栈碎片化的条件下,赋予机器人、自动驾驶车辆(AV)或视觉智能体在现实世界中实现泛化的能力。

该模型采用了“混合Transformer”(Mixture-of-Transformers)架构,将负责推理的Transformer与负责专家级生成的Transformer相结合;这一设计使Cosmos 3能够在生成视频及动作轨迹之前,充分理解物体间的交互、运动状态以及时空关系。

该模型基于目前规模最为庞大的多模态物理AI数据集之一进行训练——该数据集涵盖了文本、图像、视频、音频及动作轨迹等多种模态,样本总量高达数十亿条。凭借这一强大的预训练基础,开发者如今能够以更少的数据投入和更低的训练成本,高效构建各类物理AI系统。

开发者可以将Cosmos 3用于以下用途:

  • 作为一种跨模态进行理解与推理的视觉语言模型。

  • 作为一种“世界模型”或视频基础模型,用于模拟物理环境并预测未来的世界状态,以服务于模型训练与评估。

  • 作为“世界动作模型”的核心,辅助训练机器人执行特定任务。

Cosmos 3系列为开发者提供了针对物理AI开发不同阶段的多种选择:

  • Cosmos 3 Super:专为需要极高物理精度与生成质量的机器人及自动驾驶(AV)模型后训练阶段而设计。

  • Cosmos 3 Nano:专为在极短时间内(毫秒级)实现高质量视频处理与动作推理而设计。

  • Cosmos 3 Edge(即将推出):专为边缘端的实时推理应用而设计。

可用性

Cosmos 3 Super和Cosmos 3 Nano现已上市;专为实时推理设计的Cosmos 3 Edge也即将推出。

关注我们更多服务平台

添加社区公众号、小程序, APP, 随时随地云办公尽在掌握

联系我们
盖世汽车社区 盖世汽车中文资讯 盖世汽车会议 盖世汽车研究院 盖世大学堂 Automotive News Global Auto Sources 友情链接 Copyright@2007-2022 All Right Reserved.盖世汽车版权所有
增值电信业务经营许可证 沪B2-2007118 沪ICP备07023350号 沪公网安备 31011402009699号 未经授权禁止复制或建立影像,否则将追究法律责任。