—— 汽车产业链供需平台 ——
下载盖世APP

首页 > 资讯 > 供应链 > 智在无界发布隐式世界模型产品Being-H-Flas

智在无界发布隐式世界模型产品Being-H-Flash,完成全球首个端侧芯片实时部署

盖世汽车快讯 忻文 2026-06-04 15:23:31
分享

过去一年,行业从 VLA 逐步走向世界模型,但随着模型纸面能力不断提升,一个更现实的问题开始浮现:世界模型能否摆脱数据中心级GPU的窠巢,不再停留在实验室阶段,而是真正运行在机器人本体的端侧芯片上?只有做到这一点,世界模型才具备规模化落地的可能。

如今,这一门槛正在被突破。

具身通用基础模型创业公司智在无界BeingBeyond今日正式发布 Being-H-Flash 模型产品,不仅完成全球首个百 TOPS 级端侧芯片实时部署,并率先实现了国产芯片与英伟达平台双适配。

继两个月前 Being-H0.7 开创具身领域隐空间世界模型范式、将人类视频预训练规模推进至 20 万小时后,智在无界此次发布Flash 版本进一步证明:世界模型不仅可以做得更强,也能够真正跑在机器人端侧。

这也意味着世界模型的竞争正从纸面论文指标,逐步走向部署效率、芯片适配、运行成本以及工程交付能力。

世界模型的首个百TOPS端侧芯片实时部署纪录

在具身智能领域,世界模型的价值不难理解。

机器人要在真实环境中执行任务,不仅需要识别物体、理解指令,更需要预判物理世界的变化:球会滚向哪里、衣服如何变形、液体是否会溢出。相比单纯的感知与执行,这种对未来状态的判断能力,正是机器人迈向复杂任务的关键。

传统 VLA 模型受限于动作监督数据,更容易学习行为模式,而非真实的物理规律和任务演化过程。以英伟达 Cosmos-Policy 为代表的显式世界模型,则试图通过视频生成和未来画面预测来弥补这一不足。然而,像素级预测带来的训练与推理开销十分巨大,难以满足机器人实时控制对延迟、稳定性和成本的要求。

Being-H0.7 则开辟了另一条路线:隐式具身世界模型。

【新闻图片1】不同世界模型在不同显卡及芯片部署的推理速度对比.png

不同世界模型在训练级显卡、消费级显卡与端侧芯片上的推理速度对比(单位FPS,越大越好),×表示芯片硬件受限

智在无界的测试结果显示,Being-H-Flash 的推理速度不仅在 A800、4090 等高算力平台上达到了 30~45 FPS,更在百 TOPS 级端侧平台上实现了 接近 20FPS  的实时效果。相比之下,Cosmos-Policy 等世界模型在同类平台上大多停留在个位数 FPS,明显低于主流 VLA 模型,而多数显式世界模型甚至难以部署到 Orin NX 等百 TOPS 级端侧芯片上。

Being-H-Flash 的意义远不止于“更快”。它让世界模型摆脱了对高端 GPU 的天然依赖,不再局限于云端或工作站环境。对于机器人而言,端侧实时运行意味着更短的控制闭环、更低的通信依赖和更稳定的系统响应,也意味着世界模型能够真正参与动态抓取、流水线分拣、柔性物体操作、液体倾倒等复杂任务的实时决策,成为机器人在线控制系统的一部分。

开辟隐空间具身范式引领规模与成本变革

Being-H-Flash 的“闪电”般推理速度,源于其背后Being-H0.7 所开创的隐式具身世界模型路线。

传统显式世界模型通常依赖生成未来画面来理解未来状态。但智在无界研发团队认为,像素级预测并不是机器人控制真正需要的目标,反而会带来两方面问题:一方面,模型需要学习大量与动作决策无关的视觉细节,例如头发纹理、衣物褶皱或环境颜色等,这些信息几乎不会影响机器人动作,却会干扰模型对关键控制因素的学习;另一方面,未来画面的生成本身也会带来巨大的训练和推理开销。

因此,作为国内隐式世界模型的开创者,Being-H0.7 并不在训练和推理过程中逐帧生成未来图像,而是在多模态感知与动作生成之间引入一组可学习的 latent query,将当前观测、任务目标以及对未来交互的判断压缩到紧凑的潜空间中。通过这种方式,模型无需依赖像素级 rollout,依然能够保留世界模型对未来的预测能力。本质上,它将“预测未来”从像素空间转移到了潜空间。

【新闻图片2】智在无界Being-H0.7.png

有别于英伟达的显式路线,Being-H0.7首次开创了“人类视频预训练”+“潜空间推理”相结合的隐式世界模型路线

不过,放弃像素级监督并不意味着降低难度。恰恰相反,隐空间世界模型对数据规模和模型预训练管线提出了更高要求。为此,智在无界在 Being-H0.7 上使用了 超过 20 万小时第一人称人类视频和 1.5 万小时机器人示教数据。在此之前,Being-H0 和 Being-H0.5 已先后完成了 1000 小时和 1 万小时人类视频预训练的行业突破。智在无界将这三次数据规模跨越称为“第一级跃迁”,并围绕这一 Scaling Law 持续构建模型能力上限。

但对于机器人而言,仅有能力上限并不足以支撑大规模落地。除了数据与模型规模带来的“第一级跃迁”之外,智在无界还在持续推动另一条同样重要的路线——推理效率与部署能力的“第二级跃迁”。此次发布的 Being-H-Flash,正是“第二级跃迁”的集中体现:在保留世界模型预测能力的同时,实现了端侧实时部署,让世界模型真正具备走出实验室的可能。

国产/英伟达双芯适配,回应芯模协同战略需求

过去两年,机器人行业在很大程度上沿用了大模型的发展逻辑:更大的模型、更强的算力、更高性能的 GPU。

但机器人终究不是云端服务,而是需要走向真实世界的硬件产品。成本、功耗、散热、供应链、空间尺寸以及量产一致性,都是无法回避的现实约束。即便世界模型在数据中心表现优异,一个现实的问题是:如果其须依赖高端算力平台才能运行,那么机器人规模化落地的成本就很难真正下降,也就难形成真正的商业闭环。

对于机器人而言,实时运行本质上是一个系统工程。隐式世界模型带来的效率优势,只是拿到了商业化落地的“入场券”。真正决定产品上限的,仍然是数据、模型、控制、硬件以及推理基础设施之间的协同能力。

正因如此,围绕 Being-H0.7,智在无界构建了一整套面向端侧部署的后训练与推理基础设施,以保证模型在有限算力条件下依然能够稳定、精准地输出动作,其中包括自研的 Universal Async Chunking(UAC)等多项核心推理优化技术。

Being-H-Flash是一套模型、系统与硬件协同优化的完整方案:模型侧通过隐空间推理避免像素级 rollout,系统侧通过异步动作块机制维持实时控制,芯片侧则针对不同平台进行推理图、算子调度和内存访问优化。最终实现了世界模型在百 TOPS 级端侧芯片上的实时运行。在极限条件下,Flash 版本甚至能够在保持模型能力基本不变的前提下,将单步推理延迟压缩至毫秒级。

【新闻图片3】智在无界Being-H-Flash产品矩阵.png

Being-H-Flash产品矩阵,以隐式世界模型为基座,从aura,ventus到procella,逐级推进真实场景机器人的部署效率和性能

围绕不同部署需求,智在无界规划了完整的 Being-H-Flash 产品矩阵。该系列除了模型核心能力的逐级递增,更大的区别在于推理效率、部署优化程度以及场景适配深度。

其中,基础版 Being-H-aura 面向通用场景,提供隐式世界模型的标准推理能力,相较传统显式世界模型可获得约 2~3 倍的推理速度提升;

加速版 Being-H-ventus 则进一步融合自研推理加速技术,在不损失模型能力的前提下显著提升端侧运行效率;

旗舰版 Being-H-procella 则面向产业落地需求,能够结合具体机器人本体、芯片平台与业务场景进行深度定制化优化,在推理性能、资源利用率与部署效果之间取得最佳平衡,可面向百 TOPS 级芯片实现实时部署。

这也是国内首次以“推理效率”为核心能力推出世界模型产品方案,其背后的商业逻辑十分明确:世界模型不再只是实验室中的研究成果,而正在演变为一种可交付、可部署、可规模化复制的产品能力,能够根据不同硬件平台、应用场景和 SOP 要求进行灵活适配。

过去一年中,智在无界积累了丰富的世界模型工程化落地经验,对于全新的芯片架构或硬件环境,Being-H-procella可以在2~4周之内实现从零开始的定制化适配,并将性能差距控制在主流参考平台的 5% 以内,为国产芯片与行业应用的快速落地提供了现实路径。

Being-H-procella 已同时完成英伟达与国产芯片平台适配,并在国产百 TOPS 级端侧算力平台上实现有效运行。这意味着模型架构已经具备面向下一代国产机器人芯片的协同能力,也意味着“国产世界模型+国产芯片”开始从产业愿景走向可验证的工程实践。

这是国产世界模型首次在国产百 TOPS 级端侧芯片上实现实用化部署,智在无界在其旗舰产品Being-H-procella 中整合了多项自研推理加速算法、算子与部署模块,并针对国产芯片架构特点进行了深度优化,最终完成这一关键突破。它意味着在具身智能领域,国产模型与国产算力平台开始具备协同演进的能力,并有机会依托国内完整的产业链体系持续降低部署成本、加速产品迭代,推动世界模型真正走向规模化应用。

世界模型的商业破晓时刻让机器人干活费用降至150元/月

机器人的商业化,最终都要回到一笔清晰的成本账。

在这一点上,机器人与自动驾驶有着相似的逻辑。两者都属于高频实时系统,无法依赖云端持续输出决策。哪怕只有一两秒的延迟或断连,也可能导致流水线机器人将螺丝拧穿电路板,或者在服务场景中失去稳定控制。同时,机器人要实现规模化普及,成本必须被控制在合理范围内,这意味着不可能长期依赖高性能 GPU 作为计算平台。

过去,世界模型往往被视为一条“更聪明、也更昂贵”的路线。它能够帮助机器人理解动态变化、物理规律和长时序后果,但显式视频预测带来的巨大算力开销,也让这类能力难以进入低成本机器人平台。

【新闻图片4】不同模型方案的单台机器人月算力成本对比.png

为了量化这一问题,智在无界以“单台机器人日扫码2000件快递”为例,对不同方案进行了月度算力成本测算。在同类任务下,由于难以摆脱对高性能GPU部署的依赖,NVIDIA Cosmos 及多种显式世界模型方案的月算力成本均在8000元以上,而 Being-H-Flash 的运行成本仅为约为150元,相较前者降低了98%,甚至显著低于VLA代表作π0.5。

【新闻图片5】单台机器人算力成本对比.png

这组数据揭示了一个重要趋势:当世界模型从显式像素生成转向隐式潜空间推理,其部署成本曲线也将发生根本性变化。

过去两年,大模型行业已经反复证明,市场对成本极为敏感。无论能力多强,如果使用成本长期居高不下,就很难形成规模化应用。对于机器人而言,高昂的算力开销显然是难以持续的。

从这个角度看,Being-H-Flash 的意义正在于重新平衡世界模型的能力与成本。它既保留了世界模型对未来交互和物理过程的建模能力,又避免将推理过程变成昂贵的视频生成任务;既支持真实机器人的闭环控制,又能够在百 TOPS 级端侧芯片上实现实时运行。

对于用户而言,这意味着不必再在“模型能力”和“部署成本”之间做极端取舍。一方面,端侧实时运行降低了对云端网络的依赖,使机器人能够在工厂、仓储、门店和家庭等复杂环境中保持稳定运行;另一方面,对国产芯片平台的支持也为整机厂提供了更灵活的供应链选择。

过去只有高端硬件才能运行的世界模型,开始具备进入更多机器人产品的可能。在仓储物流中,机器人可以更稳定地处理高速变化的包裹;在工业产线中,机器人能够根据物体运动轨迹和接触关系实时调整动作;在商超、家庭和服务机器人场景中,模型则能够更好地处理柔性物体、液体、工具使用以及多阶段任务。

当世界模型的端侧算力门槛下降,许多过去受限于成本和部署条件的场景也将被重新打开,从“高成本智能”到“可量产智能”。

关注我们更多服务平台

添加社区公众号、小程序, APP, 随时随地云办公尽在掌握

联系我们
盖世汽车社区 盖世汽车中文资讯 盖世汽车会议 盖世汽车研究院 盖世大学堂 Automotive News Global Auto Sources 友情链接 Copyright@2007-2022 All Right Reserved.盖世汽车版权所有
增值电信业务经营许可证 沪B2-2007118 沪ICP备07023350号 沪公网安备 31011402009699号 未经授权禁止复制或建立影像,否则将追究法律责任。