智在无界发布隐式世界模型产品Being-H-Flash，完成全球首个端侧芯片实时部署-汽车资讯-盖世汽车社区

首页 > 资讯 > 供应链 > 智在无界发布隐式世界模型产品Being-H-Flas

智在无界发布隐式世界模型产品Being-H-Flash，完成全球首个端侧芯片实时部署

盖世汽车快讯忻文 2026-06-04 15:23:31

过去一年，行业从 VLA 逐步走向世界模型，但随着模型纸面能力不断提升，一个更现实的问题开始浮现：世界模型能否摆脱数据中心级GPU的窠巢，不再停留在实验室阶段，而是真正运行在机器人本体的端侧芯片上？只有做到这一点，世界模型才具备规模化落地的可能。

如今，这一门槛正在被突破。

具身通用基础模型创业公司智在无界BeingBeyond今日正式发布 Being-H-Flash 模型产品，不仅完成全球首个百 TOPS 级端侧芯片实时部署，并率先实现了国产芯片与英伟达平台双适配。

继两个月前 Being-H0.7 开创具身领域隐空间世界模型范式、将人类视频预训练规模推进至 20 万小时后，智在无界此次发布Flash 版本进一步证明：世界模型不仅可以做得更强，也能够真正跑在机器人端侧。

这也意味着世界模型的竞争正从纸面论文指标，逐步走向部署效率、芯片适配、运行成本以及工程交付能力。

世界模型的首个百TOPS端侧芯片实时部署纪录

在具身智能领域，世界模型的价值不难理解。

机器人要在真实环境中执行任务，不仅需要识别物体、理解指令，更需要预判物理世界的变化：球会滚向哪里、衣服如何变形、液体是否会溢出。相比单纯的感知与执行，这种对未来状态的判断能力，正是机器人迈向复杂任务的关键。

传统 VLA 模型受限于动作监督数据，更容易学习行为模式，而非真实的物理规律和任务演化过程。以英伟达 Cosmos-Policy 为代表的显式世界模型，则试图通过视频生成和未来画面预测来弥补这一不足。然而，像素级预测带来的训练与推理开销十分巨大，难以满足机器人实时控制对延迟、稳定性和成本的要求。

Being-H0.7 则开辟了另一条路线：隐式具身世界模型。

【新闻图片1】不同世界模型在不同显卡及芯片部署的推理速度对比.png

不同世界模型在训练级显卡、消费级显卡与端侧芯片上的推理速度对比（单位FPS，越大越好），×表示芯片硬件受限

智在无界的测试结果显示，Being-H-Flash 的推理速度不仅在 A800、4090 等高算力平台上达到了 30~45 FPS，更在百 TOPS 级端侧平台上实现了接近 20FPS 的实时效果。相比之下，Cosmos-Policy 等世界模型在同类平台上大多停留在个位数 FPS，明显低于主流 VLA 模型，而多数显式世界模型甚至难以部署到 Orin NX 等百 TOPS 级端侧芯片上。

Being-H-Flash 的意义远不止于“更快”。它让世界模型摆脱了对高端 GPU 的天然依赖，不再局限于云端或工作站环境。对于机器人而言，端侧实时运行意味着更短的控制闭环、更低的通信依赖和更稳定的系统响应，也意味着世界模型能够真正参与动态抓取、流水线分拣、柔性物体操作、液体倾倒等复杂任务的实时决策，成为机器人在线控制系统的一部分。

开辟隐空间具身范式，引领规模与成本变革

Being-H-Flash 的“闪电”般推理速度，源于其背后Being-H0.7 所开创的隐式具身世界模型路线。

传统显式世界模型通常依赖生成未来画面来理解未来状态。但智在无界研发团队认为，像素级预测并不是机器人控制真正需要的目标，反而会带来两方面问题：一方面，模型需要学习大量与动作决策无关的视觉细节，例如头发纹理、衣物褶皱或环境颜色等，这些信息几乎不会影响机器人动作，却会干扰模型对关键控制因素的学习；另一方面，未来画面的生成本身也会带来巨大的训练和推理开销。

因此，作为国内隐式世界模型的开创者，Being-H0.7 并不在训练和推理过程中逐帧生成未来图像，而是在多模态感知与动作生成之间引入一组可学习的 latent query，将当前观测、任务目标以及对未来交互的判断压缩到紧凑的潜空间中。通过这种方式，模型无需依赖像素级 rollout，依然能够保留世界模型对未来的预测能力。本质上，它将“预测未来”从像素空间转移到了潜空间。

【新闻图片2】智在无界Being-H0.7.png

有别于英伟达的显式路线，Being-H0.7首次开创了“人类视频预训练”+“潜空间推理”相结合的隐式世界模型路线

不过，放弃像素级监督并不意味着降低难度。恰恰相反，隐空间世界模型对数据规模和模型预训练管线提出了更高要求。为此，智在无界在 Being-H0.7 上使用了超过 20 万小时第一人称人类视频和 1.5 万小时机器人示教数据。在此之前，Being-H0 和 Being-H0.5 已先后完成了 1000 小时和 1 万小时人类视频预训练的行业突破。智在无界将这三次数据规模跨越称为“第一级跃迁”，并围绕这一 Scaling Law 持续构建模型能力上限。

但对于机器人而言，仅有能力上限并不足以支撑大规模落地。除了数据与模型规模带来的“第一级跃迁”之外，智在无界还在持续推动另一条同样重要的路线——推理效率与部署能力的“第二级跃迁”。此次发布的 Being-H-Flash，正是“第二级跃迁”的集中体现：在保留世界模型预测能力的同时，实现了端侧实时部署，让世界模型真正具备走出实验室的可能。

国产/英伟达双芯适配，回应芯模协同战略需求

过去两年，机器人行业在很大程度上沿用了大模型的发展逻辑：更大的模型、更强的算力、更高性能的 GPU。

但机器人终究不是云端服务，而是需要走向真实世界的硬件产品。成本、功耗、散热、供应链、空间尺寸以及量产一致性，都是无法回避的现实约束。即便世界模型在数据中心表现优异，一个现实的问题是：如果其须依赖高端算力平台才能运行，那么机器人规模化落地的成本就很难真正下降，也就难形成真正的商业闭环。

对于机器人而言，实时运行本质上是一个系统工程。隐式世界模型带来的效率优势，只是拿到了商业化落地的“入场券”。真正决定产品上限的，仍然是数据、模型、控制、硬件以及推理基础设施之间的协同能力。

正因如此，围绕 Being-H0.7，智在无界构建了一整套面向端侧部署的后训练与推理基础设施，以保证模型在有限算力条件下依然能够稳定、精准地输出动作，其中包括自研的 Universal Async Chunking（UAC）等多项核心推理优化技术。

Being-H-Flash是一套模型、系统与硬件协同优化的完整方案：模型侧通过隐空间推理避免像素级 rollout，系统侧通过异步动作块机制维持实时控制，芯片侧则针对不同平台进行推理图、算子调度和内存访问优化。最终实现了世界模型在百 TOPS 级端侧芯片上的实时运行。在极限条件下，Flash 版本甚至能够在保持模型能力基本不变的前提下，将单步推理延迟压缩至毫秒级。

【新闻图片3】智在无界Being-H-Flash产品矩阵.png

Being-H-Flash产品矩阵，以隐式世界模型为基座，从aura，ventus到procella，逐级推进真实场景机器人的部署效率和性能

围绕不同部署需求，智在无界规划了完整的 Being-H-Flash 产品矩阵。该系列除了模型核心能力的逐级递增，更大的区别在于推理效率、部署优化程度以及场景适配深度。

其中，基础版 Being-H-aura 面向通用场景，提供隐式世界模型的标准推理能力，相较传统显式世界模型可获得约 2～3 倍的推理速度提升；

加速版 Being-H-ventus 则进一步融合自研推理加速技术，在不损失模型能力的前提下显著提升端侧运行效率；

旗舰版 Being-H-procella 则面向产业落地需求，能够结合具体机器人本体、芯片平台与业务场景进行深度定制化优化，在推理性能、资源利用率与部署效果之间取得最佳平衡，可面向百 TOPS 级芯片实现实时部署。

这也是国内首次以“推理效率”为核心能力推出世界模型产品方案，其背后的商业逻辑十分明确：世界模型不再只是实验室中的研究成果，而正在演变为一种可交付、可部署、可规模化复制的产品能力，能够根据不同硬件平台、应用场景和 SOP 要求进行灵活适配。

过去一年中，智在无界积累了丰富的世界模型工程化落地经验，对于全新的芯片架构或硬件环境，Being-H-procella可以在2～4周之内实现从零开始的定制化适配，并将性能差距控制在主流参考平台的 5% 以内，为国产芯片与行业应用的快速落地提供了现实路径。

Being-H-procella 已同时完成英伟达与国产芯片平台适配，并在国产百 TOPS 级端侧算力平台上实现有效运行。这意味着模型架构已经具备面向下一代国产机器人芯片的协同能力，也意味着“国产世界模型+国产芯片”开始从产业愿景走向可验证的工程实践。

这是国产世界模型首次在国产百 TOPS 级端侧芯片上实现实用化部署，智在无界在其旗舰产品Being-H-procella 中整合了多项自研推理加速算法、算子与部署模块，并针对国产芯片架构特点进行了深度优化，最终完成这一关键突破。它意味着在具身智能领域，国产模型与国产算力平台开始具备协同演进的能力，并有机会依托国内完整的产业链体系持续降低部署成本、加速产品迭代，推动世界模型真正走向规模化应用。

世界模型的商业破晓时刻，让机器人干活费用降至150元/月

机器人的商业化，最终都要回到一笔清晰的成本账。

在这一点上，机器人与自动驾驶有着相似的逻辑。两者都属于高频实时系统，无法依赖云端持续输出决策。哪怕只有一两秒的延迟或断连，也可能导致流水线机器人将螺丝拧穿电路板，或者在服务场景中失去稳定控制。同时，机器人要实现规模化普及，成本必须被控制在合理范围内，这意味着不可能长期依赖高性能 GPU 作为计算平台。

过去，世界模型往往被视为一条“更聪明、也更昂贵”的路线。它能够帮助机器人理解动态变化、物理规律和长时序后果，但显式视频预测带来的巨大算力开销，也让这类能力难以进入低成本机器人平台。

【新闻图片4】不同模型方案的单台机器人月算力成本对比.png

为了量化这一问题，智在无界以“单台机器人日扫码2000件快递”为例，对不同方案进行了月度算力成本测算。在同类任务下，由于难以摆脱对高性能GPU部署的依赖，NVIDIA Cosmos 及多种显式世界模型方案的月算力成本均在8000元以上，而 Being-H-Flash 的运行成本仅为约为150元，相较前者降低了98%，甚至显著低于VLA代表作π0.5。

【新闻图片5】单台机器人算力成本对比.png

这组数据揭示了一个重要趋势：当世界模型从显式像素生成转向隐式潜空间推理，其部署成本曲线也将发生根本性变化。

过去两年，大模型行业已经反复证明，市场对成本极为敏感。无论能力多强，如果使用成本长期居高不下，就很难形成规模化应用。对于机器人而言，高昂的算力开销显然是难以持续的。

从这个角度看，Being-H-Flash 的意义正在于重新平衡世界模型的能力与成本。它既保留了世界模型对未来交互和物理过程的建模能力，又避免将推理过程变成昂贵的视频生成任务；既支持真实机器人的闭环控制，又能够在百 TOPS 级端侧芯片上实现实时运行。

对于用户而言，这意味着不必再在“模型能力”和“部署成本”之间做极端取舍。一方面，端侧实时运行降低了对云端网络的依赖，使机器人能够在工厂、仓储、门店和家庭等复杂环境中保持稳定运行；另一方面，对国产芯片平台的支持也为整机厂提供了更灵活的供应链选择。

过去只有高端硬件才能运行的世界模型，开始具备进入更多机器人产品的可能。在仓储物流中，机器人可以更稳定地处理高速变化的包裹；在工业产线中，机器人能够根据物体运动轨迹和接触关系实时调整动作；在商超、家庭和服务机器人场景中，模型则能够更好地处理柔性物体、液体、工具使用以及多阶段任务。

当世界模型的端侧算力门槛下降，许多过去受限于成本和部署条件的场景也将被重新打开，从“高成本智能”到“可量产智能”。

智在无界发布隐式世界模型产品Being-H-Flash，完成全球首个端侧芯片实时部署

新闻分类