千寻智能：迈向通用人形机器人的曙光时刻-汽车资讯-盖世汽车社区

首页 > 资讯 > 活动 > 千寻智能：迈向通用人形机器人的曙光时刻

千寻智能：迈向通用人形机器人的曙光时刻

盖世直播 2026-03-19 19:10:48

2026年3月17日，在第四届具身智能机器人产业发展论坛上，千寻智能科研生态总监徐国强深入剖析了当前人形机器人发展的关键挑战与应对策略。他指出，具身智能的核心在于赋予机器人真正的“大脑”与物理世界的适应能力，而非仅具类人形态。当前模型尚未完全收敛，泛化能力与数据采集成本仍是瓶颈。为此，千寻智能通过自研VLA模型、引入VLM增强语义理解，并结合轻量化数采设备如UMI与外骨骼系统，大幅降低数据采集成本，同时提升模型训练效率。

展望未来，徐国强认为，工业场景尤其是汽车零部件领域将成为人形机器人率先落地的主战场，因其自动化基础成熟、工艺稳定、人才密度高。千寻智能正推动模型从L1向L2阶段演进，并已与多家全球Tier 1供应商建立战略合作。未来十年，机器人将从工业走向商用服务，最终进入家庭，成为日常生活的一部分。千寻智能提出“双十计划”，希望到2035年让全球10%的人口拥有属于自己的机器人，真正实现科技服务人类的愿景。

图片1.png

徐国强｜千寻智能科研生态总监

以下为演讲内容整理：

行业概况

早期的多模态大语言模型与当前的具身智能存在显著差异。以往更多是基于文字与图像生成AI解决方案，而现阶段的具身智能则要求机器人真正进入物理世界，应对现场实际问题，涉及空间形态以及重力、摩擦力、惯性等物理参数的建模与适应。

近期，不少客户受春晚机器人表演的影响，认为具身智能已进入可批量复制的阶段。去年行业内也确实出现了多个亿元级的大订单。然而，在现场交付的一个项目中，我们切身感受到相关模型目前仍未达到收敛状态。我们耗时八个月，完成了一项对人类来说较为简单的工艺工序。过程中投入了大量人力物力，采集了海量数据，但在将成功率提升到一定水平后，遇到了明显的瓶颈。

我们的工作重点在于推动模型更快地实现收敛。收敛是指在无需涉及具体工艺的场景中，机器人能够基于基础模型快速达到百分之六七十的操作成功率；随后，由现场客户或集成商采集数据，并通过我们的数据平台进行训练，进一步提升成功率，最终在1至2个月内完成机器人的快速部署。

许多人将外形类似人或具备类人形态的机器人称为人形机器人。然而，具身智能的核心在于赋予机器人以大脑和思考能力。

挑战与应对策略

关于模型的发展，我们认为当前的关键要素包括算力、算法、基模，以及最为重要的数据。千寻自成立之初便一直在探索数据驱动下的模型发展，以及如何低成本采集数据的问题。

在此过程中，我们不断思考如何让机器人理解人类动作。例如，我们在自研的VLA基础上增加了Agent模块，以增强其对人类语义的理解。当我对机器人说“桌子好脏”，它会从纸巾盒中抽出纸，将桌面的污渍擦干净；当我说“我口渴了”，机器人会拿起矿泉水，打开瓶盖，将水倒入纸杯，再把杯子递过来。这类动作若仅依赖VLA完成难度较大，因此我们引入了VLM来帮助收敛语义理解，使其更贴近动作执行的需求。

当前，机器人仍难以模拟人类的某些行为习惯与紧急避险能力。比如当核桃滚落至桌面下、视野之外时，人类可依据经验迅速定位，而机器人一旦物体脱离视野范围，便难以在短时间内实现追踪。

在具身智能的发展中，我们认为硬件、平台与数据具有同等重要性。目前，我们正高效利用数据金字塔体系，提升端到端模型的泛化能力与任务成功率。今年1月12日，我们开源的Spirit 1.5模型，在全球RoboChallenge榜单上已超越PI 0.5，取得了较高的成功率。同时，团队在机器人硬件方面也持续优化，整机配备26个关节，每个关节均集成力传感器，使其在与物体交互时具备更细腻的力控能力，并能更好地保障周围人员的安全。

可拓展平台是另一关键方向，包括遥采设备与直采设备。基于真机进行遥采虽然数据质量高，但成本较高。目前我们在与部分全球500强企业签订战略合作时，对方也十分关注未来若将机器人批量部署于工厂场景，若全程依赖遥采采集高质量数据，成本将难以覆盖，因此，低成本、高质量的数据采集方式显得尤为重要。

数据采集方式上，团队也在积极探索更高效的路径。受特斯拉“边开车边采数”的模式启发，我们尝试采用一种轻量化方式，通过UMI设备进行数据采集。以UMI 1.0设备为例，工人可手持工具或穿戴该设备进行作业，设备本身重量较轻，可在不影响正常工作的情况下完成数据采集。该设备经过长期打磨，早期主要用于预训练，目前已可用于后训练阶段。例如在办公场景中，会议结束后，机器人可响应指令完成椅子归位、关灯、清理白板等整理工作。

如果完全依赖真机遥采，采集周期较长，数据量也相对有限。我们后来采用UMI方式进行数据采集，并结合10%的真机遥采数据进行混合训练，所得到的模型效果超出了预期。

早期在宁德时代，我们采用的是HRPI-1.0外骨骼遥采方案，主要出于精度考虑。因为使用VR进行遥采时，操作者通常需要一个适应过程，就像第一次佩戴VR眼镜玩VR游戏时，容易出现左右手不协调的情况。因此，我们选择了外骨骼方式来进行数据采集。

图片2.png

图源：演讲嘉宾素材

随后我们发现，通过外骨骼直接采集的数据质量较高。经过一段时间的持续迭代，从HRPI-2.0发展到3.0，我们的外骨骼数采设备的成本已降至仅相当于机器人遥采的5%，而数据质量与精度仍可达到遥采水平的95%。

随后，我们意识到这种固定式采集方式受限于特定环境，难以满足多样化场景下的数据需求。为实现在全国各地开放环境下进行数据采集，我们启动了uDAS系列的研发，并持续迭代至1.0、2.0及3.0版本。从最初外骨骼与机器人手臂等比例设计，到后续逐步脱离外骨骼结构，采集方式不断优化。

目前，市面上虽已有多家厂商涉足此类数采设备，但要使设备采集的数据与模型实现良好兼容，仍需进一步打磨。在这一方向上，千寻始终在持续探索。

下图是我们Spirit VLA模型的发展历程。从最初仅能完成简单的pick&place任务，到后来能够基于统一模型泛化输出多个基础任务，再到去年世界机器人大会上，我们的全尺寸人形机器人实现了叠衣服等操作，甚至在新零售场景中，机器人能够完成扫码、选择饮料口味并完成取物。

图片3.png

图源：演讲嘉宾素材

此外，针对新零售场景我们也有不少探索，但我们在此基础上增加了难度——冰柜设有玻璃门。许多竞品在类似场景中多采用开放式冰柜直接取物，而增加柜门后，对模型的能力提出了更高要求，尤其是在开门过程中如何避免机器人撞碎玻璃。这既依赖模型的能力，也离不开硬件层面的支持。我们在每个关节中加入了扭矩传感器，以增强交互过程中的力控能力。

在此基础上，我们还实现了基于语音控制的多种操作，例如在办公室中为同事加热饭菜、清理桌面、将不同物品归位至书架、完成桌面整理，以及自主打开抽屉等。

我们一般将手的原子动作划分为四十余种，其中pick&place属于最基础的一类。除此之外，还包括按压、拉拉链、插拔等多种动作。基于我们更高效的数据采集设备，目前已采集到大量涉及多种原子动作组合的数据。

我们可以通过大量数据支撑预训练，以提升模型的泛化能力；再借助模仿学习进行微调，以增强执行的精准性；最后通过强化学习及dagger等方法，进一步优化模型的鲁棒性。

目前我们有墨子机器人（Moz1），同时我们也在推进Moz2产品的打磨。Moz1是一款相对全能型的机器人，既可应用于商务场景，也适用于部分工业场景。在进行遥操作时，机器人展现出较高的稳定性与精度输出，遥操时延表现也十分出色，能够支撑高精度的数据采集任务。

机器人性能方面，我们还实现了S弯行走及零空间条件下的26个关节联动。针对轮式机器人，我们增加了防倾覆功能。由于VLA在执行指令时无法完全保障机器人不发生倾倒，而底座底盘相对较小，我们在控制系统中加入了防倾倒机制，当重心接近倾倒阈值时，系统会紧急中止当前动作。

展望

回顾过去两年的探索，我们收获了许多宝贵的经验。从去年年初到今年年底，团队在现场持续投入，完成了目前全球首个严肃POC交付的工业场景。总体来看，我们认为模型仍需进一步收敛，成熟度也有待提升。与此同时，我们也从智能辅助驾驶以及第一代具身模型技术的发布路径中吸取了诸多经验。

此外，数据对于模型的提升作用，在具身智能领域已得到初步验证。我们认为，工业场景，尤其是汽车零部件领域，可能成为机器人率先落地的领域。首先，汽车工艺相对成熟；其次，该领域的自动化基础及人才密度相较于其他行业也更为完善。

就整车四大工艺而言，喷涂、冲压、焊接及总装等具有明确工艺要求的环节，对目前机器人来说仍具较高难度。但在零部件领域，存在大量适合机器人探索的场景，例如上下料等操作。我们目前已与全球排名前十的多家Tier 1供应商建立战略合作，在与他们的沟通中，持续交流模型能力的进展。他们也理解当前模型的能力边界仍有限，但同时认为，未来一两年内模型将逐步成熟，配合合适的硬件，人形机器人有望在全球范围内实现工厂部署。

当前他们关注的重点包括两方面。一是人才储备，具身机器人若要在工厂实现规模化应用，企业必须对硬件、模型及数据形成系统理解。二是核心工艺数据的积累，这类数据被视为关键资产进行储存，待模型收敛时，企业可快速训练出适配能力模型，并将其部署于机器人，从而实现自动化水平的提升。

当前，我们正持续突破L1到L2阶段，模型本身也展现出一些有趣的能力。如果大家有机会到千寻智能北京研发中心，欢迎实地交流体验。例如，可以对机器人说“你好墨子，帮我把最像白菜的那个玩偶拿过来”，它会给予友好的互动反馈。我每次出差回到北京，都能感受到模型能力的明显提升，因此回到研发中心后，与墨子进行交流也成为我的一个习惯。

关于商业化进程，我们将其划分为三个阶段。工业场景中的特定场景，尤其是汽车领域，具备较好的适配基础。这不仅因为汽车行业拥有成熟的自动化基础和较高的人才密度，更重要的在于其产品生命周期相对较长。过往在项目交付过程中，产品换型或产线搬运往往对成功率造成较大影响，根本原因在于模型泛化能力不足。随着模型逐步收敛，这类外部因素带来的干扰将逐渐减弱。因此，在工业场景中，那些IO条件较为充裕、工艺迭代较慢、产品换代周期较长的产线，有望率先实现适配与应用。

第二个阶段是商用服务领域。我们认为，这一领域可能成为机器人行业实现弯道超车的关键节点。许多机器人公司成立多年，销量维持在五千到一万台左右。而一旦模型能力成熟，能够进入肯德基、麦当劳这类连锁餐饮体系，单一订单便可能达到数千台的规模。因此，商用服务领域具备成为拐点的潜力。

未来，机器人将逐步进入C端家庭场景，成为日常生活的帮手，承担洗衣、收衣、叠衣、清理猫砂等家务。当我们加班晚归，可以通过手机告诉它希望吃夜宵，它也能制作简单的三明治或加热预制菜。随着模型能力的进一步突破，机器人甚至可以陪你玩耍，成为你身边的伙伴。

目前，我们为合作伙伴提供数采设备平台、开源模型、机器人硬件以及整体框架下的数据管理平台。在生态合作模式上，我们选择的合作伙伴通常对模型和数据有一定理解，具备自主进行模型微调的能力。例如，面对简单的型号换产需求，他们可通过数据采集员采集数据，对模型进行微调，进而提升任务成功率。我们希望通过覆盖全产业链的平台，最大程度为客户赋能，助力其解决最后一公里的实际问题。

展望未来十年，我们认为2025年前后是移动通信时代的重要节点，类似2015年移动通信领域迎来的发展机遇。2025年见证了VLM、千问、DeepSeek等技术的发展。

而到2035年，我们预计将迎来一个全新的时代。此时，机器人将无处不在，如同今天的汽车一样，融入我们的路面交通与日常生活场景，让科技真正服务于人，使生活更加轻松便捷。

我们也始终坚守“双十计划”的愿景——未来十年，让全球10%的人拥有属于自己的机器人。

（以上内容来自千寻智能科研生态总监徐国强于2026年3月17日在第四届具身智能机器人产业发展论坛发表的《迈向通用人形机器人的曙光时刻》主题演讲。）

千寻智能：迈向通用人形机器人的曙光时刻

新闻分类