중요 산업기계·로봇 2026년 02월 11일 36氪

중국 휴머노이드 로봇 훈련센터, 표준화·호환성 문제로 산업화 도전

전문가 해설

중국 각지에서 휴머노이드 로봇 데이터 훈련센터가 ‘신형 인프라’로 빠르게 구축되며 진기(真实机) 데이터를 대규모로 생산하고 있지만, 데이터 표준 부재와 이기종 로봇 간 호환 문제, 막대한 시간·비용 부담 등 구조적 한계 속에서 구현지능의 산업화 가능성을 둘러싼 현실적 고민이 커지고 있습니다. 화려한 로봇 시연 영상 이면에 반복적 데이터 축적과 정밀한 센서 동기화, 시뮬레이션 결합 등 복합적 과제가 존재함을 짚고 있습니다.
이번 기사는 로봇 산업이 ‘화려한 시연 영상’의 단계에서 벗어나, 본격적인 산업 인프라 구축이라는 현실적인 국면에 진입했음을 보여줍니다. 공중제비·권투·댄스 영상으로 상징되던 휴머노이드 열풍 뒤에는, 실제로는 반복적인 동작을 수만·수억 번 학습시키는 데이터 공장의 조용한 노동이 존재합니다. 대형언어모델(LLM)이 인터넷에 축적된 2차원 데이터를 기반으로 급성장했다면, 로봇은 3차원 물리 세계의 시각·힘·토크·자세 등 다중 모달 데이터를 처음부터 축적해야 하는 전혀 다른 난관에 직면해 있습니다.
최근 중국에서는 베이징(北京, Beijing)·상하이(上海, Shanghai) 장장·우시(无锡) 등지를 중심으로 국가·지방 공동 휴머노이드 혁신센터와 산업형 데이터 실훈센터가 잇달아 구축되고 있습니다. 이는 중앙정부가 ‘신형 인프라(新基建)’의 연장선에서 인공지능과 로봇을 전략 산업으로 육성하려는 흐름과 맞닿아 있습니다. 다만 업계 추산에 따르면 범용 수준의 ‘구현지능(具身智能)’을 실현하려면 수천억 건 규모의 데이터가 필요하다는 분석도 제기됩니다. 현재 연간 수십억 건 수준의 데이터 생산 능력으로는 여전히 4~5개 차수의 격차가 존재하는 셈입니다.
더 큰 문제는 데이터의 이질성입니다. 제조사마다 로봇 관절 구조, 센서 배치, 제어 프로토콜이 달라 동일 작업 데이터도 호환이 어렵습니다. 이에 대해 한 축은 특정 기종 중심으로 표준화를 시도하고, 다른 한 축은 여러 제조사의 로봇을 동일 공간에서 훈련시키는 ‘이기종 데이터셋’ 구축을 시도하고 있습니다. 또 다른 접근은 인간 작업 영상을 3D로 재구성해 로봇 동작으로 변환하는 Real2Sim2Real 방식처럼, 실제와 시뮬레이션을 결합해 비용을 낮추려는 시도입니다. 이는 최근 중국 AI 업계에서 확산되는 ‘데이터 공장화’ 흐름과도 맥이 닿아 있습니다.
산업 적용 측면에서는 자동차 도장 검사, 산업 물류, 무인 매장 등 특정 수직 분야 중심의 ‘장면-데이터-모델-응용’ 폐쇄형 구조가 강조되고 있습니다. 이는 스마트 자율주행 산업이 지난 10여 년간 구조화된 도로 환경을 중심으로 점진적으로 상용화해 온 경로와 비교됩니다. 다만 자율주행이 ‘충돌을 피하는 문제’에 집중했다면, 휴머노이드 로봇은 가정·공장·서비스 현장의 비정형 환경에서 다기능 작업을 수행해야 하므로 난이도는 훨씬 높습니다.

요약

화려한 로봇 시연 영상과 달리, 실제 로봇 데이터 훈련 센터에서는 단순한 동작을 반복하며 데이터를 수집하고 있다. 물리세계의 3차원 데이터는 디지털세계와 달리 수집이 매우 어렵고 복잡하다. 중국 전역에 50개 이상의 로봇 데이터 센터가 건설되고 있지만, 데이터 표준 부재와 높은 비용으로 인해 실질적인 상용화까지는 상당한 시간이 필요할 것으로 보인다.

文 | 张冰冰

编辑 | 阿至

后空翻、跳舞、拳击、一脚踢碎西瓜……过去一年，这些充满视觉冲击力的机器人动作片段不断刷屏。行业为之振奋，资本加速涌入，公众的期待值也升至高点：成熟的机器人产品，似乎已从实验室快步走向现实。

而在被称为机器人“学校”的数据训练中心里，场面却安静得多：数据采集员手持操作设备，引导身边的机器人完成一些看似简单的任务，比如抓起桌上的零件，放入工具箱，再合上盖子，动作缓慢，偶尔停顿。

北京人形机器人数据训练中心

这只是“学习”的第一步。机器人每完成一组动作，就会生成一条结构化的数据。将这些数据投喂给大模型进行训练，且数据量要足够大，才有可能让机器人拥有“大脑”，从而脱离被动的编程控制，迈向主动的理解与决策。用业内人士的话来说，这将是“猴子和人的区别”。

这套“数据+算力+算法”的逻辑我们并不陌生，以ChatGPT、deepseek为代表，席卷全球的大语言模型已经验证了其可行性，并建设了相对成熟的算力资源和算法体系。但机器人面对的挑战在于，这次的智能从数字世界来到了物理世界，数据成为了最高的壁垒。

大语言模型所使用的语言、图像等数据，本质上存在于二维数字世界，易获取、可复制；而机器人面对的三维物理世界，是一个高维、连续、多模态的时空流，包括视觉、声音、力、扭矩、本体姿态等多种传感器信号，处理难度指数级增长。

如果说，互联网多年积累的数据为大语言模型发展提供了充足的弹药，那物理世界的数据采集和积累，几乎需要从零开始。

其中，“真机数据”完整采集了机器人在真实物理环境中的原始运行数据，其稀缺和可贵成为行业共识。过去一年，机器人数据采集中心以“基础设施”的定位遍地开花，文章开头那样枯燥却关键的数据采集场景正在全国上演。

然而，真机训练意味着巨量的时间与资本投入，数据中心建设“开弓没有回头箭”，在热潮之下更需要冷思考：什么样的数据才算“高质量”？训练得到的数据如何高效流转与复用？在填平数据鸿沟之前，行业如何务实推进？

在机器人时代的“新基建”全面启动之前，对这些问题的探索与解答，将决定“具身智能”是一场扎实的产业升级，还是又一个被过度透支的概念。

一、数据采集，精工出细活

在北京人形机器人数据训练中心的集中训练区，隔着透明玻璃，参观者可以直观地看到机器人是如何“学习”的。数据采集员将手套在采集设备上，手部的动作会传导给一旁的机器人，让机器人拿起桌上的钳子、放进工具箱，再把钳子拿出来、放进去，循环往复。

抓、拿、取、放等简单任务，都会在这样的桌面环境下进行小场景训练。再往远处看，视线则会被白色屏风遮挡。为了防止数据污染，每个操作区都做了单独隔间，从物理上隔绝干扰，保证数据干净程度。

另一边的场景训练区，画面就变得复杂起来。无人超市里摆满商品、客厅里散落着图书、卧室和卫生间里堆放着衣服毛巾，高度还原的场景里人可以自由走动，机器人则需要在这样复杂但更接近真实的环境中，完成物品摆放、衣物折叠等操作。

北京人形机器人数据训练中心场景训练区

从单调的初级动作训练，到复杂的真实场景还原，目标只有一个——批量采集高质量的机器人真机数据。

这也是所有数据中心的核心目标。

但当前，机器人行业尚未形成统一的数据标准，不同数据采集中心往往有自己的数据表述方式和格式要求，达成目标的路径，甚至从数据中心建设之初就开始分化。

北京人形机器人数据训练中心的运营方是睿尔曼智能科技（北京）有限公司，作为一家聚焦机械臂研发的机器人企业，睿尔曼对数据评估的各个维度中，对硬件的要求尤为突出。

睿尔曼相关负责人介绍，硬件本体上，数据中心要求每个硬件本体做高精度标定，包括绝对运动精度，以及相机相关的参数等。所有机器人都装备了高精度传感器，可以采集多达57个维度的状态数据。

另一大硬件挑战来自时空对齐。具体来说，数据采集使用的摄像头其采样频率是通常是30Hz，即每秒拍摄30张图像，拍摄每帧图像之间的时间间隔约33毫秒，如果时间不对齐，这33毫秒的差异就会导致关节编码器、相机、力传感器捕捉到“不同时刻”的世界碎片。

而模型训练依赖严格的因果关联，毫秒级的不同步就可能产生严重的错位，失之毫厘谬以千里。据介绍，睿尔曼在数据采集过程中，采用硬件同步对齐策略，在硬件层面保证传感器数据、摄像头数据采集过程中全部按照真正的物理时刻采集，做到1毫秒以内的误差。

在硬件高精度标定和超时空对齐基础上，再通过多样性矩阵系统，实现场景物品的多样性和机器人位置姿态的泛化性，保证不会出现数据拟合而导致模型变差的情况。再经过严格的数据可信度验证，一条高质量的真机数据才算采集完成。

睿尔曼相关负责人表示，真正能走入家庭的机器人，其真实的物理关节要足够稳定可靠，同时要易用，并能以最小的体积发挥出最大的负载能力。在AI层面，数据维度至关重要。“我们认为真机数据是机器人走进家庭的最后一个门槛，所以我们坚定地从终局出发，提供这样的数据资产。”

目前，北京人形机器人数据训练中心已实现规模化产出，每天可生成约6万条数据，覆盖工业智造、智慧家庭、康养服务及5G融合四大领域的16个细分场景。

二、数据缺口与数据异构的鸿沟

技术市场研究机构Interact Analysis数据显示，截至 2025 年年底，中国已经有50个以上国家或省市区级人形机器人数据采集与训练中心处于使用或规划建设状态，其中，50% 以上的数采中心已经在2025 年正式投入使用。

以北京人形机器人数据训练中心为参照，其真机数据的年产能已达千万条级别。以此粗略计算，假设目前所有数据中心全部投入运行，机器人数据年采集量可以达到数十亿条。

这看似庞大的数据供给，在机器人所需要的“智能”面前，仍显得杯水车薪。

据机器人数据服务商幂特科技保守测算，在具身智能大模型足够好且数据质量足够高的前提下，训练机器人学会一个动作，大概需要1000-5000条数据；训练机器人学会一个由多个动作组成的任务，大概需要1万-2万条数据；训练机器人完成某个垂直行业80%的人类工作，至少需要1亿条数据；如果要把具身智能要放大到通用，也就是千行百业，那所需的数据量至少是千亿条的量级，数据缺口是4-5个数量级。

更大的鸿沟在于数据异构。因为不同厂商、不同形态的机器人在硬件设计、传感器配置和软件协议上各不相同，采集到的动作、力觉与视觉数据也就“语言不通”，基于一种机器人的数据成果，换到另一台机器人上就可能失灵。

这意味着，各个数据中心训练的数据成果，甚至很难实现1+1=2的叠加效果。

在行业通用的统一标准出现之前，数据中心也在探索各种不同的解决思路。

一种是“屏蔽差异”，采用市占率较高的机械臂或机器人型号进行数据训练，从硬件根源上规避了兼容性问题，以追求数据的更广泛应用，比如上文提到的北京人形机器人数据训练中心。

另一种思路是“拥抱差异”，主动进行异构训练。在上海张江，国家地方共建人形机器人创新中心（以下简称“国地中心”）具身智能训练场，首创异构人形机器人具身智能数据集构建方法，其目标是要打造最大规模的异构人形机器人具身智能数据集。

在这里，来自不同厂家的机器人被置于同一物理空间内协同运行。国地中心首席科学家江磊在接受媒体采访时曾表示，“把不同厂家的异构机器人放在同一空间运行，就能让AI意识到，它活在一个多元多样的物理世界中，从而建立起客观认知，发育出明辨是非的能力。”

第三条技术路径，是直接“绕过差异”，寻找更广泛和通用的数据。与关节传感器等硬件采集的数据不同，人类视频数据对机器人来说是相对通用的，可以提取视频数据中人体的位姿并映射为机器人的运动轨迹，绕开本体壁垒训练大模型。

北京人形机器人数据训练中心视觉动作捕捉项目

更激进的方案是直接抛开本体，进入仿真世界。在虚拟的数字化环境中，通过物理引擎和程序模拟，可以低成本地生成海量数据，再应用到真机上，实现Sim2Real。然而，物理世界的极端复杂性，从根本上决定了，仿真数据在精准性与泛化性上，难以达到理想水平。

“我们希望能在真实与仿真之间找到一种平衡，兼具两者的好处。”幂特科技CEO介绍了其Real2Sim2Real的数据采集模式：在虚拟环境前面增加“Human Doing Video”作为机器人学习的标本和范式，“我们将来自真实世界的人类操作的2D视频数据做3D重建，通过仿真还原人体的3D位姿，并将3D位姿retargeting到机器人，所以我们叫Real2Sim2Real。”

据介绍，使用这一方式，幂特科技的目标是把单条数据的成本从现在真机数据的几十元降到几分钱，并快速将廉价的采集设备分发到千行百业，获得海量数据。

三、边“干活”边优化

尽管虚实结合等多种技术路径仍在探索，但一个确定的事实是：真机数据无论占比多少，都是机器人与物理世界对齐的“最后一公里”。因此，数据训练中心面临的核心命题不只是追求数据规模，更在于精准生产出匹配当下产业应用刚需的高质量数据。

在无锡，这一逻辑正在被具象化。

由天奇自动化工程股份有限公司牵头建设的“江苏省具身智能机器人工业数据采集与实训中心”，一改“样板间”模式，高度还原了汽车整车工业场景、新能源产线应用场景及工业物流搬运场景等7大实训场景。

“汽车整装是我们天奇股份的传统的业务，我们有庞大的客户群体以及对汽车产线场景的深刻行业理解。”天奇股份—首席算法科学家童随兵介绍，其中汽车喷涂环节，就存在大量的机器人替代人工的需求。

江苏省具身智能机器人工业数据采集与实训中心

在汽车制造中，整车涂装是核心工艺之一。车体在完成电泳底漆后，需进行面漆喷涂，而漆面的均匀度与完整性直接影响整车品质。传统上，这道工序的质检高度依赖人眼，但喷涂车间充满挥发性化学物质，长期作业对工人健康构成一定风险。让机器人替代人工，在此类环境中进行自动化巡检与瑕疵识别，不仅能将工人从有害暴露中解放出来，也为实现更稳定、可追溯的质量检测提供了可能。

童随兵认为，对于具身智能的��器人而言，更合理的落地方式，不是设计一个通用机器人供所有行业、所有工种使用，而是针对个性化需求设计机器人。

基于此，江苏省具身智能机器人工业数据采集与实训中心构建了一个“场景－数据－模型－应用” 的闭环系统，概括说来，就是聚焦既有的业务场景，精准采集该场景机器人数据，再利用所采集的数据训练自研的具身智能大模型，并将训练好的模型部署回对应的实际生产环境中。最终，在真实场景中验证并迭代。

真实场景不仅是数据和大模型效果的“试金石”，也有望成为高质量数据的来源。

2026 CES上，睿尔曼完成了从“北京—拉斯维加斯”的跨洋实时作业演示。通过构建远程劳动力网络，北京的具身训练师可远程控制远在CES展台的RealBOT轮式折叠机器人，执行“递送物品”“传递水果”等真实场景作业。

这不仅是解决特定场景用工需求的方案，更关键的是，让机器人在真实的作业流中直接积累数据。每一次远程操作，都在同步生成包含环境交互、人力决策和任务结果数据，实现了“工作即采集”。这意味着，未来的数据工厂可能无需完全复刻场景，而是可以直接接入全球的生产线和服务终端，让数据在真实的运转中自然沉淀。

四、一场更复杂的耐力赛

同样是“基础设施”的定位，人形机器人数据训练中心，远比单纯的智算中心复杂。不能靠简单的“堆砌”，而是一个以数据驱动、软硬一体、场景闭环的新型基础设施。

在业内专家张晓宇博士看来，评价一个数据中心的未来潜力，核心在于其“异构数据闭环能力” 。这可以拆解为三个关键问题：

第一，能否将工厂、仓库、实验室等真实物理场景，通过标准化接口便捷地接入数据中心，形成持续的“数据脉动”？

第二，能否建立一套从多模态数据采集、云端标注训练、到模型部署回机器人的完整技术管线，并让数据在不同机器人本体间像软件一样复用？

第三，是否拥有一个强大的仿真平台，能基于有限的真实数据，生成海量合成数据进行安全、低成本的“百万次测试”，加速迭代？

以上都是未来各地方区域在数据中心建设中可以探讨的技术方向。

技术之外，张晓宇认为，数据中心还依赖于它所根植的产业土壤，需要明确的主导产业作为需求引擎，催生有价值的数据，“高质量数据集对于模型训练的重要性不言而喻，但从数采场本身的经济性出发，为每一个机器人品牌都单独建一个数采场是不合理的，最合理的方式应该是在一个工业类或高校比较集中的城市只建一个数采场，采集标注并清洗后的高质量数据集可以提供给多个机器人厂家使用，从而实现’一次投入，反复使用’的杠杆效应。”

机器人数据中心的落地堪比大规模的生态建设，政策支持、法规环境、人才培养缺一不可，数据训练之外，还希望实现吸引企业聚集，促进行业模型迭代，加速机器人企业共同发展。

最终，这一切基础设施的意义在于，让高质量的机器人数据，能像电流一样顺畅地输送到每一个需要它的算法与机器人公司手中。

为此，行业已经开始探索多元化数据交易和应用模式：2025年8月，帕西尼具身智能超级数据工厂产品“OmniSharing DB 帕西尼全模态具身智能数据集”，在北京国际大数据交易所正式上架；10月，帕西尼携手腾讯云达成战略合作，将共同打造具身智能 “数据云商城” ；天奇股份也将基于“江苏省具身智能机器人工业数据采集与实训中心”构建数据平台，让机器人数据如同今天的云资源一样，成为服务于整体行业的基础资源。

江苏省具身智能机器人工业数据采集与实训中心

在理解机器人数据采集与产业落地的沟通中，一个案例被反复提及，作为参照的坐标，那就是智能驾驶。行业内部形成了一种清醒的共识：智能驾驶的赛道相对清晰——遵循既定的公路网络，依赖已高度成熟的汽车和传感器硬件，其核心任务简化为在结构化环境中进行可靠的感知与决策，核心是“避免碰撞”。

即便如此，这项技术历经十余年攀登，商业化落地也仅是近期才触及L3级辅助驾驶的门槛，开始进行有限测试。

相比之下，具身智能机器人的落地难度指数级增加。

数据中心的快速建设，解决的更多是“训练资料”的规模化生产问题，但这本“教材”的完备程度、以及机器人的“大脑”与“身体”能否高效学习并应用，仍是悬而未决的命题。智能驾驶的故事已经表明，一项复杂技术从实验室演示到稳定、可靠、经济的商业产品，其间需要穿越的“死亡谷”远比想象中漫长。

对于机器人而言，这场穿越周期的耐力赛，考验才刚刚开始。

36氪未来产业

「36氪未来产业」持续关注城市发展、产业转型和创新创业项目落地。寻求报道可邮箱联系wangfengzhi@36kr.com或扫码联系。

此外，今年36氪正式推出《36氪企业投资指南内参》，依托在经济圈产业群、区域重点推进规划与招商领域的深厚积累，36氪通过提供深入详细、更为及时、独家专有的全面信息服务，为政府部门提供高效、精准的产业项目内参；助力项目方匹配产业资金、链接关键人脉、快速融入新的产业生态。

本文来自微信公众号“36氪未来产业”，作者：张冰冰，阿至，36氪经授权发布。