중요 산업기계·로봇 2026년 02월 09일 界面新闻

리슈안·샤오펑, 자동차 로봇 개발 첫걸음은 출발은 좋지만 규칙과

전문가 해설

리샹(理想, Li Auto)자동차(리샹(Li Auto))의 리샹 CEO와 샤오펑(小鹏, XPeng)자동차(샤오펑(Xpeng))의 허샤오펑 CEO는 공통적으로, 자동차를 단순한 이동 수단이 아니라 물리 세계에서 작동하는 지능형 에이전트로 정의하고 있습니다. 이를 위해 지금까지 분리되어 발전해 온 **스마트 콕핏(좌석·인터페이스·서비스)**과 자율주행(인지·판단·제어) 시스템을 하나의 AI 기반으로 통합하려는 ‘콕핏-주행 통합’ 전략을 추진하고 있습니다. 실제로 두 회사 모두 조직 개편을 단행해, 기존의 자율주행·콕핏 부서를 해체하거나 통합하고, 대규모 모델, 인프라(Infrastructure), 데이터와 툴체인을 중심으로 한 AI 회사형 구조로 전환하고 있습니다. 이는 기술 전략일 뿐 아니라, 전기차 시장 성장 둔화 속에서 자본시장에 새로운 성장 스토리를 제시하려는 의도도 함께 담고 있습니다. 업계 전문가들은 고성능 칩과 멀티모달 대모델(VLM·VLA)의 발전으로 기술적 가능성은 커졌다고 평가하지만, 안전성과 신뢰성이 요구되는 자율주행 영역 특성상 단기간에 완전한 통합이 이루어지기는 어렵다고 보고 있습니다.
저의 시각에서 보면, 이번 흐름은 중국 자동차 산업이 ‘전동화 경쟁’에서 ‘지능화 경쟁’으로 본격 이동하고 있음을 상징합니다. 테슬라(테슬라(Tesla), Tesla)가 북미에서 시도 중인 음성 지시–주행 연계 사례는 방향성을 보여주지만, 아직은 ‘수동 명령형’ 단계에 가깝습니다. 중국 업체들이 말하는 자동차 로봇은 그보다 한 단계 더 나아가, 운전자의 행동·생체 신호·환경 정보를 종합해 의도를 예측하고 선제적으로 행동하는 시스템을 지향하고 있습니다. 다만 자율주행은 단 한 번의 오류도 허용되기 어려운 안전 핵심 영역이기 때문에, 콕핏 AI처럼 불확실성을 허용하기 어렵습니다. 계산 자원 배분, 시스템 지연, 업데이트 주기 차이 등 현실적인 제약이 커, 단일 AI 플랫폼을 그대로 공유하는 방식은 위험하다는 지적이 설득력을 갖습니다.

요약

중국 전기차 업체 리슈안과 샤오펑(小鹏, XPeng)이 하드웨어 경쟁과 가격전에서 벗어나 AI 기반 '자동차 로봇' 개발에 집중하고 있다. 이들은 스마트 캐빈과 자율주행 시스템을 통합한 '캐빈-드라이빙 융합' 전략으로 조직을 개편했다. 하지만 안전성이 중요한 자율주행과 서비스 중심의 캐빈 시스템 통합은 기술적, 조직적 난제가 많아 단계적 접근이 필요한 상황이다.

界面新闻记者 |
周姝祺
试图从硬件参数竞赛与价格战泥潭中抽身的汽车制造商们，正在把筹码押向全新的AI赌注。它们希望打造出一种媲美科幻电影，具备主动感知与服务能力的“汽车机器人”。这场转向不仅关乎技术升级，也被视为向资本市场讲述新一轮增长故事的关键。
理想汽车CEO李想日前发文称，人工智能正经历从Chatbot（聊天机器人）向Agent（智能体）进化。过去AI工具更多提供建议，但真正进入生活和用于生产和生活，它必须能够行动。他认为，汽车本质上是一个在物理世界移动的机器人，应当像司机一样理解用户需求、主动提供服务。
要实现这一愿景，车辆必须同时具备意图理解与物理执行能力，这也意味着目前独立运作的两套系统需要打通，即负责交互与服务的智能座舱，以及负责感知与控制的智能驾驶。只有形成从决策到控制的完整链路，“汽车机器人”才具备落地现实基础。
小鹏汽车CEO何小鹏在内部讲话中也给出了相似判断。据36氪报道，何小鹏称，汽车产业正在进入与AI深度融合的新阶段，智能座舱与智能驾驶将实现技术合流，最终形成“超级智能体”。
这两家公司为此同时开始着手内部组织架构的调整，为舱驾融合策略迈出实质性一步。
理想汽车拆散了自动驾驶研发部门，并按照AI公司的组织结构将团队梳理为几大版块：Infra（基础设施）团队负责算力和数据；基座模型团队聚焦多模态认知模型的预训练和后训练；软件本体团队构建完整工具链工具链与通用智能体工程；硬件本体团队让硅基智能在物理世界有载体。
小鹏汽车则将自动驾驶中心和智能座舱中心两个智能化一级部门，合并为“通用智能中心”，并围绕基座模型、Infra底座设立二级组织。合并后，统一的AI中台将同时支撑智驾、座舱及机器人等业务，减少重复研发与资源分散。
多位接受界面新闻采访的业内专家认为，这种舱驾打通和统一AI底座将是未来汽车智能化发展的主流方案。从技术栈看，座舱与智驾目前分别采用的视觉-语言大模型（VLM）和视觉-语言-动作大模型（VLA），在底层能力具备复用空间，这为统一架构提供了可能性。
硬件基础设施的成熟加速了这一进程，新一代高算力芯片已具备同时运行VLA与VLM能力的算力储备。对于受困于成本压力的汽车公司而言，实现舱驾融合还可以降低硬件冗余与系统成本。
特斯拉是舱驾融合的率先实践者。一个已经开始北美地区实践的案例是，用户说出模糊的语音指令后，由智能助手Grok负责解析语义并生成导航目的地，随即交由全自动驾驶系统FSD执行具体的路径规划与车辆控制。
一位从事舱驾融合相关领域的业内人士接受界面新闻采访表示，特斯拉这种舱驾交互联动还处于相对初级阶段。本质上系统仍然依赖驾驶员的显性指令来触发动作，尚未实现从被动响应向主动服务的跨越。
“未来更值得期待的是，系统将不再依赖显性指令，而是通过捕捉驾驶员的生理信号、行为习惯等多模态输入，精准预判其潜意识意图，并与物理世界的实时状态对齐，实现人-车-环境的协同感知。更进一步，座舱可动态调整对驾驶员的干预程度，不再是由人单向指挥车，而是让车辆主动融入人类的感知-决策闭环。”
但要注意的是，现阶段想要实现座舱和智驾的统一人工智能底座还相当困难。一位人工智能领域专家向界面新闻表示，座舱主要承载服务体验，允许一定的不确定性，偶尔出错最多影响用户体验；自动驾驶属于安全关键系统，需要毫秒级稳定性、可验证与可回放性，任何一次失误都可能带来安全风险。
“统一底座的难点不在于模型能力本身，而在于如何确保自动驾驶链路的绝对可靠性不受影响。”
最常见的难点是算力和系统的调度上。座舱大模型在运行时会瞬时占用大量算力和显存，而自动驾驶则要求每一帧计算都稳定、延迟不能波动。如果两者共享算力资源却缺乏严格隔离，座舱一旦“吃紧”，智驾就可能出现抖动。这类风险在量产车上几乎不可接受。
而在实际产品开发节奏上，智能座舱会频繁接入外部应用和生态，会保持相对频繁的更新速度；而智驾的每一次升级都需要经历漫长验证，两套系统很难保持同样的开发节奏。
另一方面，舱驾融合还考验内部组织的协同能力。一位自动驾驶研发人员向界面新闻指出，座舱和智驾本身存在技术域差异，前者聚焦人机交互和服务生态，后者关注环境感知、规划与功能安全。“两类人才在知识图谱和工程方法上存在一定壁垒，需要做到彼此充分的经验共享。”
上述舱驾融合领域业内人士向界面新闻表示，短期内智能座舱和智能驾驶仍然会维持相对独立的运作。合流更多先从底层开始，比如统一算力平台、数据与工具链，共享部分视觉和多模态能力。并且，智能驾驶要一直保持严格的安全隔离。
“汽车公司可以对计算资源硬性切分，为智驾分配确定性的算力保障，确保其关键任务的实时性与可靠性；同时也为智能座舱等非安全关键任务预留独立资源，避免相互干扰。”
该人士指出，数据传输也需要引入优先级调度机制。例如，在共享感知或融合推理场景中，优先将高时效性数据调度至智能驾驶模块，从数据通路层面强化系统安全。
汽车公司想要推动的舱驾融合AI转型故事很难一步到位。随着系统开始主动参与决策，误判风险、功能安全、隐私边界以及用户接受度等问题都会随之放大。
更现实的路径是，优先在低风险、可撤销的场景中验证能力，而涉及关键或高风险动作时，则保留用户确认或干预机制。这种渐进式放权既有助于控制安全风险，也更容易建立用户信任。