具身智能，终于要从“会聊天”走向“会干活”了

发布时间：2026/6/12 1:18:46

这两年 AI 圈有个词特别火具身智能。听起来很玄像是机器人突然开窍了其实翻译成人话很简单以前的大模型主要在屏幕里说话现在要进入真实世界用眼睛看、用身体动、用反馈修正。一句话概括具身智能就是“能感知环境、理解任务、规划动作、控制身体并且根据结果持续调整”的 AI 系统。它不是单纯聊天也不是单纯机械臂它更像一个能把大脑、眼睛、手脚、记忆和安全规则接起来的完整工程。锐评一下很多人一听具身智能就以为是“人形机器人 ChatGPT”。这说法太粗糙了。真正难的地方不是让机器人说一句“好的主人”而是让它别把杯子捏碎别把手机扫进垃圾桶别在陌生厨房里原地迷路。一、具身智能到底是什么别把它想成会说话的机器人传统 AI 更像“答题选手”给它文字、图片、表格它输出答案。具身智能更像“实习工人”你给它一个目标它要先看现场再判断环境再拆步骤最后动手完成。这就是差距。聊天模型说错了最多让你皱眉机器人动作错了可能撞墙、摔货、夹手。所以具身智能不是单纯堆参数而是感知、规划、控制、安全、数据闭环一起上。• 感知通过摄像头、深度相机、力传感器、触觉传感器、关节编码器获取真实世界信息。• 理解识别物体、空间关系、任务目标、限制条件比如“杯子在桌子左侧手机不能碰”。• 规划把一句人话拆成多个可执行步骤比如找杯子、靠近、抓取、避障、放下、验证。• 执行把高层计划变成机械臂轨迹、底盘移动、夹爪开合、力控策略。• 反馈执行后重新观察判断做没做成失败就重试或换方案。Google DeepMind 在 Gemini Robotics 的公开介绍里把机器人能力拆成 VLA 模型和 embodied reasoning 模型协作前者把视觉与指令变成动作后者负责物理空间理解、任务规划和决策。这已经能说明趋势未来的机器人不是单脑袋而是“会看、会想、会动”的组合系统。二、第一层感知层机器人必须先看懂世界具身智能的第一步不是模型有多大而是数据有没有采对。人类抓杯子不是只靠眼睛还要靠手指触觉、手腕力度、身体位置。机器人也一样摄像头只是开胃菜真正上桌的是多模态感知。常见输入包括 RGB 图像、深度图、点云、IMU、触觉阵列、力矩传感、关节角度、末端执行器状态、语音或文本指令。这些信息会被编码成模型能处理的 token 或 embedding然后进入后面的 VLM/VLA/世界模型。这里有个非常现实的问题视觉识别“这是杯子”不难难的是判断“从哪里抓不会滑”“杯子旁边有没有障碍”“抓起来以后水会不会洒”。这就从普通视觉识别升级到了可操作性理解也就是 affordance。三、第二层世界模型让机器人先在脑子里预演一遍世界模型可以理解成机器人的“脑内小剧场”。它不是直接动手而是先预测如果我从这个角度抓会不会碰到手机如果我把手伸过去会不会撞到桌沿如果我推这个盒子它会往哪里滑这件事很关键。因为真实世界不能无限试错。聊天模型可以生成十遍答案机器人不能把你家厨房砸十遍来学习。世界模型的价值就是在执行前模拟后果在执行中发现偏差在执行后更新经验。目前具身智能路线里世界模型和 VLA 正在越来越靠近。VLA 更偏“看到什么就做什么”世界模型更偏“我知道做了之后世界会怎么变”。下一阶段很可能是两者融合既能生成动作也能预测动作带来的环境变化。四、第三层VLA 模型真正把“看懂”变成“会动”VLA 是 Vision-Language-Action 的缩写翻译过来就是视觉-语言-动作模型。它的输入不是单纯文本而是图像、视频、语言指令、机器人自身状态输出也不是一段话而是机械臂动作、夹爪开合、底盘速度、末端位姿。OpenVLA 的公开项目介绍中提到它是一个 7B 参数的开源 VLA基于 Open X-Embodiment 数据集中的 97 万条机器人轨迹训练可以开箱控制多种机器人并通过参数高效微调适配新机器人。它的架构大体是视觉编码器投影层 LLM 骨干动作输出。Physical Intelligence 的 π0 走的是另一个很有代表性的方向它强调从多机器人、多任务数据里学习通用物理智能模型跨越图像、文本和动作直接输出低层运动命令。简单说别只让模型“描述怎么做”而是让它“直接动手做”。NVIDIA 的 GR00T N1 则把思路讲得更工程化一个慢思考系统负责理解环境和规划动作一个快反应系统把计划变成连续动作。这很像人类脑子想清楚大方向身体反射负责具体动作。五、第四层需求理解和任务拆解机器人不能只听关键词用户说“把桌上的杯子放进水槽”这句话对人类很简单对机器人却是一串复杂任务。它要知道哪个是杯子水槽在哪里桌上有没有障碍杯子能不能抓移动路线怎么走放下以后怎么确认成功。所以具身智能系统一般需要一个规划层。这个规划层可以由 LLM/VLM 做高层推理也可以结合技能库、状态机、行为树、运动规划器一起完成。高层模型负责“想”底层控制负责“稳”。千万别迷信端到端。端到端很性感但生产环境更关心可控、可解释、可回滚。复杂任务最好拆成可观测的子任务每一步有输入、有动作、有成功判定、有失败兜底。六、第五层训练数据才是具身智能的硬通货大语言模型为什么发展快因为互联网上有海量文本。具身智能为什么难因为机器人数据贵得离谱。你要采集一条高质量动作轨迹可能需要真人遥操作、真机运行、摄像头记录、状态同步、失败标注。Open X-Embodiment 是这个方向的重要数据工程它公开介绍中提到该数据集包含 100 万级真实机器人轨迹覆盖 22 种机器人形态并由全球多个机器人实验室的数据集合而成。这个思路非常关键让不同机器人之间共享经验而不是每台机器都从零学起。训练数据一般来自几类人类遥操作演示、真实机器人 rollout、仿真环境生成、互联网视频学习先验、失败案例挖掘、合成数据增强。真正有用的数据不是“看起来很多”而是动作、状态、任务、结果都能对齐。七、第六层模型怎么训练从模仿学习到扩散策略具身智能训练不是简单问答监督微调。它学的是策略也就是在某个状态下应该怎么动作。常见路线包括行为克隆、扩散策略、Flow Matching、强化学习、离线强化学习、偏好学习等。行为克隆最好理解人怎么演示机器人就怎么学。优点是简单直接缺点是人没演示过的情况容易崩。扩散策略把动作生成看成去噪过程适合处理“同一个任务有多种合理动作”的情况。Diffusion Policy 项目就强调用条件去噪扩散过程生成机器人行为并用于视觉运动策略学习。π0 论文路线则把 Flow Matching 引入 VLA让模型在继承视觉语言模型语义知识的同时学习更连续、更细腻的动作分布。说白了机器人不是只要知道“抓杯子”还要知道手该以什么速度、什么轨迹、什么力度过去。八、第七层仿真到现实便宜训练和真实可靠之间的拉扯仿真是具身智能绕不开的基础设施。没有仿真所有训练都靠真机成本会高到离谱只有仿真没有现实回灌模型又容易在真实世界翻车。这就是 Sim2Real 难题仿真里摩擦系数、光照、材质、相机畸变、机械间隙都可以很理想现实里一切都不讲武德。桌面有灰、杯子有水、地面不平、传感器丢帧、网络有抖动任何小问题都可能导致动作偏差。工程上常用 domain randomization也就是训练时故意随机材质、光照、质量、摩擦、相机角度让模型别记死某个环境。再配合真实机器人日志回放把失败数据重新喂给模型。九、生产级落地不是模型一接机器人就完事真正上线的具身智能系统绝不是一个 VLA 模型直接连机械臂。中间至少要有任务编排、模型服务、机器人中间件、传感器驱动、控制器、安全监控、日志系统、人工接管机制。ROS2 在机器人系统里常被用来做消息通信和模块编排模型推理可以部署在云端、边缘设备或机器人本体。对延迟敏感的动作控制必须尽量本地化对复杂推理可以云端辅助。理想架构是高层推理慢一点没关系底层控制必须快大模型可以聪明但安全层必须保守。比如速度限制、碰撞检测、急停按钮、权限边界、人类接近检测这些不能交给模型自由发挥。十、评估和安全机器人能动不代表能用具身智能最怕的不是不会做而是看起来会做关键时刻乱做。一个家用机器人如果 90% 时间能收拾桌子10% 时间把玻璃杯扫到地上这就不能放心用。评估指标至少包括任务成功率、平均完成时间、泛化到新物体新场景的能力、碰撞次数、急停次数、动作越界次数、推理延迟、连续运行稳定性、失败恢复能力。安全上要坚持一个原则模型可以建议安全系统必须有否决权。也就是说大模型输出动作以后不能直接执行必须经过规则、约束、碰撞检测、速度限制和人机协作安全策略。十一、如果你要做一个具身智能项目应该怎么拆别一上来就喊“我要做人形机器人”。那东西太烧钱也太容易变成 PPT。更靠谱的路线是从一个明确场景切进去比如仓储分拣、桌面整理、巡检拍照、实验室自动化、餐饮后厨、养老辅助。• 第一步确定封闭场景。场景越开放模型越容易翻车。• 第二步选机器人形态。机械臂、移动底盘、双臂、人形机器人对数据和控制要求完全不同。• 第三步搭感知系统。先保证看得清、定位准、状态同步。• 第四步搭任务编排。用状态机和技能库兜住大模型不要把所有决策都裸奔给模型。• 第五步采集数据。遥操作数据、失败数据、边界情况数据比漂亮 demo 更重要。• 第六步训练策略。先行为克隆和微调再考虑扩散策略、强化学习、世界模型。• 第七步上线安全。急停、权限、碰撞检测、人类接管、日志回放必须从第一天就做。说句实在话具身智能真正的壁垒不是你会不会调 API而是你有没有能力把模型、数据、机器人、控制、安全和场景运营全链路跑通。单点炫技很容易系统稳定很难。十二、核心技术表一句话看懂每个模块模块解决什么问题常见技术多模态感知让机器人看见、听见、摸到真实世界RGB-D、点云、触觉、力控、本体感知场景理解知道物体是什么、在哪里、能不能操作VLM、3D 表示、Affordance、语义分割任务规划把人话目标拆成步骤LLM/VLM、行为树、状态机、技能库运动规划让机械臂和底盘安全移动轨迹规划、碰撞检测、MPC、IKVLA 模型把视觉和语言转成动作Transformer、Action Token、Action Head策略学习让机器人学会具体动作行为克隆、Diffusion Policy、Flow Matching、RL仿真训练低成本生成训练和测试场景Isaac Sim、MuJoCo、Domain Randomization安全治理防止模型乱动造成风险急停、速度限制、地理围栏、人机协作规则结尾具身智能不是下一个聊天框而是下一个产业入口如果说大语言模型解决的是“数字世界里的脑力劳动”那具身智能想解决的就是“物理世界里的动作劳动”。这一步比聊天更难也更有想象力。它需要大模型的理解能力也需要机器人学的控制能力需要互联网数据也需要真实世界数据需要漂亮 demo也更需要失败日志需要端到端模型也离不开工程安全边界。未来真正厉害的公司不一定是把机器人做得最像人的公司而是能让机器人在具体场景里稳定干活、持续学习、可控上线的公司。别被概念吓住也别被 demo 忽悠。具身智能的本质很朴素让 AI 不只会说还能在真实世界里把事办成。内容来源具身智能终于要从“会聊天”走向“会干活”了功能变化与行业影响解析_热闻岛