2024Week04-机械设备深度报告：机器人如何进行复杂操作和自主移动

24年1月29日更新

02096

2024年1月，斯坦福大学团队在社交媒体上发布了与谷歌DeepMind团队合作研发的能炒菜、能做家务的双臂机器人MobileALOHA。时隔不久，特斯拉也发布了关于机器人执行折叠衣物等复杂操作的演示视频，这些事件引发了人们对于人形通用机器人时代的遐想。MobileALOHA依托系统收集的数据，通过人类示教动作学习模仿操作技巧与身体控制。其硬件配置并不高，整套价格仅需3.2万美元，且解决方案为开源。上述成本和配置就能打造出在家庭环境下能够实现诸多功能的MobileALOHA，其关键在于机器人的运动控制及交互，和自主移动两方面。目前人形机器人表现出的决策执行能力已经逐步向过往的设想靠拢，今年或将成为人形机器人应用的元年，下文中将讨论机器人是怎样完成复杂操作及自主移动的。　　

机器人如何进行复杂操作？多种AI训练路径实现运动控制及环境交互。ChatGPT引起浪潮后，以谷歌PaLM-E为代表的多模态具身VLM不断面世，人形机器人领域也出现了许多不同的AI训练方法。目前比较主流的五种AI训练思路：虚拟仿真、动作捕捉或遥操作、模仿学习、VLM+小模型和VLA。每种方式都有其优劣之处，各家公司会通过尝试及融合多种训练方式，以寻找最为适合的AI路径。虚拟仿真指在虚拟环境中构建智能体并进行强化学习算法训练，代表为英伟达的VIMA；动捕或遥操作指将真人动作通过传感器等设备精准复制给机器人，机器人接收并收集训练信息从而学会技能，代表为特斯拉等人形厂商；模仿学习指机器人通过观察人类现场演示或端到端学习人类示教视频，理解行动中的底层逻辑，进而复现人类演示的技能，代表为斯坦福MimicPlay；VLM+小模型是由VLM大模型负责高层规划，小模型做低层运动控制，代表为谷歌PaLM-E和MetaImageBind；VLA是从VLM中演化出来的，直接输出运动控制指令，构成感知-决策-动作的闭环过程，代表为谷歌DeepMindRT-2。　　

机器人如何实现自主移动？SLAM技术应用推进其发展。SLAM是实现机器人自主导航和后续交互的关键技术之一，是以定位和建图两大技术为目标的算法。根据传感器的不同，机器人用的SLAM算法可以分为二维激光SLAM、三维激光SLAM以及视觉SLAM。不同的SLAM算法，实现的具体细节会有所不同，一般通用架构会包含数据预处理、前端、后端、闭环检测、地图构建等。不同方案的SLAM均有其应用空间，三维激光、视觉SLAM更适合于人形机器人应用场景。国内多家人形机器人厂商已经在自主移动领域应用了SLAM技术，未来随着移动机器人、自动驾驶等领域SLAM技术的迁移，应用范围将更为广阔。