当前位置：动态资讯

斯坦福机器人Mobile ALOHA：会做菜、叠衣等数十种家务成本约3万美元

发布时间：2024-01-25

斯坦福华人团队的Mobile ALOHA“全能家务机器人”在网上火了。

它展示了做饭、铺床、浇花等多种家务技能，还能够煮虾、擦拭桌子上的红酒、洗盘子、自动打开电梯等数十种家务技能……可谓全复合“保姆人才”。这让网友直呼机器人时代已来，因为它“眼里有活儿”。

不过，Mobile ALOHA所展示的复杂技能，其实是背后由人遥控操作的。

1月6日清晨，发现网友为Mobile ALOHA所呈现的自主化、智能化能力倾倒后，Mobile ALOHA的两位研发人员连忙“辟谣”，称部分动作是机器人自主展示的，部分则由人遥控完成。

为了如实呈现机器人的能力，他们还专门放出了Mobile ALOHA在全自动状态下的“蠢笨”动作合集，称“机器人尚未准备好接管世界”。

当你以为机器人能丝滑优雅地举起一杯红酒时，它只能颤颤巍巍地握住杯子，看着酒杯倾倒碎在地上，将红酒洒满桌。

红酒洒满桌

表现颇佳时，机器人能熟悉地端起左手颠锅、右手拿铲，完成一道菜肴的制作。但多是几次，原本挥洒自如的锅铲就不是对着铁锅底部一顿操作，就是在锅中挥舞但碰不到菜。

失败的炒菜案例

全自动状态下，它无法有力地控制住一把平底锅，将锅端起后，整个平锅便不可避免地掉落，为了拯救翻到的铁锅，守在旁边的研究人员还被烫伤了。

倒菜失败

甚至一根红色圆珠笔，Mobile ALOHA也无法拾起。

拿记号笔

现实和理想还有差距，但Mobile ALOHA所呈现出的完成精细和复杂的任务的运动操作能力，仍值得关注，这让未来机器人更具有想象空间。

遥控的叠被子、做菜、洗衣技能

Mobile ALOHA到底可以做到什么？

经过20～50轮演示和模仿学习，机器人可以自主完成一些复杂的移动操控任务。它能够按照人类做菜的顺序，将油倒入锅中，再放入一粒虾仁，并翻转锅铲将其炒熟，并拿起锅，转身将虾倒入背后已备好的盘子里。

炒虾

它可以自动按下电梯按钮，并成功进入电梯中；

自动开电梯

还可以精准打开一扇两门柜子，并抬手将一个3磅重的锅放入柜子中，再关上柜门。

将锅放入柜门

还可以在与人相遇后伸出“手”击掌。

与人击掌

目前，机器人可以连续9次完成端起酒杯擦桌子的动作，连续5次自主呼叫电梯，具有学会技能的能力。但这个技能并非100%精准、智能，会出现错误，呈现出前文所展示的“失败状态”。

对于一款想要进入家庭场景的机器人而言，比起技能丰富度，安全是更重要的前提。一款身体笨重、由钢铁材料制成的机器人，会给家带来远超狗等宠物的杀伤力。

机器人尚未做好准备接管世界，但拥有潜力。

为了探索Mobile ALOHA的潜力，符博士将机器人带回家中，并遥控机器人完成了一些复杂动作。它能完成做滑蛋虾仁、干贝烧鸡、蚝油生菜厨艺，这里面涉及到了切蒜、洗生菜、打鸡蛋等细致动作。

做干贝烧鸡

在遥控状态下，它能拉开窗帘布、打开窗子，握着水壶浇水；

浇水

可以握着戴森吸尘机，进行全屋清洁；

用吸尘器打扫房间

它能在主人站着不动的情况下，捏着圆形的剃须刀完成整个刮胡子动作。

剃胡子

可以将衣服赛道洗衣机里，并转动洗衣液的圆形瓶盖，将洗衣液倒入洗衣机，再操作完成洗衣动作。

洗衣服

也能从抽纸盒中抽出一张纸，并揉成一团，再擦去玻璃上的灰，且控制机械与玻璃接触时，不伤害玻璃表面。

拿纸擦玻璃

虽然上述家务能力是由人遥控操作完成的，但机器人呈现的完成复杂、精细动作的物理可能，是一个巨大的进步。

它还解决了人形机器人领域的一大技术难题——面对布料这种柔软又单薄的材质，机器人要如何完成叠被子、叠衣服等人手可以简单完成的动作。

在遥控状态下，它可以完成铺平床单、为枕头套上枕套的动作，且机器人铺平的床可谓一丝不苟，远超当代年轻人的床物收纳能力范畴。

换床单

它还可以将一件衣服展开，捏着拉链头，拉上衣服拉链，再用衣服撑将其撑起，并放入衣柜中。

收纳衣服

在机器人世界，人手能简单完成的动作，对机器便越难。机器人还做不到“眼中有活”，但手能干细致活。

Mobile ALOHA的联合研发者Tony Z.Zhao还引用了2015年的DARPA机器人挑战大赛上的失败汇集，戏谑称希望特斯拉机器人的摔倒视频。

对于Mobile ALOHA的失败集锦，网友也格外宽容，称他们“愚蠢又可爱”，也有人称“比起远程操控，自主果然困难很多”。

软硬件开源，全套机器人仅需3.2万美元

Mobile ALOHA的最大价值是物理操作能力的进步，它展示了机器人做重复性精细操作任务的潜力。

为了实现双手操作技巧，符博士团队基于谷歌Deepmind的ALOHA遥操作系统生成，设计出了一款低成本的全身远程操作系统“Mobile ALOHA”。

Mobile ALOHA是一个开源的操作系统，其学习原理是遥操作和模仿学习，即通过对人类重复动作的学习掌握技能，它是一种全身远程操作的双手移动操作系统。

谷歌的ALOHA遥操作系统更多是在桌面上进行思考，Mobile ALOHA在底部上增加了移动底盘，增加了对机器人移动性和灵活性的训练。

借助集成的移动底座和全身远程操作界面，Mobile ALOHA可以收集更多的机器人与现实世界交互的数据，并在交互过程中学习、模仿人类动作。

研究团队发现，只需对每项任务进行 50 次演示，Mobile ALOHA学会动作的成功率能高达90%，如可以实现连续9次擦红酒，连续5次成功使用电梯。

据符博士表示，之所以能在50个演示之内便实现上述效果，是因为Mobile-ALOHA 将模仿学习和静态操作数据结合协同训练。

协同训练效果

通过这种联合训练方式，机器人训练成功率可以显著提高，尤其是在执行需要精确操作的任务时。如在擦拭红酒任务中，举起酒杯和擦拭是最重要的子动作，在没有联合训练时，其成功率只有58%，但联合训练后，成功率可以提高到95%。

训练效果差别1

这种联合数据训练的方式，在VINN、扩散策略和ACT等不同的模拟学习方法上都有着不错的效果。如扩散策略下，整个任务的成功率原本只有35%，但经过联合训练后，可以提高到65%。

训练效果差别2

此外，协同训练在不同数据组合情况下，鲁棒性、稳定性在不同维度上都得到了提高。

训练效果差别3

在硬件上，它的外在形象并非最火的人形机器人形态，整个身体由一个移动底盘、一个操作界面，两个机械臂，反馈驱动，两个腕部相机及1个顶部相机构成。整个机器采用反向驱动结构的设计，控制者能通过操作台控制机械臂，指导Mobile ALOHA完成动作。它的底部安装有电池包，可断电使用。

Mobile ALOHA的硬件设计

这款机器人和操作系统由斯坦福的三人团队研究而成——计算机科学博士生Zipeng Fu和Tony Z.Zhao，和二人的指导老师是Chelsea Finn。

他们在软硬件上都进行了开源，公布了代码、硬件结构和数据，团队还专门列出了具体的硬件清单，包括整套机器人下来成本只需要3.2万美元，即22.7万人民币。

这意味着，只要有兴趣，任何人都可以基于他们的研究成果，对机器人进行试验，去训练自己想实现的动作。该硬件的运动底盘厂家松灵机器人已在官网表示，可以定制同款斯坦福Mobile Aloha机器人。

Mobile Aloha机器人

2024年被认为是人形机器人元年，无论是特斯拉、波士顿动力等具身智能玩家，还是如谷歌的AutoRT 控制系统，又或 RT-2机器人大模型，都在从不同维度推动人形机器人发展。在最长远的想象力，进入家庭的人形机器人将会带来巨大的市场空间。

原本以特斯拉、智元机器人等人形机器人都将to B场景看作最先落地的未来，To C家庭场景则更具有难度，但Mobile ALOHA的机器人让To C场景看到曙光。

全自动的机器人时代虽尚未来到，但Mobile ALOHA仅通过两指夹具，便完成了洗衣、做饭等高难度动作，这让家务机器人、人形机器人有了更加具象的想象空间。

来源：36氪

新闻公告

斯坦福机器人Mobile ALOHA：会做菜、叠衣等数十种家务 成本约3万美元

斯坦福机器人Mobile ALOHA：会做菜、叠衣等数十种家务成本约3万美元