挣脱莫拉维克悖论：Mobile ALOHA带来的新希望和新问题

2024年一开年，一段机器人做菜的视频就火爆了整个科技圈。视频中，一个机器人化身大厨，亲自展示美食烹饪。一番煎炒烹炸之后，完成了滑蛋虾仁、干贝烧鸡和蚝油生菜。虽然从视频中人们并不能得知菜品的味道如何，但至少从形态上看，每一道菜都做得有模有样。在人们享受完美食之后，机器人还贴心地收拾了残羹冷炙，并对餐具进行了清洗。

这还不是这个机器人的全部功能。根据视频的展示，除了做菜之外，它还可以进行扫地、擦玻璃、叠被子等一系列日常的家务活动，甚至还能帮主人扮演“铲屎官”的角色，逗“猫主子”玩耍。总而言之，家政阿姨可以做的，这个机器人基本都可以复刻完成。

视频中的这个机器人名叫Mobile ALOHA，是一款由斯坦福大学的研究团队（注：参与研发的三人团队中有两位华人）开发的家政机器人。在推出这款机器人之前，该团队曾推出过一个在桌面操作的两臂机器人ALOHA——这个名字是“一个低成本的开源硬件系统”（A Low-cost Open-source Hardware System）的简称，同时也是夏威夷语中“你好”的意思。根据公开的技术报告，当时的ALOHA已经可以模拟人手，完成诸如打绳结、开瓶盖、打乒乓球等复杂的工作。不过，当时的ALOHA并不能移动，因而其功能的局限十分显著。

作为ALOHA的升级版本，Mobile ALOHA在其基础上加入了移动能力。这样一来，这个机器人就可以像一个真正的人类保姆一样，“跑前跑后”，应付各种复杂的家务了。更为重要的是，根据开发团队公布的信息，这样一个功能强大的机器人，其硬件成本总计只需要3万美元。并且，在发布机器人的同时，开发团队已经将相关的技术进行了开源。

Mobile ALOHA一经发布，就立刻收获了网友们的一片惊叹。很多业内人士也就机器人的表现发表了自己的评论。比如，英伟达高级研究科学家范麟熙（Jim Fan）就在X平台上评论说：“有人问我，除了大语言模型，2024年最重要的是什么？我认为答案是机器人。”相比于技术人员，投资界人士则更为乐观。不少投资大佬甚至已经预言2024年将会是家庭机器人元年。

家用机器人的发展状况是否能如人们想象的那样乐观？对于机器人的发展而言，Mobile ALOHA的意义究竟何在？它可以做到这一点，是依靠了哪些技术？到目前为止，它还存在着哪些不足？关于所有的这些问题，且让我们一一说来。

一、机器人的诅咒：莫拉维夫悖论

如果从机器人的发展角度审视Mobile ALOHA，那么它最大的意义可能是动摇了一个长期困扰AI和机器人发展的诅咒——莫拉维克悖论（Moravec’s Paradox）。

所谓莫拉维克悖论，是由卡耐基梅隆大学机器人系的教授汉斯·莫拉维克（Hans Moravec）最早提出的。在其于1988年出版的著作《智力后裔：机器人和人类智能的未来》（Mind Children: The Future of Robot and Human Intelligence）中，莫拉维克指出：在AI的发展中，似乎存在着一个规律，即人类容易完成的任务，AI通常很难完成，反过来，人类很难完成的工作，AI却经常很容易完成。他写道：“让计算机在智力测试或下棋时表现出成人水平的表现是相对容易的，但在感知和行动方面，让电脑表现出一岁孩子的技能则很难或不可能。”

莫拉维克的观察十分犀利，不仅很好地描述了他那个时代AI和机器人发展的状况，也很好地预言了后来几十年中这一行业的发展。以AI领域为例：围棋被视为是人类最高层次的智力活动，然而，在2017年，谷歌旗下人工智能公司Deepmind出品的AI棋手AlphaGo就已经成功击败了人类的顶尖棋手，而后来的AlphaZero则更是让人类棋手再也难以望AI棋手的项背。

与此同时，对人类而言，图像识别是一件再容易不过的事情。即使是三岁的幼童，也可以轻易地认出一张潦草画作中画的到底是一只猫还是一只狗。并且，如果有人试图通过遮挡、修改图像的一部分来迷惑其判断时，他也可以很容易地看破这一切。而这个对人类来说十分容易的任务，对AI而言就不那么容易了。尽管随着深度学习技术的发展，AI图像识别的能力已经有了很大的提升，但其出错依然是常事。同样的事情也发生在机器人领域：在几年前，波士顿动力的机器人已经可以完成后空翻等对人类而言十分高难度的动作，但直到最近，让机器人像人类一样完成简单的家务劳动依然是一件十分困难的事情。

正是因为莫拉维克悖论如此好地描述了AI和机器人发展的状况，所以很多业内人士甚至说，整个行业的发展似乎就是被莫拉维克诅咒了一样。

莫拉维克悖论为什么会长期存在呢？一方面，它源于人和AI实现智能所需要的载体；另一方面，它也与人和AI在学习方法上的差异相关。

先看载体问题。对于人来说，其实现智能的最主要载体就是人脑以及遍布人体的神经系统。从结构上看，人脑就是一个由数以亿计的神经元组成的大型神经网络，人的所有思考活动都依赖于信息在不同神经元之间的传递来实现。如此巨大的神经网络天然就适合进行并行运算，可以帮助人类同时接收和处理大量的信息。这一点，即使是功能强大的计算机也难以企及。

然而，人脑也有其显著的缺陷，那就是信息在神经元之间的传输速度并不快。当人们要处理逻辑或计算任务时，通常需要驱动大量的神经元进行较长的串行运算，信息传输速度就会限制任务的实现效率。与此同时，在处理较难的逻辑和计算问题时，通常需要较大容量的记忆空间进行支持。然而，根据心理学的研究，人的短期记忆容量并不大，这就使得人脑在处理逻辑和计算问题时变得更加困难。

反观AI，其实现智能的基础是计算机硬件。相比于人脑，计算机硬件无论在信息传输的速度，还是在信息的存储能力上都要远为优秀。这就让它在处理逻辑、计算等高运算量的串行任务方面具有天然的优势。同时，对于早期的计算机硬件系统而言，它们很少有像人一样复杂的神经系统，这就决定了它们在感知环境，以及处理并行任务方面会存在劣势。而在现实中，那些看似简单的日常任务通常是需要同时处理很多环境变量的，因此，AI在面对这些任务时，就会难以应对。

再看学习方法问题。现在，人们在训练AI时，通常会用到强化学习。在训练过程中，人们会对AI完成任务的状况进行打分，从而引导AI来对行为进行调整。这种方法对于那些可以明确判断正误，或者具有强烈对抗性的任务（如棋类游戏），效果尤其显著。不过，在现实当中，还有很多任务的结果是难以用具体得分来衡量的。比如，人们在收拾房间时，具体该如何收纳。对于这些任务，用强化学习来对AI进行训练就会比较困难。

相比之下，人在学习一些简单的任务时，则很少会采用类似的方法。比如，我们小时候学习扫地、擦窗，都只是看着父母示范，然后跟着练习几遍就学会了。从效果上看，这样的学习方式确实十分适合于对类似简单任务的习得。不过，对于那些高运算强度的任务，如求解数学题，它的效果就不那么好了。所以在学习这些任务的处理时，我们依然需要借助强化学习——比如，在学数学时需要不断刷题。然而，受制于人脑的结构，人在进行强化学习时的效率很难赶上AI，这也就造成了人在处理这些任务时的能力要逊于AI。

当然，在近些年，随着技术的改进，实现AI智能的载体问题已经获得了突破，不仅强大的计算能力已经能够支撑起像人脑一样复杂的神经系统，各种传感器还可以让AI获得与人匹敌的感官能力。在这种情况下，突破莫拉维克悖论的关键问题就集中到了训练的思路上。

二、MobileALOHA为什么能办到？

那么，Mobile ALOHA究竟是如何突破了莫拉维克悖论，成功地实现了原本难以实现的各种日常任务呢？其中的一个重要原因在于它在训练的过程中使用了新的算法。

如前所述，由于很多日常任务是难以定义得分的，因而要训练AI智能体学习这些任务，强化学习等过去常用的方式就很难奏效。面对这种情况，开发团队在对ALOHA进行训练时，就采用了另一种学习思路——模仿学习（Imitation Learning）。

所谓模仿学习，顾名思义就是让AI智能体在观察人类示范的基础上，进行相应的模仿和学习。在当前的实践中，模仿学习已经有很多不同的方案，其中有代表性的包括行为克隆（Behavior Cloning，简称BC）、逆强化学习（Inverse Reinforcement Learning，简称IRL）、生成式对抗模拟学习（Generative Adversarial Imitation Learning）等。在ALOHA和MobileALOHA的训练过程中，研发团队采用的是最为简易的一种方案，即行为克隆。

从本质上看，行为克隆可以被归结为一种特殊的监督学习。在利用这种方案进行训练时，研究者需要准备一个标注好的训练数据集。在这个数据集中，每一个观测点都包括一个状态，以及这个状态下对应的行为。比如，某一个观察点可能包括在离开门5米的状态，对应的行为是减速；另一个观察点可能包括了离开门1米的状态，对应的行为则是抬手开门。通过对这样的数据集进行学习，就可以让智能体习得在每一个特定的状态究竟应该采取什么行动——其原理和传统的回归分析，或者分类分析是基本一致的。

值得指出的是，在传统的行为克隆中，通常很难处理复合误差（Compounding Error）问题。具体来说，由于行为克隆只能用较小样本的训练数据进行训练，因此智能体只能在训练数据里有的状态分布下才能预测得比较准。因此，只要智能体的行为出现了一点偏差，就有可能导致其下一个遇到的状态是在训练数据中没有见过的。此时，智能体就只能随机选择一个动作，而这样一来，就可能导致下一个状态进一步偏离训练数据的分布，从而让智能体更加无所适从。

为了减少复合误差问题造成的困扰，ALOHA的开发团队发明了一种被称为基于“Transformer的行动组块”（Action Chunking with Transformers，简称ACT）的学习算法。所谓的“行动组块”是一个来自于行为科学的名词，指的是被连续执行的一系列动作。比如，我们可以把将打绳结所需要的一系列动作，或者将电池放入凹槽的一系列动作视为一个组块，并将它们作为一个整体来进行存储或执行。在ACT算法中，开发者对组块规模进行了设定，规定一个组块包括k个步骤。这样，只要智能体感知到了一个状态，就会根据这个状态执行一整个组块，也就是k个步骤的行为。通过这样的处理，就可以减少犯错的机会，从而在一定程度上降低复合误差问题的干扰。

当然，简单地使用“行动组块”也存在着问题，它会让不同组块之间的行为显得比较割裂。为了应对这个问题，开发团队在组块之间加入了一个“时间系综”（Temporal Ensemble）机制，对每一个状态都考虑不同的“行动组块”之间的可能重叠状况，并对这些组块进行加权平均，从而得出一条最为可能的行动路径。这样，AI智能体的行为就可以达到较高的顺畅程度。

应用上述方法，研究团队就可以通过亲身的示范来对ALOHA机器人的行为进行引导。具体来说，他们通过远程操控功能，直接控制机器人完成了若干次的动作，从而得到了训练数据集。然后，机器人就可以用ACT算法对人们的示范进行行为克隆。

从目前研究团队公布的数据看，Mobile ALOHA平均只需要重复学习五十多次，就能掌握一个比较复杂的动作。应该说，至少在现阶段，这个学习成果还是相当可观的。

有意思的是，正当大家为Mobile ALOHA的卓越表现惊叹不已时，研发团队的主要成员之一托尼·赵（Tony Zhao）却在社交平台上主动公布了一段MobileALOHA的“翻车”视频。在这些视频中，MobileALOHA在清洗桌面时会打翻杯子，在翻炒鸡块时会不小心甩飞平底锅，在炒虾仁时甚至连锅铲都对不准平底锅……之后，托尼·赵还不忘加上了一句自嘲：“机器人还没有做好接管这个世界的准备！”

托尼·赵的这一番不打自招着实在狂热的人们头上浇了一盆冷水。一些专家开始重新对更早前发布的成功视频进行检验，发现其有很强的剪辑痕迹，并且视频中的一些高难度动作还疑似是研究者通过远程操控来实现的。而另一些专家则通过对“翻车”视频的分析，认为Mobile ALOHA在传感装置以及训练算法等方面依然存在着不小的问题。

在这种情况下，Mobile ALOHA是否可以为廉价的家用机器人确立一个新的标准，似乎还需要进一步的确认。好在现在MobileALOHA的开发团队已经对该机器人的软硬件信息和训练算法都进行了开源，相信相关的验证时间并不会太久。并且，即便目前的MobileALOHA表现还不能尽如人意，但它毕竟为制作廉价的家用机器人提供了一种思路。相信在不远的将来，就会有人用它的开源资料制造出更多性能更佳的机器人。

三、家用机器人市场的新搅局者？

客观地讲，Mobile ALOHA的做菜视频之所以能在网络上引发如此巨大的热潮，其在视频中的卓越表现固然是一个重要原因，但与此同时，对消费者需求的精准契合也是一个不可忽视的关键因素。

在现代社会中，人们的生活节奏越来越快，进行家务活动的机会成本正在变得越来越高。在这种情况下，越来越多的人正在寻求家务劳动的替代方案。起初，钟点工似乎是一个不错的选项。但是，随着劳动力成本的飞涨，这个选项正在变得越来越不划算。在这种情况下，用机器人来帮助完成家务就成了一个新的选择方向。

与此同时，随着以ChatGPT为代表的生成式AI的普及，人们已经逐步培养起了与AI交互，并利用AI来完成各种任务的使用习惯。在此基础上，用植入了AI的智能机器人来实现家务劳动、娱乐、学习等多方面功能似乎也就成了水到渠成的事情。家庭机器人的需求正处于爆发的前夜。

仅以我国为例，据尚普咨询发布的《2023年家庭智能机器人行业现状分析与发展前景》，2022年中国家庭智能机器人市场规模达到723.6亿元，同比增长31.0%；预计到2027年，中国家庭智能机器人市场规模将接近3000亿元。这里需要指出的是，这份报告中所指的“智能机器人”仅仅是扫地机器人、智能音箱等较为初级、功能较为有限的机器人产品。对于这样的机器人，市场的需求已如此旺盛，如果未来的机器人可以完成更多的任务，并且可以以一个相对公道的价格进行销售，那么其市场潜力将是难以限量的。

正是由于市场的潜在需求如此旺盛，所以全球范围内的大批科技巨头将家用机器人作为了一个重要的布局赛道。比如，从2022年开始，特斯拉就加进了人形机器人“擎天柱”（Optimus）的研发。在过去的一年多中，“擎天柱”的性能已经出现了肉眼可见的进步，从最初的蹒跚行走过渡到了可以较好保持平衡，并完成一些相对容易的工作。不过，客观来讲，至少到目前为止，“擎天柱”机器人的观赏性依然大于实用性。在特斯拉的带领之下，大部分的企业也选择将人形机器人作为了主攻的赛道。但和“擎天柱”一样，这些机器人也大多具有实用性较差的问题。

在这种情况下，Mobile ALOHA的出现似乎给人们提供了另外的一种选择。它提醒人们，其实家庭的机器人完全可以不用采取人形，像它这样一个用简单的机械臂和滑轮地盘组合而成的机器人反而可以更好地完成各种复杂的家务活动。如果这一点被人们所认可，那么家庭机器人就可能以比先前人们的预期低得多的价格来提供。

综合以上情况，Mobile ALOHA很可能会成为家用机器人市场的重要搅局者。一方面，它可能让这个市场的整体规模出现明显的上升，从而做大整个“蛋糕”。另一方面，它有可能对人形机器人的潜在需求造成相当程度的替代，对现在重仓押注人形机器人的企业造成比较沉重的打击，从而让整个家用机器人市场的结构产生较为显著的变化。

四、MobileALOHA可能引发的新问题

值得一提的是，以Mobile ALOHA为代表的新型机器人的出现除了会给家用机器人市场带来巨大的冲击之外，还可能引发很多相关的社会问题。从保证产业健康发展的角度看，这些问题是必需引起高度重视的。

第一个问题是机器人的事故责任问题。在机器人进入家庭之后，将会被用来代替人类处理大量繁重的任务，在此过程中，可能会发生各种事故。在这样的情况下，究竟应该由谁来承担事故的责任，就成了一个问题。

对于纯粹的财物损失，问题还不算太大。在未来，机器人很可能会被用来对像老人、孩子这样的脆弱人群提供看护服务，如果在此过程中发生事故，就可能引发严重的人身损害。

关于当机器人出现事故时，责任应该如何承担，目前有很多不同的观点。其中，比较主流的一种看法是将其作为产品责任问题来进行看待。形象地说，就是将由机器人造成的事故作为和由车辆故障造成的事故作为同类问题来进行处理。这种观点对于像“擎天柱”这样事先完成全部编程和训练过程的机器人是可以适用的，然而，对于类似Mobile ALOHA的机器人，这种观点却存在着一定的问题。

Mobile ALOHA为了更好适应具体环境下的任务，可能需要使用者通过远程操作对其重新进行训练。不仅如此，现在不少厂商都在尝试用GPT等生成式AI作为自己出产的机器人的智能系统，但正如我们看到的，人们在使用生成式AI时，经常会根据自己的习惯对AI进行训练和微调。这样一来，这些机器人在某种程度上就成为了厂商和使用者合作完成的产品。因而，如何在事故发生时界定厂商和使用者之间的责任，就可能成为一个比较复杂的问题。

第二个问题是隐私问题。这并不是一个新的问题。在智能音箱、语音助手等智能型电子产品进入市场后，它们带来的隐私问题就一直备受人们的关注。在很大程度上，和家用机器人相关的隐私问题只是上述问题的延续。但需要强调的是，家用机器人可能掌握的信息要比上述的这些设备多得多。在人感知的信息中，来自于视觉的要占到83%，而来自于听觉的则仅有11%。家用机器人为了完成日常的任务，就需要保持视觉和听觉传感器的持续开启，用户的各种信息都可以被它们尽收眼底。在这种情况下，由机器人引发的隐私泄露问题很可能比以往要更为严重。

第三个问题是技术性失业问题。人们对技术性失业问题的焦虑几乎是同AI和机器人的发展相伴随的。最初，人们担忧的是那些重复性较高、比较机械化的工作被AI替代。随着生成式AI的崛起，设计师、插画家等对创造力要求较高，曾一度被认为很难被AI取代的职业也成为了随时可能被替代的“高危职业”。

尽管如此，直到不久之前，很多人依然认为，根据莫拉维夫悖论，AI和机器人很难完成像家政服务这样随机性较强，对个性化要求较高的工作——至少在短期内应该是这样。然而，仅仅过去了半年多，Mobile ALOHA就打破了家务劳动不可被AI和机器人取代的神话。面对这样的形势，我们有理由对技术性失业问题引起更多的重视。唯有未雨绸缪，事先做好各种体制、机制建设，面对新一代机器人可能引发的失业潮才能做到心中不慌。

总而言之，Mobile ALOHA为人们展现出了新一代机器人的巨大应用潜力，但与此同时，它也可能带来很多新的棘手问题。为了保证机器人行业的健康发展，也为了确保机器人可以更好地为人所用，我们必须对这些问题引起足够的重视。