见过机器人在工厂拧螺丝,那大伙儿见过在家里炒菜的机器人吗?
相信有不少差友,在几天前就已经刷到了一个机器人下厨的视频了吧。
撕开生菜包装,切菜,打鸡蛋,一套操作行云流水,它甚至还会在往锅里倒青菜的时候,拿锅盖来挡一下。
不瞒大伙儿说,世超看到视频的第一反应是:啊???
我对机器人做饭的印象,还停留在食堂里的那个刀削面机器人。
像视频里这种跟人类无异的操作,如果不是亲眼所见,或许没人敢相信这是一个机器人干的。
这个机器人,就是斯坦福大学的 Mobile ALOHA 机器人项目。
根据项目负责人发布的视频,除了会做饭以外, ALOHA 机器人还精通各种家务。
浇花逗猫煮咖啡,擦地洗碗叠被洗衣服,这些家务活儿完全不在话下。
特别是套枕套最后抖那俩下,我仿佛看到了我本人。。。
反正视频发出来之后,在国内外引起了不小的热度。
网友热评, “ 只要这玩意儿不会趁我睡着的时候杀了我,我真的很需要它 ”“ 下次如果家里人再催结婚生孩子,就把视频发到家族群里。 ”
但,也有人质疑视频经过了加速和剪辑处理,就像上次谷歌发布的 Gemini 演示视频那样,是真是假还有待证明。
很快,网上就流传出了 ALOHA 机器人翻车的视频。
一言不合就打碎酒杯和餐盘、识别不清障碍物撞上柜子、把锅烧糊...
智能程度跟前几天视频里灵活的机器人相比,简直判若两 “ 机 ” 。
有意思的是,这个视频的爆料人,就是项目团队的内部人员。
上周末的时候, Mobile ALOHA 的项目共同负责人 Tony Z.Zhao ,在 X 平台上发布了机器人的失败花絮,并澄清了外界对于机器人 “ 完全自动 ” 的误会。
事实上, ALOHA 机器人并不是全自动的,而是自动 + 遥控的混合模式。
世超认真翻了翻 GitHub 上的 Mobile ALOHA 项目,在自主模式下,人类需要先操控机械臂打个样,才能让 ALOHA 机器人学习类似的动作。
前面视频里的各种复杂家务活儿,都是有人在后面遥控的。
就像这样。
而且,并不是只要人类演示了,机器人就能百分百学会。
在论文中也有提到, ALOHA 机器人自动擦红酒渍的成功率有 95% ,推椅子是 80% ,而炒虾只有 40% 。
世超盲猜,可能是一开始的视频效果过于惊艳,一传十十传百,这才让 ALOHA 机器人背上了 “ 保姆机器人已经落地 ” 的名头。
但就像 Tony Z.Zhao 推文里说的那样, “ 机器人还没准备好接管世界! ” ,现在的机器人离我们想象中的全能保姆,还差得远。
所以,与其大肆去吹这次的 ALOHA 机器人有多牛,倒不如说它给之后的机器人研发都打了个样。
根据英伟达科学家 Jim Fan 的说法,数据一直是机器人技术的致命弱点。
而项目团队对 ALOHA 机器人的定义,恰恰就是 “ 一种用于数据收集的低成本全身远程操作系统 ” 。
怎么个意思呢?
在算法上,他们基于 Transformer 开发了一种动作学习算法 ACT 。
这种算法,能够让 ALOHA 机器人在 15 分钟的动作演示后,模仿人类做出相似的动作。
你可以理解成,人类操控机械臂的过程,也是数据收集的过程。接着,再利用收集好的数据来进行一波 “ 模仿秀 ” 。
就比如,你把擦玻璃这个动作给机器人提前演示了 50 次,很大概率最后真就训练成功了。
而除了算法上的巧妙设计以外, ALOHA 机器人还有个优点就是低成本。
在硬件配置上,项目团队给机器人装上了两组机械臂,还有一个仓库里用来运货的 AGV 移动底盘,相当于机器人的手脚。
从团队公开的成本清单来看,费用主要也是集中在移动底盘和机械臂上,其他零部件的成本并不算高。
而且,将近 3.2 万美元(折合人民币 22.7 万人民币 )的造价成本,跟波士顿动力 Atlas 将近 200 万美元的成本比起来,也是小巫见大巫了。
等以后技术成熟了,花二十多万买个机器人养老,好像也不是不行。
更重要的是,这次的 Mobile ALOHA 直接来了波开源,包括硬件代码、数据集还有教程都对外公开了。
开发者们你贡献一点我贡献一点,说不定哪天全能保姆机器人就真落地了。
包括前几天, ALOHA 机器人势头正旺的时候, DeepMind 也趁热打铁发布了一系列关于机器人的最新进展。
国外有个叫 Figure 的机器人公司,他们家的人形机器人现在甚至具备了自主学习能力,看个视频就能学会煮咖啡。
反正,世超对于今年机器人的发展还挺期待的。
在人工智能界,一直有个莫拉维克悖论。
通俗来解释就是,明明 AI 在算数学题这种需要逻辑推理能力的事情上,都能够做得很好,但感知能力和运动能力却连三岁小孩都不如。
但这次 ALOHA 机器人的出现,的确有了那么一点真正意义上 “ 智能 ” 机器人的苗头。
咱们也可以展望展望,今年大模型 + 机器人的组合究竟能碰撞出什么样的火花。
撰文:西西 编辑:江江&面线 封面:焕妍