智东西
作者 程茜
编辑 心缘
智东西8月12日报道,上周,2024科技创变者大会上,汇聚多位具身智能行业顶尖科学家、知名明星创业者、头部重磅玩家负责人,围绕着当下具身智能产业的新技术、新趋势、新场景进行了深入剖析。
北京智源人工智能研究院理事长、北大多媒体信息处理国家重点实验室主任黄铁军,华中科大机械科学与工程学院副院长、国家数控系统工程技术研究中心副主任彭芳瑜,北航机器人研究所名誉所长、中关村智友研究院院长王田苗同台,拆解了当下人形机器人的技术突破点。其中,具身智能在大脑、小脑、空间智能、肢体与上游核心部件是目前研究的热门话题,大脑层面探索专业化、多模态的轻量化模型成为一大趋势。同时,真正的智能需要实体与环境互动,从中学习进化,这也是为什么当下具身智能被认为是通往AGI(通用人工智能)的重要路径。
腾讯、宇树科技、灵心巧手、梅卡曼德等身处具身智能产业链上中下游的玩家,从机器人本体、算法、灵巧手等维度阐释了为什么具身智能是通往AGI的最佳路径之一。此前在工业场景中应用的机器人通过预编程完成操作属于零智能,只有自主学习、根据复杂任务处理问题才能实现真正智能。
更有科大讯飞、小米、富士康、银河通用、清华大学、北京大学等产学研届代表同台进行巅峰对话,从具身智能的技术发展现状与瓶颈谈到未来的潜在应用场景。具身智能比较被看好的几大场景为军工、国防等高价值场景、物流场景,如果市场规模达到上亿台级别,将会出现在To C市场。
一、智源研究院黄铁军:现在的大模型是真正智能,北大团队已开源SpikeCV脉冲视觉算法
北京智源人工智能研究院理事长、北大多媒体信息处理国家重点实验室主任黄铁军谈道,历史上符号主义、连接主义、行为主义三种流派不停争论。
让人把智能描述出来变为算法,再让机器人去执行,这种没有智能的机器就是符号主义。当下真正发挥作用的就是第二个连接主义,让神经网络训练自己学习。第三个重要的行为主义目前研究较少,真正的智能来自于实体和环境的互动过程。
他认为,今天的大模型是真正智能的,神经网络架构就是在尝试计算Token和其他所有词的可能关系,当输入语料足够多时,它就能迭代出这些节点之间的连接关系。
具身智能是一个完整的具有独立感知运动能力的智能系统,目前用大模型的技术路线训练一个运动控制模型控制身体是一个比较热门的话题。
黄铁军称,现在关于具身智能的眼睛研究并不多,摄像头并不是眼睛,其只是图像采集的传统方式。人的大脑是脉冲神经网络,眼球背后有100万根神经纤维,每一根上传输的就是神经脉冲序列信号,将光的序列变成生理上的脉冲序列。
北大发明了脉冲连续摄影原理,使得脉冲相机每个像素独立工作,可以实现超高速连续成像,即使对着太阳也能拍摄,在晃动情况下也可以清晰成像,不会被机器人移动影响。SpikeCV脉冲视觉算法已免费开源。
目前大模型表现出的是静态的智能涌现,不是机器人实时感知所需要的动态生产信息的表达和处理过程,因此,黄铁军认为,这一领域未来20年肯定会继续发展。
二、华中科大彭芳瑜:机电系统与生命系统深度融合,拆解6大关键技术趋势
华中科大机械科学与工程学院副院长、国家数控系统工程技术研究中心副主任彭芳瑜谈道,当下大模型的发展为机器人带来了机电系统和生命系统的深度融合。
人形机器人未来可能的使用场景可能包括面向特种环境应用、危险场景作业,打造特种应用场景下的高可靠机器人;在医疗领域用来做康复步态训练、陪护过程中的语义识别、情绪识别等,还有微创手术机器人基于术前的影像检查、三维空间的准确定位能力来引导医生的手术操作。
彭芳瑜认为,未来在制造业将会呈现出无处不在的机器人、无处不在的传感、无处不在的智能的新范式。
人形机器人关键技术趋势包括体能、技能、智能三大方面,其中涉及到骨骼、肌肉、下肢、上肢、大脑、神经系统不同维度。
关键技术一就是骨骼的机构与结构,技术趋势要解决轻量化,伴随着3D打印等新的技术出现,未来有望实现结构、功能、材料的高性能一体化设计。
第二个是肌肉,其核心部件包括电驱动关节、功能结构一体化液压缸、动力单元、阵列技术等。目前在肌肉核心部组件,国内采用新结构、新原理开展核心部组件进行颠覆性设计的研究团队、公司较少。
第三个是下肢,也就是动力学、强化学习,国内对端到端控制的重视程度不够。
第四个上肢主要是机械臂、灵巧手,上肢目前已经可以实现拿鸡蛋、弹钢琴,但在工程应用中主要用于替代组装工程的人,需要有两条机械臂,10个手指头,会涉及到灵巧手的设计、视觉柔性传感、抓取策略等。
最后是大脑和神经系统的感知和融合,如何实现视觉智慧感知会呈现出新的问题。
人形机器人的未来市场规模可观,下游的核心零部件厂商正逐步实现技术突破和产能提升,这对于未来人形机器人实现低成本、高可靠走进场景落地至关重要。
三、智友研究院院长王田苗:梳理4大具身智能研究热点,大模型反转小模型成趋势
机器人是物理空间的实体工具,具身智能从智能系统的角度来看,就是让物理实体与环境实现交互,通过学习推理所表现出来的泛化和适应环境的能力。具身智能就是AI+机器人构造的不可替代的工具。
北航机器人研究所名誉所长、中关村智友研究院院长王田苗谈道,目前具身智能创新研究的热点包括:大脑、小脑、空间智能、肢体与上游核心部件。其中大脑涉及到通用机器人大模型、数据模拟器、数据制造工厂、端到端算力芯片;小脑包括运动、空间智能、视觉识别获取建模理解能力;肢体相关的核心零部件研究等。
中国举国体制在组织、创新、创业孵化投资中的逻辑有两个明显的动态趋势,其中之一就是供应链依然在进化。王田苗谈道,其中包括性能与成本是基于底层创新设计出来的、工业机器人在进化、人形机器人机构与供应链有待进化、全电驱动的核心部件供应链正在进化。
此外,大模型自然语言交互能力强、泛化能力强,但视觉空间的理解能力有限,这导致其在操作的实施性和安全性、灵巧操作能力上较弱。今年大模型反卷小模型,研究人员去探索专业化、多模态的轻量化模型成为一种趋势。
人形机器人的场景还没有形成,但价格已经卷起来了。王田苗认为,一方面,颠覆性技术发生时需要泡沫,能带来各种资源投入从而加速成果转化、产品应用;另一方面,没有丰富资源的创业者应该死磕聚焦细分领域的应用,其他有丰富资源平台的创业者可以积极实现突破,并高度警惕之后没有项目投资时,该如何积累竞争优势。
具身智能的场景应用方面,他主要考虑了两大维度:痛点和成熟度、难度和规模。痛点和成熟度上商用和工业最快;难度和规模维度上,打磨、抛光、焊接、搬运等工作可以利用小模型就拥有很强的商业前景,商业前景到达L3、L4需要和大厂紧密合作。
四、腾讯张正友:真正的智能需要自主学习,提出层次化具身智能系统
腾讯首席科学家、腾讯Robotics X实验室主任张正友首先用一个函数关系表示了生成式AI,即输入X经过生成输出Y,中间的模型现在基本上都是Transformer,输入和输出的格式往往是文本、图像、音视频。
机器人的生成式AI中,输入和输出的方式更为复杂,如下图所示,其可以分别给定3D环境、本体状态、任务,输出电机力矩、子任务序列、答案等。
最初生产线上的机器人是在固定环境内完成一系列动作,是零智能;大模型时代有人认为将大模型放到机器人身上就能实现具身智能,现在相当于把20岁大脑放在3岁的身体上,因为机器人的部分操作能力仍相对较弱;真正的智能需要自主学习和处理问题,并对环境变化自动调整规划。
因此他认为,具身智能是通往AGI非常重要的过程。
具身智能通过类人的感知方式,如听觉、视觉等获取知识,并抽象成一种表达与语义来理解世界。当下,具身智能面临的挑战包括复杂的感知能力、强大的执行能力、学习能力、自适应能力、高效的多能力协作和融合、数据稀缺性和隐私保护、安全性和可靠性、社会伦理问题。要实现智能和本体有机融合,才能让机器人在环境交互中实现真正的智能。
张正友2018年就提出了A2G理论,其中ABC构成了基础能力层,D、E、F是机器人与物理世界的交互,在与环境的交流中提升能力、进行深度陪伴和沟通、灵活抓取等,G是让传感器和机器人信息互通。
他将自主机器人有两类,为反应式的自主和有意识的自主。具身智能的实现需要改变控制范式,传统范式是感知、计划、行动。
他提到了另一个S(感知)L(学习)A(行动)P(计划)范式,让机器人实现感知和行动紧密相连,实时应对不断变化的环境,让学习渗透到各个模块。
腾讯机器人研究院研发了层次化的具身智能系统,分成三个层次,最下面一层是Proprioception,是机器人对自身的感知状况和控制,第二层是Exteroception,对环境的感知,让机器人知道需要调用什么能力完成任务,最上面一层是Strategic Level planner,让机器人针对特定任务和环境做好规划并解决问题。
基于这一层次化的具身智能系统,每一个层级的知识都可以持续更新和积累,层级之间解耦,更新某个层级基本不会影响其他层级已有的知识。
六、视觉、灵巧手……核心零部件厂商群雄逐鹿
产业链中的灵巧手、视觉感知系统等玩家也是加速具身智能产业的关键一环。
1、灵心巧手周永:灵巧手需要超20个自由度,才能完全映射人类动作
灵心巧手联合创始人、CTO周永谈道,日常生活中的“灵巧操作”将成为具身智能时代真正到来的标志。具身智能下一步方向是多模态感知和交互算法,算法落地需要多模态感知能力的灵巧手。
在语言模型中很难感知到物品的纹理、密度、摩擦力等,需要视觉和触觉补充。因此具身智能下一代的灵巧手,需要满足高自由度、多传感器、结合落地场景的足够多数据,实现这三个方面才能为实现具身智能提供动力。
在自由度方面,目前人形机器人手部的自由度在6个左右,周永认为需要达到20个以上的自由度才能完全映射人类动作,多传感器需要能够感知到位、力、触、摸。
2、梅卡曼德邵天兰:多模态大模型可帮助机器人理解指令,AI应用或带来超3亿收入
梅卡曼德是以AI+3D视觉为核心的公司,该公司打造的多模态大模型MechGPT可以让机器人能理解自然语言指令,并综合视觉、图纸等多模态信息进行推理决策,智能决定如何完成任务,并且其应用不局限于某一种机器人,可为人形、服务、协作及工业机器人在内的各种机器人提供服务。
梅卡曼德创始人兼CEO邵天兰称,AI对机器人的重要性在于,他们在大量业务实践中可以通过AI解决复杂多变、不容易用规则解决的问题,今年预计有3、4亿的收入。
智能机器人批量落地面临的挑战包括,其技术链条长、很多技术仍在高速演进,但客户的要求很高。在这样的背景下,梅卡曼德的经验就是专注在传感、感知、规划领域,并且联合生态合作伙伴,最后形成技术产品业务和资本的正向循环。
3、伟景智能董霄剑:具身智能靠智能体不断成长,只有立体视觉能提供环境感知
伟景智能创始人、CEO董霄剑谈道,具身智能整个的过程是“机器-人-智能体”之间的持续学习过程,充足的传感器是机器学习的基础,所有的学习不仅是互联网上的数字样本,还需要场景的数据。具身智能是渐进化的学习过程,视觉、触觉、惯性、距离传感器等,将数据经过有用的筛选,成为智能体的一部分。
对于智能体而言,它需要收集听觉、视觉、触觉等,输出就是声音、操作、感知、运动、决策。因此他认为,具身智能的核心就是智能体的不断成长。
人形机器人重要的传感器就是视觉,而且是立体、彩色、可记忆、可逐渐深化的。他认为,只有立体数据才能为机器人提供环境的视觉感知,提供操作感知和引导。伟景智能的新一代人形机器人安装了4对立体视觉系统,可以基于所有的实际应用场景做适配。
五、具身智能是AI产业发展主流方向,跨学科交叉是研究主线
上午场最后,北京邮电大学教授方斌与清华大学教授刘华平,北京航空航天大学机械学院副教授、博士生导师陶永,浙江大学控制科学与工程学院长聘副教授高飞,北京大学助理教授、北大银河通用具身智能联合实验室主任王鹤,北大人机融合实验室智能中心主任、研究员阮乐成围绕“沸腾中的具身智能:颠覆、瓶颈与技术野望”进行了交流。
具身智能这一概念在近两年被谈论的十分火热,刘华平谈道,具身智能的火爆和AI的突破密切相关,从某种意义上讲,这些技术辐射到了机器人、自动化领域,让其再次进入人们的视野。
具身智能的爆发涉及到跨学科交叉,高飞认为,机器人本身是集电子、机械、控制等学科的交叉,具身智能是AI和传统机器人的交叉,好的成果一定需要跨学科的交叉,坚持学科交叉、多角度融合是一条主线。
对于通用机器人而言,王鹤称,通用是机器人行业的一个变革点,通用机器人可以应用于柔性更高、和人更好交互的场景。同时,周围的环境是专为人的身体设计的,通用机器人和人的身体形态保持一致,这也是人形机器人发展的一大原因。
面向当下投入具身智能的年轻研究学者,陶永给了亮点建议,首先要了解国际前沿、发展热点,其次要找准自己研究的定位,如多模态的融合、技能的学习和迁移等更为具体的研究方向。
当下,中美之间具身智能研发都处于探索阶段,阮乐成提到其中有较大的不同点为国内具身智能企业都是背靠学术机构,美国的企业多为纯公司形态。他认为应该将产学研结合混合推进研发落地。
关于具身智能是AI产业发展的主流方向,4位嘉宾都达成了共识,将从技术的突破、应用场景落地、多行业模块的融合发展、安全伦理等方向发展。
六、具身智能超级场景:上亿台市场规模一定是To C
下午场最后,国家自然基金委高技术中心研究员、科技部专业技术二级专家刘进长与清华大学自动化系研究员、机器人控制实验室主任、加速进化首席科学家赵明国,科大讯飞机器人首席科学家季超,小米手机部副总裁、小米机器人事业部总经理许多,富士康科技集团首席数字官、云智汇CEO史喆围绕“寻找超级场景:具身智能用在何处?”进行了对话。
赵明国首先区分了具身智能和人形机器人的概念,他称,具身智能是基础概念,人形机器人是产品概念,人形机器人是具身智能的载体,恰好这两者是当下业界最认可的交集。
许多还提到,人形机器人在强化学习的加持下会实现移动自由,具身智能某种程度实现了交互的自由,移动自由+交互自由使得具身融合成为可能;此外人形更能引起公众关注,这也是当下具身智能落在人形机器人上的考虑。
具身智能是平台化的虚拟概念,人形机器人是应用载体,平台+赛道的方式对应着具身智能结合人形机器人可以实现软硬一体化。季超认为。
在改造传统工业机器人方面,赵明国认为,具身智能可以解决更复杂的问题,会朝着此前单纯的控制感知、结合视觉传感器、到与环境的不确定交互这一概念往下延伸。
许多提到了解决FAE(工业产品线)成本的趋势,基于具身智能可以把FAE时间缩短,解决一定程度的跨工位迁移问题,就会让工厂管理效率极大提升。
基于具身智能辅助做优化,自动化设计上敢于用另外一种方式做这条线,工业机器人需要有感知、视觉、反馈,去搭配传统机械臂,完成复杂任务下的自动化任务。富士康科技集团首席数字官、云智汇CEO史喆称。
季超对比了通用机器人与专用机器人,通用机器人可以做多个工作流的兼容,能在牺牲了一定效率的情况下,结合先验知识解决连续性问题,实现多个任务场景下的统一。
对于当下具身智能落地很难的现状,赵明国认为,具身智能发展处于初期,没有形成完整的理论体系,再加上其本身供应链很长且涉及到的技术门类众多,处于百家争鸣的阶段。
刘进长总结说,这背后的原因是,首先大模型还不具备演绎能力,面向人形机器人或智能装备的大模型需要进一步开发,第二是投入产出比,不具备市场竞争力。
季超认为一类是军工国防等高价值场景,第二类柔性化程度高场景,代替劳动力做通用性、重复性工作。如果市场规模达到上亿台最终一定是To C逻辑,每个家里人手一台。
赵明国补充说,具身智能走向大的应用过程中首先不会在存量市场产生,因为会和传统方式直接比较,就需要有较强的技术突破。所以他认为大家最愿意买单的是新的事情出现。
七、宇树科技王兴兴:具身智能是实现AGI最有效途径,明年年底会出现通用机器人模型
具身智能发展处于起点阶段,在当下这个时间节点对于中小企业来说有更大机会。王兴兴认为具身智能是实现AGI的最有效途径。
宇树科技从2013年成立起已经发布了高性能四足机器人、人形机器人等产品,他透露,目前人形机器人H1已经小批量量产并发货,宇树科技是全球四足机器人出货量最多的公司。
去年上半年,宇树科技发布四足机器人Go2,其采用了OpenAI的接口,可以实现语音交互,大模型规划执行,但最终效果并不理想,一旦超出已经规划好的认知范围机器狗表现效果会很差。他认为,当下大语言模型不是实现AGI的最理想方式。
很多人觉得AI做控制是黑匣子,可靠性低,但他认为AI训练会比人写代码的可靠性高很多,AI做训练时其会同时做大量测试,当一个软件系统的复杂度达到一定规模,就非人力可以维护,如自动驾驶等领域。但AI只需要提供足够的算力。
未来的技术发展趋势包括深度强化学习的网络模型架构方面,并且目前通用性、微调函数等还有大量的人力工作量,以及将模型做的更加完善,端到端的感知、规划,完成更复杂的全地形运动等,
现在的大语言模型对世界的理解靠语言或语音输入,没有对真实世界的认知和理解。AGI需要有实物机器人来实物部署,实时采集最新的数据进行训练,需要参与到和整个世界的物理交互中,可以体验和理解人类的情绪和性格。
王兴兴认为,AGI的黎明已经到来,明年年底之前至少会有一个公司能实现通用的机器人模型。
结语:技术、场景、政策并行,具身智能成产业智变新引擎
具身智能作为AI的下一个浪潮,深入融合了AI和机器人等多个学科,正推动智能经济时代加速到来。在机器人领域,越来越多涉及机器人本体、核心零部件、软件算法的国产厂商涌现,并不断拿出创新成果。
当下,机器人已经深入工业等场景中实现了落地应用,但目前具身智能产业在成果转化、应用场景、商业模式等方面还有待完善。这背后与具身智能相关大模型、机器人产品的开发周期较长有关。
在这一背景下,我国在具身智能领域拥有坚实的机器人硬件制造基础、丰富多样且广阔的应用场景资源,以及政策的相应支持下,为这一最具划时代意义的技术之一具身智能拉开了大幕。