2024年9月19日上午,在2024年云栖大会主论坛上,没有发布任何阿里系的新产品。除了领导致辞和主题演讲之外,舞台主要被交给三组圆桌讨论,圆桌话题分别是“人形机器人的‘图灵时刻’”“生成式AI重塑自动驾驶”“通往AGI的大模型发展之路”。
在所有圆桌论坛嘉宾中,没有任何一位阿里人的参与,甚至连主持人都是专门外请的。而这些嘉宾,则分别来自于业界和学界。看得出来,秉持“云启智跃,产业蝶变”的大会主题,本届云栖大会在展示自家产品的同时,也非常希望携手各方一起触摸AI带给人类的改变。
(来源:资料图)
在“人形机器人的‘图灵时刻’”圆桌讨论中,几位嘉宾探讨了人形机器人这一物理智能载体在大模型带动下所发生的变化。
逐际动力创始人张巍认为:“这一代AGI的发展,相比上一代最大的区别,从专用到通用的一个变化。在大模型出来之前,我感觉通用这个词是个贬义词,通用就证明它是没什么用。但是大模型出来以后,大家发现像以前我们这种在专业领域里搜数据、去做专项任务的这种训练的方式是有很大局限性的,要先构建一个通用的基础模型的能力,然后再在上面长出专用的能力,这才是系统化解决泛化性的一个关键。我觉得软件算法的通用性就靠大模型技术,机器人跟物理世界交互的这个通用性,就靠人形机器人。”
北京大学助理教授,北大-银河通用具身智能联合实验室主任、智源学者王鹤表示:“现在的通用机器人,虽然有一些技能,但几乎都是分立的一些小模型。大模型赋能这些技能有几步:第一步是大模型可以作为一个Agent来调用这些API进行长程的任务规划,第二步是大模型可以作为一个Monitor,它能观察小模型在执行任务中有没有出现错误,并能及时去终止或者调用别的技能来挽救这些错误,比如药盒掉到地上了,它立马说‘你得给它捡起来’;第三步则是最有想象力的端到端,即把动作作为大模型输出的模态,像自动驾驶一样实现一个把通用感知、通用规划或通用执行融为一体的大模型。”
清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇表示:“人形机器人技术分成三大块,就是大脑、小脑和本体。这里面最关键的,我个人认为是小脑的层面,它承接大脑里的你的思考、调用硬件本体,真正能帮助我们在这个世界里面干活。现在人形机器人小脑部分相比于其他几个部分反而是最薄弱的,同时也是技术的不确定性最高的。我们希望人形机器人的小脑和双腿能够像人一样又稳又快又灵活,能够帮助我们达到任何一个地方去,我们希望它的双手能够帮助我们上的厅堂、下的厨房、进的工厂,什么都能够去干。”
宇树科技创始人、CEO王兴兴对于机器人应用落地持有相对乐观的态度,其表示:“我觉得到明年,人形机器人在一些固定场景做一些有商业价值的落地应用。我觉得3年左右至少在全球范围内,很有概率出现通用型的机器人AI。因为跟过去10年不一样的是,现在整个机器人AI的人才投入和资金投入都是巨量,都是几百倍甚至上千倍的投入,所以整个时间进展会比较快。”
与此同时,还有多款由学界和业界打造的机器人在大会展区亮相。
比如。由华中科技大学团队打造的超声引导自主手术机器人,能在术中变形环境里实现精准的组织消融。
图 | 华中科技大学超声引导自主手术机器人(来源:资料图)
由银河通用打造的盖博特G1机器人则能像便利店的理货员一样,整理货架上的饮料和零食。
图 | 银河通用机器人(来源:资料图)
尽管目前并不直接生产机器人,但是阿里云也设置了用通义灵码AI编码助手体验机器入开发的展台。
图 | 用通义灵码AI编码助手体验机器入开发(来源:资料图)
展区还设有一个人形机器人先进阵列,引得不少观众前往观看和体验。
图 | 人形机器人先进阵列(来源:资料图)
此外,本届大会还展出了几个由阿里云参与的机器人合作案例。比如,拓斯达机器人将传统的工业机器人控制软件与通义大模型结合升级新能力,可与现场工程师通过语言交互,以无代码的方式完成码垛、喷涂、装配等复杂任务。浙江有鹿机器人公司联合通义大模型共同开发了适用于轮式、复合式等多类型机器人的通用大脑,在智能清洁设备上率先实现了商用,其能自动地观察、规划和完成区域清扫任务,也能听懂人的语言指令从而完成定点清洁工作。
小鹏汽车董事长CEO何小鹏、NVIDIA全球副总裁&汽车事业部负责人吴新宙双双亮相圆桌论坛,毫无疑问是主论坛的看点之一。从曾经的同事、到如今的业界同仁,他们不仅在圆桌论坛中发表了各自的观点,也都带着自己业务和阿里云的合作案例来到本次大会。
会上,何小鹏驾驶“全球首款AI汽车”P7+亮相,这款汽车搭载了一款端到端大模型。端到端是当下最受业界关注的自动驾驶解决方案,它同样遵循Scaling Law。小鹏汽车能够率先实现端到端大模型量产上车,离不开在算力上的提前布局。为了提升智驾大模型训练效率,小鹏汽车在2022年携手阿里云在内蒙古乌兰察布建成中国最大的自动驾驶智算中心,将自动驾驶模型训练效率提升了600多倍。而近两年内,由于大模型技术快速发展,阿里云已将此智算中心的算力储备扩张超4倍至2.51Eflops,为小鹏汽车提供稳定高效的算力底座,让智驾实现“全国都好用”。2024年5月,小鹏汽车在国内率先实现端到端自动驾驶量产上车,并在全国范围内迅速落地。
业界普遍认为,未来端到端智驾的算力需求还将进一步扩大,上亿元投入仅是智驾算力的“入场券”。为进一步保持先发优势,小鹏汽车宣布每年投入35亿元用于研发,其中7亿元用于算力训练,还将与阿里云持续深化合作,加速推动端到端大模型落地。
事实上,小鹏汽车不仅实现了端到端大模型量产上车,还将大模型深入应用到了座舱场景中。小鹏汽车基于自主研发的“全域大语言模型”X-GPT及通义千问全面升级了车载助理。目前,小鹏汽车已在官方App中接入通义万相,在研发场景中通义灵码的代码评审采用率高达50%。
尽管不是汽车厂商,但是NVIDIA也是新能源行业的重要参与者。目前,NVIDIA DRIVE Orin系统级芯片已经实现与阿里云通义千问多模态大模型Qwen2-VL的深度适配。阿里云、以及阿里集团旗下的斑马智行则联合NVIDIA推出舱驾融合大模型解决方案,基于通义大模型开发“能听会看”的智能座舱助理,让车内人员通过语音交流就能操作座舱内的各类应用,这有望为乘客提供座舱环境控制、车内休闲娱乐、驾驶行为监测等拟人化的服务。
而通义大模型的智能座舱解决方案,能为座舱配备一位具备感知、思考、决策能力的“智能助理”,它不仅能观察和理解用户的语音及手势,还能根据环境信息和常识判断做出自主决策。乘客无需物理按键,只要动动嘴巴,就能让智能助理完成各种任务。值得注意的是,上述解决方案以通义大模型为“大脑”,集成了通义大语言模型Qwen2-7B和通义多模态模型Qwen2-VL。
同时,通义实验室最新发布的Mobile Agent V3首次落地汽车座舱场景,能够提供座舱屏幕感知、复杂任务规划以及座舱应用UI的操作决策能力,扩展了座舱智能助理的能力边界。斑马智行也已经为舱驾融合多模态大模型解决方案的落地提供了工程环境,将大模型能力丝滑嵌入汽车座舱、匹配用户操作习惯。未来,通义大模型还将采用NVIDIA DRIVE Thor新一代集中式车载计算平台。
而在阿里云和“汽车好朋友”的牌桌上,也有小米、零跑汽车和极氪汽车等厂商。比如,小米旗下的人工智能助手“小爱同学”也已与通义大模型达成合作,并重点强化了图片生成、图片理解等多模态AI生成能力,目前已在小米汽车、小米手机等多类设备落地。零跑汽车则携手阿里云在座舱场景中增加语音大模型功能,除了用于闲聊、基础知识问答以及文生图等场景之外,用户还能通用语音调用通义万相进行文生图。极氪汽车的座舱则可以调用大模型实现文生图,不仅能将作画时间控制在秒级,还可以将这幅画设置为背景图。
如前所述,在9月19日上午的主论坛上,云栖大会主要包含致辞部分和三场圆桌论坛。直到9月19日下午的主论坛,阿里云才开始发布自家新品。当天,阿里云开源了通义千问Qwen2.5,推出了通义万相视频生成模型,宣布通义千问三款主力模型再降价,展示了通义灵码AI编程能力的“新肌肉”,亮相了一系列AI基础设施,展示了无影AI云电脑的能力升级,并宣布魔搭AIGC专区上线。
会上,阿里云CTO周靖人发布通义千问新一代开源模型Qwen2.5。Qwen2.5全系列涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型,每个尺寸都有基础版本、指令跟随版本和量化版本,此次累计同时上架语言、音频、视觉等100多款全模态模型。Qwen2.5全系列模型都在18T tokens数据上进行预训练,相比Qwen2整体性能提升18%以上,拥有更多的知识、更强的编程能力和数学能力。
在语言模型上,Qwen2.5开源了7个尺寸:0.5B、1.5B、3B、7B、14B、32B、72B。在专项模型上,用于编程的 Qwen2.5-Coder和用于数学的Qwen2.5-Math都比前代有着实质性进步。同时,还开源了1.5B、7B、72B三个尺寸的模型、以及一款数学奖励模型Qwen2.5-Math-RM。在多模态模型上,视觉语言模型Qwen2-VL-72B也已正式开源,它能识别不同分辨率和长宽比的图片,理解20分钟以上长视频,具备自主操作手机和机器人的视觉智能体能力。
另外,通义旗舰模型Qwen-Max迎来全方位升级,性能接近GPT-4o。相比上一代模型,Qwen-Max在训练中使用了更多的训练数据、更大的模型规模、更强的人类对齐。相比2023年4月的初代通义千问大模型,Qwen-Max的理解能力提升46%、数学能力提升75%、代码能力提升102%、幻觉抵御能力提升35%、指令遵循能力提升105%,模型与人类偏好的对齐水平提升700%以上。目前,通义官网和通义APP的后台模型均已切换为Qwen-Max,继续免费为所有用户提供服务。用户也可通过阿里云百炼平台调用Qwen-Max的API。
(来源:资料图)
此次会上,通义万相也迎来了全面升级,并发布了全新视频生成模型,首批上线了文生视频功能和图生视频功能,可以生成影视级的高清视频。
在文生视频功能中,用户输入任意文字提示词,即可生成一段高清视频,支持中英文多语言输入,并可以通过灵感扩写功能来丰富视频的内容表现力,支持16:9、9:16等多种比例生成。在图生视频功能中,支持用户将任意图片转化为动态视频,按照上传的图像比例或预设比例进行生成,同时可以通过提示词来控制视频运动。
会上,阿里云演示了该模型的运动生成能力和概念组合能力,输入「穿着滑冰鞋的小兔子在冰面上灵活移动的可爱场景」,通义万相仅用数分钟就能生成一段既高清又逼真的视频。
与此同时,通义万相宣布视觉生成大模型全面升级为Diffusion Transformer框架,同时结合通义千问复杂提示词解释能力,有效提升了画面表现力、语义理解能力、可控生成能力。随着通义万相视频生成模型的发布,通义大模型已覆盖文本生成、图像理解、视频理解、音频理解、图像生成、视频生成等全模态场景。即日起,所有用户可通过通义APP和通义万相官网免费体验。
(来源:资料图)
在价格上,继2024年5月首次大幅降价后,阿里云百炼平台上的三款通义千问主力模型再次降价。Qwen-Turbo价格直降85%,低至百万tokens 0.3元。Qwen-Plus和Qwen-Max分别再降价80%和50%。
其中,Qwen-Plus推理能力追平GPT4,可应用于复杂任务,是效果、速度及成本均衡的最优选择。降价后,Qwen-Plus性价比达到业界最高,同等规模较行业价格低84%。同时,阿里云百炼平台还为所有新用户免费赠送超5000万tokens及4500张图片生成额度。
面向编程场景,有着“AI程序员”之称的阿里云通义灵码迎来再次升级。和上一代产品不同的是,它同时具备架构师、开发工程师、测试工程师等多种岗位技能,能自主完成任务分解、代码编写、缺陷修复、测试等开发开发工作,能以最快分钟级的速度完成应用开发,助力软件开发速度提效数十倍。
全新升级的通义灵码模拟了人类程序员的能力,可完成更复杂、更全面的任务。此外,通义灵码还可以脱离专业IDE软件,在Web端直接执行缺陷修改、需求分析、代码实现、问题排查等任务工作流,兼具架构师、开发工程师、测试工程师等多种岗位技能,大幅缩短了应用的开发周期。
例如,真人程序员手动开发一个网页,通常需要1天的时间完成需求分解、写代码、测试等任务。现在,人类只需要输入需求,通义灵码5分钟就能完成整个过程。阿里云表示,未来只要有创意,不懂代码也能开发应用和软件。
目前,通义灵码已经“入职”中华财险、哈啰集团、长安汽车等公司,累计生成代码超10亿行。
全新升级后的AI Infra系列产品及能力,也在本次会上亮相。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。
在服务器方面,基于全新的CIPU2.0阿里云全新推出磐久AI服务器,实现单机16卡、显存1.5T以上,支持Solar RDMA互联。磐久AI服务器采用超钛金电源,能够实现97%以上的高能效,并可通过AI算法预测GPU故障,准确率达92%。
在存储方面,阿里云并行文件存储CPFS实现端到端全链路性能提升,单客户端吞吐达25GB/s,高性能数据流动达到100GB/s,为AI智算提供指数级扩展存储能力。
在网络架构方面,专为AI设计的高性能网络架构HPN7.0,性能和稳定性也再次提升,其集合通信性能提升1倍以上,模型端到端训练性能提升10%以上。
在阿里云灵骏集群方面,通过底层计算、存储、网络等基础设施的升级,灵骏集群可提供超大规模、超强性能的智能算力,万卡规模性能线性度超过96%,并行存储吞吐20TB/s,万卡规模下网络带宽利用率超过99%,可支持单集群十万卡级别AI算力规模。
在人工智能平台方面,阿里云PAI也已实现万卡级别的训练推理一体化弹性调度,AI算力有效利用率超90%。
在安全体系方面,通义大模型基于阿里云的安全基座,实现了生成式人工智能安全保障的最佳实践,将内容安全能力覆盖到大模型全生命周期中。同时,阿里云安全为百炼平台的专属部署模式设计了VPC安全保障方案,让客户在私域环境中也能获得数据确权归属等系列安全服务。
“AI+娱乐”自然也不会缺席云栖大会。会上,阿里云无影AI云电脑全新亮相,基于最新的终端云计算技术和AI大模型能力,无影的综合体验大幅提升,新增了弹性升降配、双网自由切换、多端操作系统知识库问答、编码大师等AI智能体功能,为安全办公、个人娱乐带来全新的云上流畅体验。相比传统PC,云电脑在操作体验、性能配置和数据安全保护方面已经完成了全面的超越,更有按需付费、极简运维、内置原生大模型等明显优势。
以无影个人版的电竞模式为例,其能提供12核CPU、46G内存、11G显存的配置,可轻松畅玩《黑神话:悟空》等3A游戏大作,1080P分辨率下帧率稳定在60帧左右。云栖大会期间,无影还新增了云游戏模式,直接免去了游戏下载和性能配置的步骤,可在MacOS、Android、iOS等多种终端之间随意切换。
针对有安全要求并充分隔离的网络环境,全新发布的无影专属版支持“同屏双网”自由切换。双网之间通过“文件摆渡”在隔离的网络环境之间进行传输,实现事前审批和事后审计,确保数据高效传输的同时“有迹可循”,进一步保障数据安全和用户体验。
针对企业级用户,无影企业版升级了全新的运维管理系统,彻底告别了过去复杂的运维困境,只需在后台轻点鼠标,即可完成系统升级、镜像管理、数据备份和权限管控等功能。
针对生态伙伴,无影推出了“星火计划”,开放软硬件接口,提供开发适配支持和专属在线知识库,让生态伙伴能够快速地在不同场景下部署各类解决方案,充分满足快速增长的广阔空间。
针对开发者,无影还推出了全新的开发者计划,所有软件开发者都可免费入驻无影应用商店,通过这个应用分发平台为广大的云电脑用户提供丰富的产品和服务。
总的来说,云电脑与AI的结合,无需消耗用户本地算力资源,还可多终端跨平台使用。一个无影账号就能在各类环境下调用大模型能力,彻底摆脱了终端硬件的限制。
而为了让更多用户体验到云电脑,无影宣布即日起所有用户都可免费领取一台无影云电脑(有效期1个月),使用时在支付宝搜索“无影云电脑”小程序即可领取。
(来源:资料图)
目前,阿里云的魔搭社区已成为中国最大的模型社区,拥有超690万开发者用户,与行业合作伙伴合作贡献了超10000款模型。
此次会上,魔搭社区宣布正式上线AIGC专区,为开发者提供从模型到应用的一站式AI创作开发平台,目前所有功能板块及GPU算力全部免费开放。
魔搭AIGC专区首批上架了157款精选多模态模型,其中既有FLUX、Stable Diffusion、RealVisXL、万象熔炉等社区热门模型,也包含众多设计师贡献的黏土风、像素风、漫画风、超现实主义、线条手绘等小众风格化LoRa模型。
在魔搭AIGC专区,除了直接下载模型,开发者还可在线调用各类模型进行快速生图,支持AI自动翻译和优化咒语,给出正向提示词及负向提示词,还可以对采样方法、提示词引导系数、随机种子、采样步数、图片尺寸等参数进行调节。同时,魔搭AIGC生图支持图生图、局部重绘、Adetailer人脸修复、ControlNet细节调控等深度功能。
对于有更专业需求的开发者或设计师,魔搭AIGC专区支持批量上传图片对模型进行LoRa微调,目前已上线Stable Diffusion、Q版IP、动漫、写实风等多个模版,最低10张图片即可完成模型训练。用户还可以在魔搭AIGC专区在线调用ComfyUI工作流,创建或复用相关模版来进行创作。
后续,魔搭AIGC专区也将上架视频、语音等更多模态的模型和应用,为开发者提供最优的一站式AIGC体验。
(来源:资料图)
总的来说,本届云栖大会是一个“云与AI齐飞”“软件与硬件齐奔”的大会。AI,也仍将是阿里云的发展重点。
(来源:资料图)
正如阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭在主题演讲中所说:“这一切才刚刚开始,要实现真正的AGI,下一代模型需要具备更大规模、更通用、更泛化的知识体系,同时也将具备更复杂更多层次的逻辑推理能力。”
他认为,AI具备创造能力、帮助人类解决复杂问题的路径清晰可见,也打开了AI在各行业场景中广泛应用的可能性。在各行各业,看不见的新产业革命正在悄然演进。所有行业都需要性能更强、规模更大、更适应AI需求的基础设施。
因此,阿里云正在以前所未有的强度投入AI技术研发和基础设施建设。目前,阿里云的单网络集群已拓展至十万卡级别,并正在从芯片、服务器、网络、存储到散热、供电、数据中心等方方面面,重新打造面向未来的AI先进基础设施。