文丨赵宇
编辑丨王海璐
与蔚来、小鹏相比,理想的车上市时间最晚,但是销量最高。理想预测今年的销量有望达到 38 万辆。今年前 10 个月,理想的销量已经超过蔚来、小鹏的总和。
在软件自研方面,理想的起步也比较晚,但目标最高。今年 1 月,理想汽车 CEO 李想在公司开年内部信中说,理想汽车的愿景是在 2030 年成为 “全球领先的人工智能企业”。
“具备自动驾驶(能力)的智能电动车将成为最早的人工智能机器人,以及创造出物理世界人工智能的母生态:从 AI 的算法到改变生活的 AI 产品,从 AI 操作系统到 AI 推理芯片,从 AI 训练平台再到 AI 训练芯片等。” 李想表示。
理想正在加大投入力度,补齐智能化方面的短板。在今年三季度业绩电话会上,理想汽车总裁兼总工程师马东辉表示,理想将把 “智能驾驶领先” 作为核心战略目标,到 2025 年,理想智能驾驶研发团队规模预计由目前的约 900 人扩张至超过 2500 人。
在芯片自研方面,理想也在加大投入。理想同时在研发用于智能驾驶场景的 AI 推理芯片,和用于驱动电机控制器的 SiC 功率芯片。
有知情人士对《晚点Auto》表示,理想目前正在新加坡组建团队,从事 SiC 功率芯片的研发。在职场应用 LinkedIn 上,已经可以看到理想近期发布的五个新加坡招聘岗位,包括:总经理、SiC 功率模块故障分析 / 物理分析专家、SiC 功率模块设计专家、SiC 功率模块工艺专家和 SiC 功率模块电气设计专家。
用于智能驾驶的 AI 推理芯片是理想目前的研发重点。《晚点 Auto》了解到,理想研发整个 SoC(System on a Chip,系统级芯片),其中最关键的环节是推理模型加速单元 NPU 的前端设计。理想计划把后端设计部分外包给台湾世芯电子,然后再交由台积电完成制造。
《晚点 Auto》了解到,今年 10 月下旬,理想智能驾驶芯片研发团队已经在上海完成集结并封闭,准备突击流片。在芯片行业,“流片” 即试生产,意思是在研发团队设计完电路以后,先生产少量供测试用的芯片。
目前理想芯片部门的总体人员规模在 160 人以上,分布在北京、上海,美国硅谷和新加坡。一些部门已经开始执行 “大小周”(单双休循环)机制。
理想芯片团队属于 “系统与计算群组”,该群组负责人为理想 CTO 谢炎。芯片团队下设 NPU 架构、SoC、后端设计、验证等部门,芯片研发负责人为罗旻,职级为高级总监,向谢炎汇报。
凡专家级以上的岗位招聘,均需谢炎面试,高级专家级以上的岗位需经过李想亲自面试。
《晚点 Auto》将上述信息向理想汽车官方求证,截至发稿,未获回复。
先做智能驾驶芯片,云端芯片也讨论过
业内目前研发的智能驾驶芯片,通常指的是一个高度集成的系统级芯片,由多种芯片模块组成,包括推理模型加速单元(NPU)、中央处理单元(CPU)、图像信号处理器(ISP)、动态随机存取存储器(DRAM)等。
理想自研的芯片,正是用于智能驾驶场景的系统级芯片,以推理模型加速单元 NPU (Neural Processing Unit,神经处理单元)为研发重点。
NPU 是一种主要用来加速神经网络的推理计算,是智能驾驶芯片中最能做出差异化的核心模块。
通用芯片侧重于灵活性,具备处理多种指令要求的能力。而专门用途芯片可以针对 AI 算法采取特殊设计,具备体积更小、功耗更低、可靠性更高等优点,但研发周期往往更长、研发费用也会更高。
据《晚点 Auto》了解,理想芯片部门 NPU 架构的研发负责人陈飞于 2022 年 4 月加入理想,目前的职级为资深专家。陈飞本科毕业于清华大学工程物理系,博士毕业于美国特拉华大学电子与计算机工程系,曾在英特尔、ARM、苹果和谷歌从事 CPU 和其他芯片的设计开发工作。
理想汽车官网显示,其正在通过社会招聘渠道招募 NPU 相关技术人才,列出的全职岗位包括 NPU 运行时软件工程师、NPU IP 设计、NPU 调度器技术专家、NPU 架构师和 NPU 验证工程师,工作地点均位于上海浦东新区。
《晚点 Auto》了解到,在智能驾驶芯片自研过程中,理想内部团队主要做含金量更大的前端设计,目前把后端的物理设计部分外包出去。与此同时,理想也在自建后端设计团队。
后端是把前端的逻辑设计转成物理设计,相当于把电路原理图转成线路图。国产车载芯片厂商芯砺智能首席战略官陈超卓表示,由于行业内已经具有成熟的工艺和流程管控标准,把后端外包出去可以节省时间和成本,是行业内的习惯做法。
今年 7 月,《台湾时报》曾援引摩根士丹利研报报道称,理想计划把智能驾驶芯片的后端设计部分外包给台湾世芯电子。据了解,芯片的后端设计定型后,将交由台积电完成制造。
世芯电子官网信息显示,其目前主要向客户提供 ASIC 专业使用芯片设计、系统级芯片 SoC 设计等服务。世芯电子成立于 2003 年 2 月,2009 年通过台积电认证,2014 年 10 月上市,2021 年 1 月在北京设立办公室。在成立之初,世芯电子曾获得台积电、思科和软银等科技公司的投资。
一位接近理想汽车的人士对《晚点 Auto》强调,理想车端推理芯片的研发工作较为复杂,在 NPU 、SoC 等硬件以外,还包括软件的开发与适配等,“这实际上是一个好多层的解决方案”。
除车端推理芯片外,理想也曾讨论过自研用于数据中心的云端训练芯片。一位知情人士认为,在云端训练芯片的技术路线选择上,理想可能不会采用目前应用广泛的 GPU 架构,而是采用与特斯拉 AI 超级计算机 Dojo 或者 AI 芯片初创公司 Tenstorrent 类似的架构。上述人士表示,“谢炎是做编译器出身,希望能够用软件调度实现降维打击,提高利用率。”
特斯拉曾在 2021 年 AI DAY 活动上宣称,其超算 Dojo 采用的 D1 芯片基于 ASIC 专业使用芯片的思路打造,兼具性能与成本优势。
在理想汽车 2023 年春季媒体沟通会上,李想曾表示:“像特斯拉做自己的 AI 训练芯片 D1,它整个体系构建起来以后,大概能做到英伟达 A100 六分之一的成本。”
截至今年 8 月中旬,据《晚点 Auto》了解,理想管理层仍未对云端训练芯片的自研作出详细规划。
跟着特斯拉做芯片
2022 年 6 月,陈飞曾在一场理想汽车举办的校园招聘活动上提出,未来智能驾驶芯片应该具备七大特征:算力大、可扩展性高、软件编程容易、灵活度高、功耗低、可靠性高、成本低。
在智能驾驶芯片领域,业内有望实现较现有已量产芯片 5-10 倍的性能提升。
他认为目前的芯片并不能把性能做到极致,一个重要的原因是,芯片厂商要考虑通用化,面向整个行业设计制造芯片,而每一家主机厂用的模型可能都不一样,这就会造成一些浪费,很难达到 “量身定制” 的效果。“没办法,市面上能够买到的性能最好的芯片,也就只有英伟达的这种芯片。” 陈飞说。
此外,服务器或手机芯片领域头部厂商的策略,都是在自己原有优势架构的基础上加上 AI 推理加速的能力,希望做出一款产品,让汽车厂商都能够高效运用。但是,传统 CPU 和 GPU 架构的设计初衷并非针对智能驾驶这个应用场景,如果用来跑智能驾驶推理应用,芯片的功耗会很大,进而影响在高温状态下的整体性能。
“GPU 原来主要是为图形渲染、3D 加速而设计的,其计算能力比 CPU 会好一些,但是具体到智能驾驶的应用上面,也已经显得有些力不从心。” 陈飞表示。
特斯拉是全世界第一个自研智能驾驶芯片的车企。早在 2016 年,特斯拉与 Mobileye 合作期间,就从 AMD 挖来了芯片产业传奇人物 Jim Keller。当时特斯拉 Model S、Model X 上的自动驾驶硬件系统是 2014 年发布的 Hardware 1.0,搭载 Mobileye EyeQ3 芯片,软件算法主要由 Mobileye 提供。
不过,双方的合作并不顺畅:Mobileye 认为,特斯拉释放给用户的功能过于激进;特斯拉则认为,Mobileye 对于研发需求的响应程度不足。2016 年 5 月,在美国佛罗里达高速公路上发生的交通事故加剧了双方合作的嫌隙。
2016 年 10 月,特斯拉推出了用定制版的英伟达 Drive PX2 自动驾驶计算平台(由 1 颗 Tegra Parker 芯片和 1 颗 Pascal 架构 GPU 芯片构成)打造的 Hardware 2.0 ,与 Mobileye 彻底分手。2017 年 8 月,特斯拉又增加了一颗英伟达 Tegra Parker 芯片,将 Hardware 2.0 升级为 Hardware 2.5。
与英伟达合作期间,特斯拉的智能驾驶软件能力不断进化,对芯片的理解也不断加深。2019 年 3 月,特斯拉量产了基于 2 颗 FSD 芯片的 Hardware 3.0,FSD 芯片由特斯拉自研,采用 14nm 制程,单颗算力 72 TOPS。
根据特斯拉公布的数据,与采用英伟达芯片的 Hardware 2.5 相比,Hardware 3.0 的图像处理速度提升约 21 倍(每秒处理帧数由 110 帧提升至 2300 帧),单体成本降低 20%,功耗仅为原来的 1.26 倍(从 57W 增加到 72W)。
特斯拉 FSD 芯片,来源:特斯拉 2019 年 Autonomy Day。
目前,FSD 芯片已在特斯拉全系车型上大规模搭载,累计出货量超过 800 万颗。多位业内人士对《晚点 Auto》表示,从应用角度来说,特斯拉 FSD 芯片是目前最先进的智能驾驶车端推理芯片。
除了车端推理芯片,特斯拉还自研了云端训练芯片。2021 年 8 月,特斯拉在 AI DAY 上正式发布 Dojo 超算,以及自研的云端训练芯片 D1 。至此,特斯拉将应用于数据中心场景的芯片研发主动权也拿到自己手中。
根据特斯拉官方此前发布的信息,特斯拉 Dojo 超算已从今年 7 月开始量产,到 2024 年 2 月,总算力将达到等效约 10 万张英伟达 A100 芯片,进入全球前五;到 2024 年 12 月,Dojo 的总算力将达到 100 EFLOPS,等效约 30 万张英伟达 A100 芯片。
性能方面,相较于采用 GPU 路线的英伟达 A100 ,在热设计功耗 TDP(Max Thermal Design Power)相同的情况下,特斯拉 D1 以更小的芯片面积和更少的晶体管数量,实现了更高的峰值算力。
自研与否,最终要回归商业模式
特斯拉把 FSD 芯片量产之后,中国新势力理想、蔚来、小鹏都组建了自己的芯片团队。
李想曾在理想汽车 2023 年春季媒体沟通会上解释称,在系统的研发方面,车企需要关注平台的成本如何继续下降。在智能驾驶的硬件(包括雷达、摄像头等传感器和计算平台)成本上,特斯拉是 1500 美元,理想是 4000 美元。
“如果理想自己做推理芯片,可以做到像特斯拉一样的成本,因为算法掌握在自己的手里,也包括后面整个的训练平台、训练芯片自己做。” 李想当时表示。
复杂多变的国际环境,也让芯片自研更具合理性。
一位接近理想的人士对《晚点 Auto》分析称,“如果理想短时间内不推动智能驾驶芯片自研,而是一直使用英伟达的芯片,并不会很快出现性能瓶颈,但是英伟达的芯片价格高,而且存在断供风险。”
当前,智能驾驶云端训练芯片断供已经成为中国多家车企和自动驾驶研发商面临的真实风险。
10 月 18 日,美国商务部下属工业安全局发布公告称,将扩大对华出口先进芯片的管制范围,受限芯片产品包括但不限于 A100、A800、H100、H800、L40、L40S 和 RTX4090 。其中,A100、A800、H100、H800 等芯片可被用于智能驾驶的云端训练。
10 月 24 日,英伟达发布公告称,美国政府已通知英伟达,上述芯片出口禁令立即生效,撤回 30 天豁免期安排。
智能驾驶云端算力竞赛是头部厂商的另一个角力场。6 月 17 日,在理想汽车举办的 “家庭科技日” 活动上,理想智能驾驶副总裁郎咸朋曾表示,理想智能驾驶数据中心的云端算力规模已达 1200 PFLOPS。
11 月 10 日,在阿维塔 12 的新车上市发布会上,华为车 BU 董事长余承东表示,华为智能驾驶云端算力规模已达 2800 PFLOPS。
自研芯片的好处很多,风险也不小。
首先,智能驾驶芯片的技术路线仍未收敛,厂商研发出的产品有可能在量产后很快遭到淘汰。
陈飞曾表示,现阶段的智能驾驶模型,主要是基于卷积神经网络(CNN, Convolutional Neural Networks)设计。但是,随着学术界、工业界的发展,模型的推理方式可能会发生改变,如果硬件设计只对当前专精于某一类型的模型服务,那么当更优秀的模型出现时,这个花费大量资源开发出来的芯片可能就会过时。
因此,在设计智能驾驶芯片时,厂商必须要考虑到模型发展的趋势,让整个系统保持一定的灵活性和可扩展性。这样,当新模型出来时,芯片也能够在现有架构上对其完成适配,让新模型高效运行。
其次,智能驾驶等高算力芯片的研发周期长、资金投入大,不确定性高,如果盲目推进芯片自研,也会给企业造成很大负担。
陈超卓表示,研发芯片特别 “烧钱”,一颗高算力芯片的研发和量产需要花费十几亿元人民币甚至更高。从商业模式的角度讲,芯片厂商的毛利率必须超过 50% 才能生存。而车企自研的芯片一般只能自用,由于行业发展速度快,可能一颗芯片只能搭载在一两代车型上,如果销量不够大,商业模式很难撑得住。
再者,车企自研智能驾驶芯片的最终目的,是实现商业利益最大化,但在芯片出货量上,多数车企比不过为行业提供通用方案的头部芯片厂商。
在 2023 年中国电动汽车百人会论坛上,地平线创始人兼 CEO 余凯曾表示,车企应该慎重考虑自研智能驾驶芯片问题。“自研和他山之石本身是战略选择,如果车厂的年销量预期不到 100 万辆,资金的整个效率其实是算不过账的。”
陈超卓认为,特斯拉从使用供应商的方案转为自研,是因为供应商的方案满足不了特斯拉的要求。通过自研芯片,特斯拉确实已经形成一定的成本和技术优势。但如果将来有一天,智能驾驶芯片产业变得更加成熟,行业通用方案能够满足车企的要求,车企自研芯片就不具备优势了。
行业研究机构 IDC 中国研究经理王博对《晚点 Auto》表示,智能驾驶涉及复杂的行业生态,对于车企而言,不论以自研路线为主,还是与科技公司寻求合作,在芯片领域的技术积累都有利于其在未来的竞争中争取更大的主动权。