作者丨程心
编辑丨罗辑
2023年,大模型“救活”了很多行业,其中最为反转的,就是把虚拟数字人(以下简称虚拟人)从活死人墓里拉了出来。
还没开年,在2022年火爆一时的元宇宙就已经快速遇冷,虚拟人作为元宇宙的遗孀也难逃霜冻的命运,不少虚拟人初创公司开始进入融资难、产品无法落地的艰难阶段;甚至百度、腾讯等大厂们,也开始裁撤了曾重金打造的希壤和智影等专门为虚拟人制作而生的平台。
正当所有人都以为,虚拟人将经历一段漫长的寒冬时,大模型来了。
大模型来了,首先意味着元宇宙之外,又有了新的概念和故事;但更重要的是,大模型的能力也确实对虚拟人技术产生了深刻的影响,在元宇宙时代未能解决的成本高昂、制作周期缓慢、门槛过高等问题,也都开始被大模型逐个击破;同时,大模型让虚拟人能够真正开始规模化落地,融合进产业,这迈出了产业链成熟的关键一步。
但这一年仍然是混乱的。
年初,起死回生的虚拟人开始疯狂找落地场景;年中,闻到商机的代理商们,带着成千上万虚拟人涌进直播间,开始披着技术的外衣疯狂割韭菜,这也导致企业客户一时间对虚拟人望而却步。
年底,当泡沫逐渐消失、技术逐渐成熟后,整个市场开始回归冷静,产业链开始分化,上中下游的分工慢慢清晰,各行各业也不再追求形式而开始真正思考,虚拟人究竟能带来什么?
毫无疑问,虚拟人最重要的场景并不是当下所经历的这一切,它是现实世界和虚拟世界的超级入口,是人生游戏中真实的NPC,但想要达到这个目标,无论是技术还是生态,都还尚早。
在年尾之际,我们将从技术、产品、商业化三个层面,与多位厂商共同复盘2023虚拟人这一年。
大模型让虚拟人“活”了
在大模型到来之前,虚拟人一直避不开成本高昂的问题。
2022年的时候,虚拟人通常都是一对一定制,价格也从上万元到几十万不等,但即便如此,虚拟人的效果也不尽如人意。
某知名酒业公司品牌负责人告诉「自象限」,该公司曾尝试将虚拟人应用在机场大屏的广告中,但即便找了国内知名大厂,并花费近60万元之后,落地的效果还是“一眼假”。
成本高昂和落地效果不佳的直接原因,自然是技术不成熟。
在大模型之前,虚拟人的制作大多由真人驱动,即需要专门的演员戴上设备,通过动作捕捉技术进行长时间的数据采集才能完成3D建模。这种形式一是具有高昂的人力成本,其次则是制作周期漫长。
一位虚拟人从业者向「自象限」表示,一个虚拟人的数据采集需要专门的制作团队制作数月才,在这之后,还需要专业的技术人员专门进行调优。
这自然直接增加了虚拟人的制作成本,某虚拟人厂商告诉我们:“找演员拍摄,几乎是卖一个赔一个。”
在真人驱动之外,也有虚拟人依靠算法驱动。但这类虚拟人前期需要大量的数据训练各类驱动模型,而且最终效果还要受语音合成、NLP技术、语音识别、CG渲染等技术的影响。
这类虚拟人尽管在大模型之前已经在某些特定方向有了相对稳定的技术,但仍然缺少一个强有力的“大脑”,将各种模块统一起来,让虚拟人达到理想的效果。
除此之外,在大模型之前,靠传统算法驱动的虚拟人通常依靠预设的参数和有限的模型进行训练,但在大模型之后,大模型的生成能力则几乎让虚拟人拥有了无限的训练参数。
图源:中航证券研究所
如今,大模型已经作为一种生产能力渗入到整个虚拟人制作的产业链中,这直接推动了虚拟人制作成本的大幅下降,从之前的十万级下降到千元左右。制作周期也从之前的动辄几个月,缩短到小时级别。
国内最早一批布局AI数字人的「硅基智能」告诉「自象限」:“从上线起,硅基的数字人形象克隆产品统一定价为8000元,通过标准化的价格和服务来扩大市场份额,目前市场上的售价参差不齐,从几百到几千不等,新的一年,我们在思考把8000元的门槛砍掉,进一步降低成本,走全新的商业模式。”
降本增效,是大模型带来的第一层改变。大模型技术不仅直接降低了虚拟人的制作难度,更让虚拟人看上去更像人。
比如,大模型改变了过去虚拟人3D建模依靠CG技术的传统方法,转而使用视频大模型的制作工具,通过算法高效生成3D模型,这让虚拟人的面部细节更加逼真,面部表情和唇形的同步效果也有所提高,让虚拟人在说话时看起来更自然。
除此之外,大模型还在交互方面提高虚拟人的能力,让虚拟人可以从单项输出到与人进行事实互动。
根据 IDC 咨询,根据虚拟人的自动化水平,可分为 L1-L5 阶段。如下图所示,目前我们正处于L3-L4的中间阶段,在直播间或者虚拟人互动的设备中,用户通过文字就能与虚拟人进行实时交流和对话,以用来介绍产品、替用户解决问题等等。
图源:IDC报告截图
一位2D虚拟人厂商同「自象限」提到:“目前相对智能化的虚拟人已能实现直播互动。这背后的技术原理在于企业事先建立的一个模板库或知识库,一旦在直播中触发了相应的关键词,虚拟人就能实时调取里面的内容进行回答。”
但从效果来看,这项技术还不够成熟,有用户反馈到:“在直播间问的问题,过十分钟虚拟人才会回复,早就没耐心等在直播间了。”
最后,AIGC的生产能力,也让虚拟人开始有了“灵魂”。
商汤智能研究院梳理了AI 数字虚拟人的三大特征,包括多模态交互、深度学习能力和AIGC 生产力。
相较早期虚拟人制作对人工依赖较高,AIGC 大幅提升了 AI 虚拟人的制作效率,并降低了制作门槛;大模型让虚拟人能够深度学习更多知识和技能,并识别包括图片、视频、音频在内的多模态内容,为虚拟人与真人自然交互的实现提供了基础。
图为自象限原创
很大程度上,大模型解决了虚拟人在解决了虚拟人在自然语言理解和内容输出上的能力,比如在直播场景下,虚拟人可以依靠大模型的生成能力很好地完成在口播内容、脚本甚至剧本等方面的剧本撰写工作,这很大程度降低了产业链的门槛,让虚拟人不只是一个形象,更成为一个生产工具。
目前,部分虚拟人厂商已经开始向整个生成链条延伸,比如“一键生成视频文案”、“一键生成讲解视频素材”、“多语言快速翻译”等等,从虚拟人的技术提供商转变为更有整体性的解决方案提供商。
微软小冰CEO李笛更是提出,虚拟人未来是混合模型。
「自象限」认为,下一阶段虚拟人将进入“虚拟人+”的阶段,虚拟人+RPA在企业内部打造数字员工;虚拟人+AI Agent,在C端打造陪伴型机器人;虚拟人+AR/VR,在3D空间打造可见的游戏NPC;虚拟人+具身智能,让人型机器人有了灵魂。
若将多种技术进行全面融合,虚拟人才真的能够成为“入口级应用”。届时,比拼的赛点将是虚拟人的开放程度、生态建设、场景拓展等一系列综合能力。
虚拟人,走向2D还是3D?
随着大模型带动的虚拟人爆发,市面上虚拟人类型也逐渐丰富。从2D到3D,从真人到算法,已经乱花渐欲迷人眼。这背后的本质,其实是市场对虚拟人的分类标准不同。
但「自象限」整理了一些常用的标准和分类后发现,虚拟人在产品落地方面其实更多是依靠视觉的不同来进行分类,即2D虚拟人和3D虚拟人。而从技术、产业链和应用场景来看,2D虚拟人和3D虚拟人已经走出了两条泾渭分明的道路。
图为自象限原创
本质上,虚拟人的最终目标无限地接近于真人的形象,因为只有这样,虚拟人才能带给用户和人一样的感受和互动体验。拿这个标准来看,3D虚拟人更契合这个目标,也是未来应用方向。
但作为对比,2D虚拟人的制作成本更低,应用落地更简单,能够在短时间内带来大规模商用。
左图为2D虚拟人,右图为3D虚拟人
从技术角度来看,两种虚拟人背后搭建的技术架构也完全不同。
2D虚拟人更关注面部表情、口型说话的语气;3D虚拟人则更关注整体的协调性,说话时肢体的动作,以及虚拟人与空间的几何关系等等。
具体而言,2D虚拟人可使用图片处理器快速生成,3D虚拟人则需要建模、动画、渲染等环节;2D虚拟人需要的数据量较小,对算力要求不高,3D虚拟人则刚好相反;2D虚拟人对精细度要求不高,但3D虚拟人却要达到高仿真的拟人效果。
技术上的差异导致3D虚拟人的制作成本要远超2D虚拟人。
彼时大热的3D虚拟人柳夜熙的制作投入高达百万元。所以在上一波元宇宙潮中,3D虚拟人作为主角博得了热度,但离飞入寻常百姓家还差了一大截,因此2D虚拟人抓住机会,恰好填补上这一需求的空白。
根据市场调研,目前,百度、商汤、魔珐科技等公司涉足3D虚拟人领域;腾讯、京东、快手、即构科技、万兴科技、一览科技在2D虚拟人方向更新产品和服务,还有以方糖星球、真视通、易观国际、天玑科技为代表的企业以虚拟空间为切入,完善虚拟人配套设施。
深耕3D虚拟人的厂商魔珐科技告诉「自象限」,魔珐科技全栈技术主要包含四大维度,分别是AIGC 3D写实形象,AIGC 3D动画、AIGC 声音和AIGC 文本,在有言产品中,还涉及AIGC 3D运镜和AIGC灯光等技术,是一个极为复杂的综合考量。
而针对3D虚拟人的难点,魔珐坦言当下生成技术在逐步攻克中,但高质量的3D数据,是行业非常稀缺的资源,这也是3D虚拟人的壁垒之一。
AIGC文生视频需要依托高质量的3D训练数据,才能生成稳定有几何关系和空间关系的视频,2D虚拟人厂商需要从0到1构建3D数据几乎不太可能。
魔珐科技认为:“3D虚拟人是一种人物形态载体,能够使用起来,就需要以产品化形态落地,去解决企业实际问题。”
这意味着,虚拟人厂商不仅需要提供3D虚拟人产品,更需要与企业的业务场景相结合,给企业一定的自由度,打造3D虚拟人的制作平台。
目前魔珐科技打造了端到端的超写实3D虚拟人工业化产线及“3D虚拟人的AIGC平台—星云平台”,为企业提供系列生成工具,企业根据自身需求,能够更加灵活的调整虚拟人的细节、结构和适配的使用场景。
商汤也基于日日新大模型,打造了如影虚拟人制作平台,基于在视觉、语音领域积累的3万个算法模型,虚拟人能快速识别、反应,与用户建立起对话关系。并且,事后,虚拟人也不会“失忆”,继续学习迭代。
相比之下,2D虚拟人的制作流程就简单的多。某2D虚拟人厂商对我们介绍到:“目前2D虚拟人制作有两种方式,一种是请真人录制,然后帮其定制形象。一种是从用户提供的视频中提取形象,再用到各种场景中。市面上2D虚拟人定制工具的逻辑基本一致:输入文案素材,就能生成一个简单的虚拟人形象。”
大模型对2D虚拟人提效效果显著,AI可将传统视频制作流程中人工处理时间大幅减少90%,模型训练时间减少60%,只需48小时以内即能完成各类定制数字人的训练工作。目前文生AI数字人视频的时间在数分钟左右。伴随技术的进步,未来文生视频的效率还将持续提升。
大模型把虚拟人制作的成本打下来了,也把虚拟人的价格打下来了。
因为便宜,2D虚拟人开始铺天盖地的走进直播间、短视频,不少大V开始有了数字分身,刘润、周鸿祎相继亮相了自己虚拟人分身,它们在直播间里7×24小时、全年无休地介绍着产品,无论大企业还是中小商家,对虚拟人的热情空前高涨,而这也吸引了大量鱼龙混杂的代理商和套壳厂商,没有实质技术,只是打着科技的幌子招摇撞骗。
今年7月-8月,小红书、闲鱼、淘宝、抖音等平台都开始陆续出现了“99元”、“299元”、“499元”的虚拟人,据「自象限」调查,这些卖家往往通过各类成功案例吸引用户下单,但下单后不管使用不包售后,通过一个有一个“圈套”,只为“卖”,不为“用”,虚拟人的热度就这样被炒得虚高。图省事的买家以为自己赶上了风口,结果吃了大亏;想捞快钱的卖家趁机而入,顺利收割了第一批韭菜。
一位品牌商家对「自象限」讲到:“虚拟人最火的时候,采买了虚拟人主播,前几次直播效果都不错,前三个月可以盈亏可以勉强打平,今年七八月份光电费就一万多,加上给虚拟人主播投流,亏了10万左右。”
行业鱼龙混杂,让很多原本想尝试的企业望而却步。不过,这样的情况到了年底,通过监管政策的密集下发和平台收紧了虚拟人直播的条件,混乱的现象暂时得到了控制,行业又重回冷静期,开始真正思考,虚拟人,究竟能做什么?
爆火虚拟人,花式商业化
事实上,直到今年,数字人才真正步入了商业化的正轨。
硅基智能创始人兼CEO司马华鹏曾在采访中提到“2019年推数字人,免费都没人用。”而到今年,我们也感受了一些新的变化,“去年我们克隆了十几万数字人,有些客户不愿意公开讲自己在用AI协助工作,但今年大家都愿意说了。”
“ChatGPT出现之后,整个行业的心态发生了非常大的变化。”
2023年,虚拟人的商业模式分化出了3种较为成熟的模式:
第一种是元宇宙时期为主的IP型,产品定位多位偶像、娱乐、科研教育等方面。以此衍生出了虚拟偶像、数字航天员、品牌代言人等一系列角色,将偶像身份具象化,通过IP打造和运营,如柳叶熙、洛天依等;
第二种则是功能型虚拟人,也叫服务型虚拟人,以数字员工为代表,虚拟主播、数字客服等在金融、文旅、零售、直播等领域,与人的工作相辅助,降低企业成本,提供自动化、标准化和智能化的服务;
第三种则是正在探索的虚拟分身(Avatar),也称虚拟空间身份代理,为玩家打造特定的游戏身份、虚拟演唱会观众、永生形象等,多应用在游戏、VR、元宇宙中,是虚拟空间和现实空间的交互入口,玩家不仅能拥有虚拟形象,更能推动虚拟内容的生产,也是虚拟人最终要达成的状态。
根据沙利文、头豹研究院等数据显示,2023年多个品牌都在探索如何用虚拟人产生更大的价值,其中诸如虚拟歌手、明星克隆、消费品牌的虚拟代言人,迅速风靡网络。
郭德纲说英语、Taylor swift讲四川话,AI“复活”了张国荣和梅艳芳,也替一众歌星开启了线上演唱会。短视频的玩梗和传播,加速了虚拟人进入到大众的视野中,而C端的热情同时也映照着B端的需求。
年初,抖音大V刘润打起了数字人短视频的第一枪;年尾,坐拥1200万粉丝的科普博主严伯钧开始在多个社交媒体平台发布由硅基智能制作的数字人短视频。
严伯钧在接受采访时也讲到:“当我第一次发布AI制作的内容时,就有观众敏锐地指出:‘你为什么不眨眼?’事实上,从动作、表情、语言到思想,AI正在不断地学习和模仿我的每一个特征,这是一个持续进化的过程。”
图源:受访企业提供
据了解,2023年8月,公司联合明星MCN公司谦寻成立了合资公司谦语智能,发布了AI数字人直播解决方案,为谦寻旗下主播打造数字分身,在主播直播的8小时外,替主播继续直播,延长直播时长。
而魔珐科技则更注重虚拟人本身的能力,某医疗机构营销中心,每月需要数千条话题、热点、科普类视频用于运营各段视频平台及营销投放,现有几十人的团队每月产能几百条。
通过使用魔珐有言一站式AIGC视频创作平台,可以将图文内容一键生成3D视频,免去了视频拍摄,制作等诸多环节,使用有言后,该营销中心解决了产能不足的问题,实现独立完成全平台视频矩阵运营。还能创作大量优质的科普内容用于投放获客,实现了优质医疗科普视频的快速、规模化的量产。不仅团队产能大幅提升,获客ROI也随之提升。
更重要的是,2023年,虚拟人开始走向千行百业,从影视、娱乐等领域走向金融、文旅、教育、政企等数字化深水区。
图源:腾讯《数字人产业发展趋势报告》
举几个例子,在虚拟人+教育领域,网易有道发布AI口语老师,该老师为学生提供开放式的聊天场景,更符合真实的口语联系环境,并在对话结束后快速生成结果报告;科大讯飞发布讯飞星火认知大模型,涵盖了批改语文和英语作业,模拟口语老师实景对话等。
在虚拟人+政务方面,目前厦门、深圳、江西等地方纷纷引入数字员工,工作内容包括多语种的政策解读、为群众提供“边聊边办”的数字政务服务,通过虚拟人智能推送服务入口,完成业务咨询、资讯推送、服务引导等等政务服务。
2024年,有部分厂商也在逐步试水数字人+跨境电商。硅基智能告诉我们:“由于海外的多语种对短视频和直播有很大的门槛,我们开发了硅语翻译小程序和专业版的Anylang,可以通过实时翻译结合数字人解决这个问题,帮助跨境电商企业一站式出海。”
总的来说,在经历了2023年的动荡期之后,虚拟人无论是的技术、产品还是行业格局,都走向了一个新的节点,2024年,随着多模态大模型的成熟,虚拟人可能会再迈进一个台阶,同时在千行百业中的逐步深入,也将打开更多数字化的大门。