跪了!这才是B站UP主该整的活!
经历过那个网速基本是 0、游戏全靠买盘的老伙伴,一定对当时大名鼎鼎的「藏经阁」不陌生。
说实话,要是没这个能把 N 款游戏塞进一张光盘的盗版之王,兜里空空如也的我,面对那些动辄 7、80 块钱的正版游戏,估计是一个也没机会体验了。。。
只是那会藏经阁团队为了能尽可能提升一张光盘的性价比,阉割了不少游戏的过场 CG 和 BGM。
以至于多年后,当我第一次听说《红警》有真人过场 CG 的时候,我愣是自信的认为,这不过是国外粉丝 DIY 出来的同人作品。
但不得不说啊,哪怕没有过场 CG 的点缀,红警这游戏仍然是我买盘那会接触过的最好玩的即时战略游戏。
上学时寝室里的日日夜夜,谁输谁儿子的场景,仿佛就发生在昨天。
只是,作为一款不那么「精致」的老游戏,20 多年后的今天,还有人关注嘛?我去 B 站上一搜,热度不减当年。
要说是什么给红警这款游戏续了命?除了怀旧作祟,大概玩家 DIY 出来的 MOD 才是红警最大的救星。
老游戏+新地图=新游戏,在 MOD 作者和玩家的共同努力下,让红警这棵老树,再次生出了新芽。
但是在 MOD 的帮助下,素材能够重现,玩法可以重构,但有一样东西却不能随心所欲的复刻——战场语音。
语音的缺失,就会导致沉浸感的不足,一直以来,自制任务都是哑巴新娘的窘境,成了摆在红警 DIY 玩家面前的顽疾。
新转机
上面这个问题,在过去十几年里几乎是无解的,一来时隔多年,再也凑不齐那一众官方的配音演员了;二来游戏 MOD 开发多是用爱发电,很难请来专业的配音团队;
但 2023 年,这个极有可能被成为 AI 元年的当下,事情即将迎来了新的转机,比如今天的主角:
UP 主 @KingsZHONE,就为红警制作了一整套的 AI 语音模型。
AI 语音的技术不没有出圈,从冲上热搜的 AI 孙燕姿,到最最常见的「这个男人叫小帅」,分别代表着 AI 语音界的两大派系。
前者是语音转语音,主要目的是进行音色上的转换;后者是文字转语音,类似小说软件中常见的 TTS 功能。
无论哪个派系,你在网上都能找到详尽的教程,之所以没那么火,大概是 DIY 训练模型这种折腾显卡的事,对个人来说更多停留在了整活上。
但当正在玩《心灵终结》这个红警 MOD 的 UP 主,苦于没有战场语音时,萌生出了一个想法:何不自己搞个红警语音模型出来?
但估计 UP 主也没想到,这个想法,会成为后面的大工程。
大工程之数量
就像所有自训练 AI 模型的项目一样,你想炼丹,至少要搞定一件事:保证训练素材的数量和质量。
说人话就是,你想让 AI 生成目标音色的内容,就需要准备目标人物足够量的音频片段作为训练内容。
先说数量,UP 主先是解包了原版的红警文件,并从中提取了所有的战场语音,再从过场 CG 中剪切出来了所有的对话,构成了最初的数据集。
丹是练好了,但效果嘛,一言难尽:
失败案例,网罗灯下黑,7秒
别笑,AI 绘画能搞出 6 指克苏鲁,AI 语音生成听不懂的古神语也很正常,只是问题到底出在哪了呢?
第一次试错,UP 主把目光放在了训练素材的数量上,并试着想了个解决方案——从网上扒取配音演员参演过的其他作品和采访素材。
依次把配音演员的台词裁剪出来,扩充数据。
当然,这只是一次试错,接入不同作品的训练素材,直接就导致 AI 语音生成充满了不确定性。
你想啊,同一个演员不同作品里,从音调到音色不会是统一的,红警作为一款战争主题的即时战略类游戏,总不能战事正凶的时候,突然冒出来一句「请尽情吩咐妲己」的语气吧。
想想挺带感,但作为一个成熟的 AI 语音模型,自然是要避免这种问题的发生。
没办法,UP 主只能弃用了其他作品扩充训练集的想法,本就是巧妇难为无米之炊,现在禁止引入外援,更是难上加难。
只能在训练素材的质量上下功夫了。
大工程之质量
UP 主在重新检查了训练素材后,发现了一个问题:项目中自动切割音频的脚本,对已有音频的切割和识别不够精准。
换言之,如果准确提炼这些已有音频,还有一线生机。
于是,UP 主祭出了 100% 自研的切割识别算法——
人肉智能算法,简单说就是全手工切割音频,以此精确切割训练数据中的断句和节奏。
红警 2 中的包含所有过场 CG 和所有任务对白,足足两个半小时的音频文件,被 UP 主纯手工切割成了 2000 多句话的训练素材,并根据人物分类归档。
当然,切割完的音频是不能直接拿来用的,游戏中的任务独白还好,相对来说比较干净,而来自过场 CG 中的对话独白,全都是有背景音的。
所以在切割之余,UP 主还对音频文件进行了一遍人声分离任务。
然后最头疼的活来了,想要搞定训练数据,还需要对音频进行文本标注——
先调用 OpenAI 开源的 Whisper 初步识别,UP 主又对着 2000+ 的音频进行了逐一对照修改。
数量不够质量凑,UP 主愣是凭着毅力,盘活了训练 AI 语音模型训练素材不足的死局。
有了可以用的训练数据,最难的一步已经搞定,UP 主又自掏腰包租了 4090,这才训练出了包括尤里、伊娃、谭雅、杜根、罗曼诺夫等诸多角色的 AI 语音模型。
你要说有没有什么不足,肯定有,因为训练集数据不够的硬伤在,部分模型生成后还需要后期调音。
但怎么说呢,万事开头难,当有人站出来开了这个头,就值得期待后续的发展。
好消息,在 UP 主新一期视频里,已经有 MOD 团队找 UP 主合作了,未来可期。
结语
事就是这么个事,AI 技术的出现给 MOD 社区创作提供了全新的钥匙,自制任务也能有新语音,获益的一定不止是红警。
或许有一天,玩不动游戏的老人,随手点开一个最近视频,就能看到全新的游戏内容却还是熟悉的声音。
怀旧之余也能开启新的冒险,怎么说呢,在这里提前感谢 UP 主了。
本文首发于微信公众号网罗灯下黑(wldxh8),未经授权请勿转载!
一如既往感谢各位小伙伴的支持和关注!