作者 | ZeR0
编辑 | 漠影
50多天前轰动科技圈的Sora,给全世界上了堂打开视频创作想象力的大课。
国内类Sora创企们也活跃起来,这不,仅是过去1个月,就有多家做国内版AI视频生成模型的创业公司发来战报:
3月11日,爱诗科技宣布完成亿级人民币A1轮融资、爱诗视频大模型上线内测;3月12日,生数科技宣布获得数亿元融资,智谱AI、百度风投等参投;3月18日,潞晨科技推出覆盖所有训练细节和模型权重的Open-Sora开源方案;3月26日,字节跳动旗下剪映Dreamina开放内测……
而且家家都有令人精神一震的“全球第一”傍身。
全球首个Diffusion Transformer架构论文来自生数科技团队,爱诗科技的海外版产品PixVerse是全球用户量最大的国产AI视频生成产品,潞晨科技开源全球首个类Sora架构视频生成模型。
国内主要类Sora创企融资历程(截至2024年3月,智东西制表)
根据公开融资信息,生数科技还是当前主要国内累计融资额及估值最高的类Sora创企。
其投资方阵容强大,百度风投连投多轮,大模型独角兽智谱AI首度参投。蚂蚁集团、创始成员多数来自于原字节跳动投资团队的锦秋基金,都将投大模型公司的“第一次出手”给了生数。
这个源自清华大学人工智能研究院的创业团队,在基础架构上能与Sora团队掰手腕,在3D生成模型上敢跟OpenAI、谷歌、英伟达叫板,技术成果被OpenAI、苹果、Stability AI等应用于DALL·E 2、Stable Diffusion等模型中。
在近期的一场小型沟通会上,生数科技联合创始人兼CEO唐家渝告诉智东西等媒体,现阶段国内外AI视频生成代际差不大,国内团队追赶Sora要比2023年追赶GPT-4更容易,生数科技有信心今年达到Sora目前版本的效果。
推荐智东西年度会议:4月18-19日,2024中国生成式AI大会将在北京举行,生数科技联合创始人兼CEO唐家渝将在大会首日的开幕式高端对话上分享对前沿技术与产业发展的观察与思考。免费报名或购票进入倒计时,期待你的参会~
01 .
清华计算机系师生创业
科研成果“撞车”Sora基础架构
在国内AI大模型竞赛中,“清华系”群星璀璨。
据智东西统计,2017年~2023年至少有29位清华教授、校友下场创业,投入大模型产业相关方向。(清华系撑起中国大模型创业半壁江山)
清华大模型创业群英谱(智东西整理,如有错漏欢迎指正或补充)
其中,生数科技是多模态通用大模型代表玩家,也是技术架构“最接近于Sora的中国团队”。
故事要从其首席科学家、知名AI大牛朱军说起。
朱军教授是20多年的“清华人”,2001年考入清华计算机系,2009年博士毕业,师从中国AI奠基者张钹院士,2011年起在清华计算机系任教,是清华最年轻的长聘正教授之一,也是当前CS Rankings机器学习方向亚洲排名第一的学者。
生数科技首席科学家朱军教授
2018年,清华大学人工智能研究院成立,83岁高龄的张钹院士出任院长,35岁的朱军出任副院长。同年7月,朱军支持自己的学生田天创办第三代AI基础设施创企瑞莱智慧RealAI,并与张钹院士共同担任瑞莱智慧首席科学家。
四年后,与Sora的交集开始埋下伏笔。
2022年9月,朱军教授课题组提交了一篇论文,提出将视觉Transformer与扩散模型结合的网络架构U-ViT;两个多月后,一起在Meta FAIR实验室做研发的加州大学伯克利分校William (Bill) Peebles和华人学者谢赛宁合著并提交了一篇DiT论文,同样探索了扩散Transformer架构,并与U-ViT在具体实验路径上一致。
当年计算机视觉顶会CVPR 2023收录了U-ViT论文,却以“缺乏创新”为由拒稿DiT论文。DiT论文入选了另一个顶会ICCV 2023。
左为清华U-ViT论文,右为DiT论文
而在一年多后的今天,惊艳世界的视频生成模型Sora和文生图模型Stable Diffusion 3,都是站在DiT肩膀上结出的研究硕果。
2022年年底,Bill Peebles加入OpenAI,开始联合带领一支由十几人组成的精悍团队,在DiT架构之上呕心研发Sora视频生成模型项目。Bill曾告诉同为DiT论文作者的谢赛宁,Sora团队“每天基本不睡觉高强度工作了一年”。
基于算力和对技术成熟度预判的综合考虑,清华团队则选择先将U-ViT应用于2D图像生成,再基于此拓展至3D和视频任务。
2023年3月,朱军教授课题组开源9.5亿参数多模态扩散大模型UniDiffuser,基于U-ViT架构实现图文跨模态生成,在采用扩散Transformer架构上比今年2月才发布的Stable Diffusion 3模型领先了接近一年。
开源地址:http://github.com/thu-ml/unidiffuser
同样在3月,生数科技由瑞莱智慧RealAI、蚂蚁和BV百度风投联合孵化成立,2006级清华计算机系校友、师从清华孙茂松教授的前瑞莱智慧副总裁唐家渝出任CEO,师从朱军教授的清华计算机系博士、U-ViT和Unidiffuser论文的作者鲍凡出任CTO,朱军教授担任首席科学家。
经过大半年围绕多模态大模型的研发探索,生数科技团队预测过2024年视频生成会迎来爆发,但Sora的出场还是令他们感到惊讶。“比我们的预期早了将近半年。”唐家渝回忆道。
2024年1月19日,生数科技宣布其视觉创意平台PixWeaver上线文生视频功能,输入简单文字即可一键生成视频,最高支持1024*1024分辨率。当时PixWeaver的画面水准已跻身国际一流,但仍未解决时长短、画面有卡顿感等问题。
今年1月推出文生视频功能时展示的生成视频效果
一个月后,视频生成模型Sora空降,凭借可生成信息承载力强、3D一致性、一定程度领悟物理规律的60秒长视频,彻底引爆AI视频生成的燎原之火,也因“降维打击”带来了空前压力。
02 .
“大一统”的多模态底层架构
用一个模型生成复杂任务
在前沿架构研究上,清华团队拿到先手棋。
但OpenAI是更擅长操盘全局的下棋高手,无论是顶尖的研发实力,还是堪称教科书级的发布与营销节奏把控,都令一众AI团队甘拜下风。
背靠微软的雄厚资源,从发布ChatGPT到解决夺权事变,OpenAI一步步将其从高管到研发人员都捧成了AI领域的明星人物。
国内企业们迸发出积极的学习热情,有的急追猛赶搞研发、推产品,有的学会讲故事、造话题。
生数科技似乎没那么有“功利心”。在与唐家渝的交流中,他没有将生数标榜为“中国版Sora”的有力竞争者,而是将更高的优先级放在技术与研究突破上,视频生成固然要追,但3D生成、图像生成同样是生数的看家本领。
多个图生3D模型快速拼装搭建的3D场景
短视频生成案例
OpenAI推出了很多采用不同功能的模型,比如GPT-4(文-文)、DALL·E 3(文-图)、GPT-4V(文和图-文)等。
生数科技走的是原生多模态大模型技术路线,用同一个U-ViT底层架构一以贯之,实现一个通用模型来实现图像、3D、视频等多类复杂生成任务。
在 3D生成方向,生数科技成立3个月时就公开“叫板”业界顶级模型OpenAI Shap-E、谷歌DreamFusion、英伟达Magic3D,称在几何结构精度、纹理细节、分辨率等方面的3D生成效果“大幅领先”,接近产业级应用。如今其已能实现最快10秒级生成3D模型,支持文生3D、图生3D,并在国际首发基于骨骼动画的4D动画生成框架。
4D动画生成框架AnimatableDreamer直接将2D视频素材一键转成动态立体模型(论文地址:https://arxiv.org/pdf/2312.03795.pdf)
在视频生成方向,生数初步具备4~5秒短视频生成能力,可根据给定文本描述实现视频画面元素自动变换,比如改变物体颜色、人物着装、面容妆发、环境季节、视频风格等,做到可控编辑。
在文生图方向,图文模型从最早开源版的1B不断扩展至3B、7B、10B及以上,去年6月发布时超过Stable Diffusion最新版基础模型水平,在构图、风格、画面精准度等方面能够更好地把握用户意图。
当前生数科技的商业化路径是布局MaaS(模型即服务)与应用级产品,同时发力To B和To C,既以API形式向B端机构直接提供模型能力,又打造垂类应用产品,以订阅等形式收费。
这家成立刚满一年的年轻创业公司,已经与多家游戏公司、个人终端厂商、互联网平台、VR企业等B端机构开展合作。
2023年9月,生数科技正式上线两大应用产品视觉创意设计平台PixWeaver、3D资产创建工具VoxCraft。
PixWeaver AI绘画页面
PixWeaver地址:https://pw.shengshu-ai.com/
VoxCraft地址: https://voxcraft.ai/
图像生成、3D生成功能均可体验。 视频生成功能短暂开放后暂时关闭了,等技术升级和优化后重新开放。
03 .
半年训练速度提升40倍
今年能追齐Sora水平
唐家渝坦言,就结果而言,现有其他视频生成模型跟Sora相比“差得还挺远”。
在他看来,现阶段国内团队追赶Sora要比去年追赶GPT-4更容易,因为尚未形成明显的先发或垄断优势。他相信追齐Sora目前版本的水准,所需时间不会太长,今年肯定能达到,不过很难精确预估要用一两个月还是半年时间。
唐家渝这么说,是有充分的底气的。
多模态大模型不像大语言模型需要那么高的参数量,但成本仍是问题,需要在算法层面做很多工作来把成本打下来,因此对底层研发能力要求很高。他预计AI视频生成赛道将收敛到几家企业。
生数科技不仅对底层架构熟知,而且已经走过很多训练、调优的坑,积累了完整高效的算法和工程化经验,包括在大规模GPU集群上实现高效兼容、低成本的模型训练。
在训练图像生成模型上,其团队半年将训练速度提升了40倍。
算力方面,资源是主要限制因素。Sora验证了长视频生成这条路走得通,消除了在这个方向砸资源的疑虑。如果一开始就从头来做像Sora这样的事,可能要投入上万张A100、A800卡。现在通过优化AI Infra,用到的算力资源和成本少了很多。
数据方面,生数科技搭建了一套完整的自动化数据管理及使用体系。其多模态大模型的训练数据主要来自大量的互联网公开数据和合作伙伴提供的私有数据。
人才方面,目前生数科技团队规模逾70人,近90%为研发人员,硕士研究生占比超过50%。生数科技核心创始团队来自的清华大学人工智能研究院,从事贝叶斯机器学习的基础理论和高效算法研究逾20年,在国内最早开展扩散概率模型基础研究且发表论文最多,在ICML、ICLR等AI顶会发表近30篇相关论文。
他们产出了免训练推理框架Analytic-DPM、世界最快采样算法DPM-Solver、多模态大模型UniDiffuser、3D生成算法ProlificDreamer、可控视频编辑算法ControlVideo等国际领先的代表性工作。其中Analytic-DPM论文是ICLR会议首篇由中国大陆单位独立完成的获奖论文。
今年1月,国际人工智能促进协会(AAAI)公布了2024 AAAI Fellow名单。已经身兼清华大学计算机系Bosch AI冠名教授、计算机系人智实验室主任、IEEE Fellow多个头衔的朱军教授因对机器学习理论和实践的重大贡献而入选。
由朱军教授在校培养的多位学生,已成为生成式AI领域顶尖的科研力量,比如扩散模型领域的知名研究者宋飏、宋佳铭,还有ChatGPT两位华人研究者翁家翌、赵盛佳等等。
04 .
结语: AI视频生成竞赛,序幕才刚刚拉开
在AI视频生成模型赛道,中美顶尖技术的研发差距客观存在,国内团队还需持续打怪升级。
但国内团队也并非从零起步。比美国更早提出扩散Transformer融合架构的生数科技,正在迎头追齐Sora,近期将重点攻关长视频生成能力,包括更好地实现不同分镜、针对物理世界的初步理解、视频编解码、长视频的连贯性等方向。
其他当前已公开的AI文生视频模型及产品中,爱诗科技PixVerse上线88天视频生成量达到1000万里程碑,潞晨科技开源的Sora复现方案将成本降低46%……还有许多国内团队正在探索可生成视频的多模态大模型方向。