AI 逆向绘画：一键重绘梵高《罗纳河上的星夜》，来自华盛顿大学

梵高名作也能被 AI 逆向破解了？！

直接喂一张原图，AI 就能化身梵高・本高一点点重绘整张图画（原图可任意）。

仔细对照两边，AI 几乎实现了 1:1 复刻，还为我们这些绘画小白清晰展示了整幅图的构建过程。

这项魔法来自华盛顿大学，项目名为 Inverse Painting，相关论文已入选 SIGGRAPH Asia 2024，其中两位作者还是东北大学（Bowei Chen ）和上海科技大学（Yifan Wang）的校友。

项目一经发布后即在 Reddit 引起热议，最高赞更是为艺术家群体操起了心（doge）。

不过也有人表示，这对于人们学习如何绘画非常有帮助。

甚至可以用来“破解”一些大师遗作，提取隐藏或失传的技术。

基于扩散模型

从原图 → 绘画过程延时视频，Inverse Painting 采用基于扩散的逆绘画方法。

进一步拆解，这一过程主要包括以下步骤：

这些步骤整体可归为两阶段训练 + 测试，如下所示：

第一阶段：指令生成（Instruction Generation）

这个阶段主要生成两个关键指令集，文本指令生成器（Text Instruction Generator）和区域掩码生成器（Mask Instruction Generator）。

前者通过比较目标画作和当前画布的状态，生成一个简短的文本指令，比如“画天空”或“加花朵”，以此决定下一步应该添加哪些元素。

后者是一个二进制图像，指明了画布上应该更新哪些部分。

两者一结合，确保模型只在画布上合适的区域进行绘制。

第二阶段：画布渲染（Canvas Rendering）

接下来使用第一阶段生成的指令来更新画布。

利用文本指令和区域掩码，以及当前画布的图像和目标画作，一个基于扩散的渲染器被用来更新画布。

这个渲染器采用了一种叫做“去噪扩散概率模型”的技术，它逐步从噪声图像中去除噪音，以生成连续的图像帧。

总之，渲染器在更新画布时会考虑多种条件信号，包括文本指令、区域掩码、时间间隔，以及目标画作和当前画作的特征。

这些条件信号帮助渲染器更准确地模拟人类艺术家的绘画风格和过程。

测试（Test-Time Generation）

在测试阶段，模型使用训练好的管道从头开始生成一幅画作。

这里主要有两个关键：

最终，与三个基线方法（Timecraft、Paint Transformer、Stable Video Diffusion）相比，其生成结果明显更优。

同时，相关变体也取得了 SOTA 结果。

其中两位作者为华人

简单介绍下项目作者，一共 5 位，其中两位是华人。

Bowei Chen （陈柏维），本科就读于国内东北大学软件工程专业（2016 年入学），后分别在卡内基梅隆大学机器人研究所和华盛顿大学攻读硕博。

研究兴趣为计算机视觉和图形学的交叉点，重点是图像和视频生成。

Yifan Wang，本科就读于上海科技大学计算机专业，今年刚获得华盛顿大学 CS 博士学位。

个人主页显示了多段工作经历（含字节、谷歌、Adobe 等），目前是 Meta Reality Labs Research 的一名研究科学家。

实际上，这个团队进行的 AI 逆向绘画之前也有，网友们还提到了 Paints Undo 这个项目。

当时主要应用于动漫领域，短短 3 个月已在 GitHub 揽星 3.3K。

对于这事儿，人们一直褒贬不一，最大争议在于人们担心有人会利用 AI 谎称作者。

毕竟通过讲解艺术思路是作者证明作品原创性的手段之一。

甚至对于它能教人们学绘画这事儿，也有网友以自身经历出来反驳：

所以，有了解绘画的童鞋来说说看吗？

参考链接：

本文来自微信公众号：量子位（ID：QbitAI），作者：一水，原标题《AI 逆向绘画火了！一键重绘梵高《星空》，来自华盛顿大学》

正文

AI 逆向绘画：一键重绘梵高《罗纳河上的星夜》，来自华盛顿大学

基于扩散模型

第一阶段：指令生成（Instruction Generation）

第二阶段：画布渲染（Canvas Rendering）

测试（Test-Time Generation）

其中两位作者为华人

相关阅读

雷军喊话欢迎大家投递简历：小米南京区域总部招募人才

大模型六小龙第一起分拆：消息称零一万物计划独立 AI 游戏公司“绿洲”

Niantic 宣布将根据《宝可梦 Go》玩家数据构建“大型地理空间模型”

月之暗面 Kimi 创始人杨植麟称 AI 人才回流大厂是行业规律，已主动做业务减法

目录[+]