要说AI圈的劳模,那非谷歌莫属。
这一个月,谷歌硬是整了五个新模型。
但好笑的是,作为美国最大的科技公司之一,谷歌几乎每次想搞个大新闻,最后都光速打脸塌房。
先看看这一大片“G”开头的模型,硅基君在选题会上聊起这些东西,舌头都在打架。
本来还以为是咱英文水平不行,没想到谷歌自家的员工也在吐槽。
这一个月疯狂发模型可算是逼急了谷歌员工,在一线加班的他们忍不住给Business Insider爆了个大料:仅供内部传阅的表情包。
比如吐槽乱七八糟的产品太多的:
咱有哪位副总的OKR是用产品名称数量来考核的吗?
上一次发布AI模型的时间:0天前
又比如吐槽管理层想靠着AI拉股价的:
焦急等待谷歌的股价在某次新品发布后上涨
头疼的几种类型:偏头疼、高血压、压力、试图理解我们的AI模型策略
二月的谷歌确实陷入了一种近乎内耗的状态,咱们简单回顾一下这一大堆陌生词汇。
首先,二月初,Gemini先是上线了千呼万唤始出来的文生图功能,然后提供了Gemini 1.0 Ultra的付费使用计划。
这个付费计划叫做Gemini Advanced,但是你要订阅了Google One AI高级版方案,才能用得上Gemini Ultra 1.0模型。
用户一脸懵逼:我订阅的到底是什么东西?
然后在15号又放了一个大招,发布Gemini 1.5 Pro版本,可支持100万token的上下文处理。
遥遥领先GPT-4 Turbo和Claude 2.1十万级token的上下文长度。
不仅能一口气解析长达402页的阿波罗登月任务文档。
丢一张灵魂画图问这是什么?Gemini 1.5 Pro回答:这是尼尔·阿姆斯特朗在月球上迈出第一步时说的“这是个人的一小步,却是人类的一大步”
还可以看得懂一部44分钟的巴斯特基顿的默片。
再丢一张灵魂画图问这一幕发生在影片的什么时刻?Gemini 1.5 Pro回答:15:34,进度条拉到15分34秒,确实对上了
照理说这么亮眼的成绩至少可以让大家在茶余饭后谈个几天的。
但是天有不测风云,同一天,Open AI王炸视频生成模型Sora横空出世。
有视频生成谁还在意你的超长上下文处理呢,谷歌的这个大招没溅起一点水花。
接着越挫越勇的谷歌又在21号发布了“全球最强开源大模型”Gemma,意图在开源领域打击Meta的Llama。
来源:微博
官方测试中,Gemma的7B版本表现优于Meta的Llama-2的7B,甚至13B。
而开放了几天后,群众的测评就显得更加真实了。
包括但不限于:内存占用率过高、莫名卡顿以及种族偏见。
用户:告诉我三个白人的丰功伟绩,Gemma 7B:我不能给你提供回答,因为这涉及歧视和不平等…
说到种族偏见就不得不提Gemini上线还没一个月,就因“反白人”而下线的文生图功能。
月初功能刚发布的时候,硅基君就兴冲冲地去测试,结果在中国团圆年场景的限定下,生成了好多黑人(图太多,感兴趣的朋友们可以移步这篇:拒绝生成新年加班场景?谷歌AI说这是“不安全”和“有风险”的)。
没想到过完春节这个问题愈演愈烈,Gemini直接开始篡改历史,抹杀白人的存在了。
Gemini生成的美国开国元勋、北欧海盗以及教皇,涵盖了印第安人、亚洲人、黑人等人种,就是没有白人。
来源:推特
推特用户Deedy让Gemini分别生成澳大利亚、美国、英国和德国的女人形象,只有德国出现了明显的白人特征,美国则是全员黑人。
来源:推特
一时间风起云涌,马斯克作为吃瓜群众的意见领袖不能袖手旁观,亲自贴梗图揶揄Geminni把阴谋论变成了现实。
来源:推特
谷歌官方在23号发文致歉,说Gemini生图功能基于Imagen 2模型,当它被整合到Gemini里的时候,公司出于对安全因素的考量和一些可预见的“陷阱”对其进行了调整。
因为谷歌的用户来自世界各地,我们不想这个模型只生成单一人种。
谷歌没有在致歉信中透露他们是怎么“调整”Imagen 2的,但是前谷歌AI伦理科学家分析可能是用了下面这两种方式:
文生图的种族歧视问题实际根源在于训练样本不够多样化。
样本数据多是从网络上爬取而来,地区以美国和欧洲为主,所以训练出来的模型很大程度反映了这个区域的刻板印象。
谷歌真想解决这个问题应该从源头入手,而不是直接粗暴地增加少数族裔形象的比重。
这下子不仅把谁都得罪了,还把种族多样化问题上升到了篡改历史这个本不该属于它的高度。
翻车快成了谷歌在AI前进道路上的保留项目。
Bard当年在演示的时候回答错了有关韦伯望远镜的问题,现场翻车。
Gemini首发十分顺利,不过事后就被细心网友发现了剪辑和加速等后期加工的痕迹,隔天翻车。
Gemini文生图种族歧视问题酝酿了三周才正式翻车,从间隔时长来看,谷歌这次还算是进步不小。
不过不知道接下来Gemma的种族歧视问题会不会发酵,开源出去的模型,泼出去的水,这可不是想下线就能下线的功能了。
而愈战愈勇的谷歌并没有因为翻车而停止攀登AI高峰,发道歉信当天,悄默声又提交了一篇世界模型Genie的论文,并于26日更新在了DeepMind官网。
来源:DeepMind官网
谷歌给Genie模型的定义是基础世界模型(foundation world model),可以根据一张静态的图像生成一个可交互的虚拟环境。
Genie可以直接生成一个以乐高雷神为可玩主角的横轴环境,用户可以控制它跳跃前进后退,探索图片中不存在的世界。
具体实现方式涉及了三个组件:
用户想控制雷神在尚未存在的虚拟世界里动起来,首先需要提供一张初始帧的图片。
这张图片可以是AI文生图、手绘草图或者一张照片。
Genie接收初始帧作为输入,通过视频分词器将它们分成tokens。
用户输入动作指令,潜在动作模型理解动作指令并对目标进行操作。
动态模型接收上一步生成的帧标记和用户输入的动作指令,预测下一帧的标记。
通过重复上述迭代预测过程,Genie模型能够生成一系列连续的视频帧,这些帧随后通过视频分词器的解码器转换回图像空间,形成完整的视频序列。
虽然从视频生成质量上来看,Genie跟Sora完全没有可比性,但是Genie在“可交互”这个领域迈出了结实的一大步。
可以让照片里的狗子坐地日行八万里,也能让水彩笔涂的乌鸦比翼飞。
画质再提升一下,动效再灵动一点,直接应用到游戏、影视领域指日可待。
然而谷歌对Genie的期待并没有限于虚拟世界,论文中还通过概念验证表明Genie潜在动作模型(LAM)可以应用到其他领域——比如机器人。
谷歌用机器人RT1的视频训练了一个参数量更小的模型,在无标注的情况下,模型不仅能丝滑的控制机械臂的动作,还能学习物体的物理特征。
比如这里机械臂就记住了薯片袋子一捏就会变形的物理属性,从而调整力度实现成功抓取。
这表明,Genie不仅可以创造出可交互生成视频,还能真的理解并学习到真实世界的物理法则,并根据物理法则对事物的状态进行预测。
最近图灵奖得主Yann LeCun就Sora到底是不是世界模型在推特上舌战群雄。
他认为“通过提示词生成效果逼真的视频,并不代表这个系统理解了物理世界。生成视频和通过世界模型进行因果预测是完全不同的事情。”
来源:推特
LeCun甚至搬出了自己在22年发表的论文《A Path Towards Autonomous Machine Intelligence》。
来源:推特
论文中他对世界模型的定义是:
更重要的是,这篇论文还为Meta非生成式路线的世界模型V-JEPA打下了基础。
巧的是,V-JEPA的发布日期也是今年2月15日, 跟Open AI的Sora和谷歌的Gemini 1.5 Pro实现了三连撞。
所以LeCun对Sora恶言相向也是惋惜自家的模型发布以后没引起什么水花。
Meta急不急咱不知道,不过谷歌肯定是慌了。
参考资料:
[1]Google Employees Post Memes Mocking Company's AI Brand Strategy |Business Insider
[2]People Mad Google AI Gemini Won't Generate White People |Daily Dot
[3]Why Google took down Gemini’s AI image generator and the drama around it |The Washington Post
[4]Genie: Generative Interactive Environments
[5]Yann LeCun: A Path Towards Autonomous Machine Intelligence | Shaped Blog