“欢迎来到Gemini时代。”在谷歌人工智能实验室DeepMind官网,谷歌向世界宣布了大模型野心。
谷歌DeepMind在其官网宣布,欢迎来到Gemini时代
当地时间12月6日,谷歌CEO桑德尔·皮查伊(Sundar Pichai)和DeepMind CEO德米斯·哈萨比斯(Demis Hassabis)在谷歌联合发文,推出最新的多模态预训练大模型Gemini1.0。
谷歌将Gemini形容为其“功能最强大、最通用”的人工智能模型。谷歌披露的数据显示,Gemini Ultra在文本、编码、多模态等多项基准测试中超越了OpenAI的GPT-4。
同时,Gemini快速在谷歌产品端进行了应用。谷歌宣布,对话式AI工具Bard将使用 Gemini Pro 的微调版本来进行更高级的推理、计划、理解等。此外,谷歌还将Gemini引入智能手机Pixel,Pixel 8 Pro 是第一款运行 Gemini Nano 的智能手机,它支持录音机应用中的摘要新功能,明年还会推出更多消息应用。
但Gemini发布仅一天,其实际表现就遭到了诸多质疑。宾夕法尼亚大学沃顿商学院教授伊桑·莫里克(Ethan Mollick)在社交媒体表示,输入同样的指令后,GPT-4给出的回复与Gemini类似。而Gemini流畅的演示视频也经过剪辑。谷歌演示视频下标注:“为了演示的目的,为了简洁起见,延迟被减少了,Gemini的输出也被缩短了。”
谷歌的一位发言人回应媒体称,演示视频通过“使用镜头中的静止图像帧,并通过文字提示”制作。专栏作家帕米·奥尔森(Parmy Olson)指出,这与谷歌似乎暗示的完全不同:一个人可以在Gemini观察并实时回应周围世界的同时,与它进行流畅的语音对话。
部分网友试用了已搭载了Gemini Pro的对话式AI工具Bard,得到的回答并没有视频中展示的强大。例如,Bard在回答第95届奥斯卡金像奖最佳男主角是谁的问题时,表示最佳男主角是布莱丹·格里森 (Brendan Gleeson),而不是正确答案布兰登·弗雷泽(Brendan Fraser)。
“视频里看到的效果非常惊艳。”华泰证券科技与电子首席分析师黄乐平对财经E法评论,但目前除了谷歌自己,没有人真正用过Gemini Ultra的服务。从技术趋势角度,Gemini展示了包括文本、代码、音频、图像和视频这些模态的原生多模态模型是未来的趋势,能够把大模型性能推到一个新的高度。GPT-5可能也是这一技术路线。
在OpenAI发布ChatGPT一周年后,谷歌携带Gemini回归,重新搅动着硝烟弥漫的大模型战场。未来大模型赛道将呈现怎样的竞争格局?谜底仍待揭晓。
一、号称多项数据超越GPT-4
谷歌将Gemini Ultra与GPT-4进行了对比。其披露的数据显示,Gemini在32个多模态基准测试中取得了30个SOTA(State Of The Art,即当前最优效果)的记录,超越了目前最先进的GPT-4。在结合了数学、物理、历史、法律等 57 个科目的MMLU测试上,Gemini Ultra得分高达90.0%,而人类专家的成绩为89.8%,GPT-4为86.4%。Gemini Ultra的得分意味着它是第一个在MMLU上超越人类专家的模型。Gemini Ultra 还在MMMU基准测试中取得了 59.4% 的分数,该基准测试由不同领域、需要深度思考、推理的多模态任务组成。
Gemini Ultra在30个多模态基准测试中取得了SOTA(State Of The Art,即当前最优效果)的记录,超越了目前最先进的GPT-4。
谷歌表示,Gemini的设计为原生多模态,并使用额外的多模态数据进行微调,以进一步完善其有效性,这使得 Gemini 可以无缝理解、操作和组合不同类型的信息,远远优于现有的多模态模型。
目前,Gemini已被谷歌在产品端应用。Bard将使用 Gemini Pro 的微调版本来进行更高级的推理、计划、理解等。升级后的Bard将在 170 多个国家和地区提供英语版本,谷歌计划在不久之后扩展到不同的模式并支持新的语言和地点。
在Google Pixel 8 Pro上,除了录音机应用中摘要功能,Gemini Nano将在谷歌键盘Gboard的智能回复功能中应用。前者可以生成录音摘要,方便用户快速浏览录音内容。后者则可以根据用户的输入内容,自动生成高质量的回复建议。谷歌表示,未来将有更多应用程序支持这一功能,为用户带来更多便利。
未来几个月中,Gemini 将出现在谷歌更多的产品和服务中,例如搜索、广告、Chrome 和 Duet AI。
但谷歌的雄心不止于此。哈萨比斯在接受《连线》杂志(Wired)采访时表示,谷歌DeepMind已经在研究如何将 Gemini与机器人技术结合起来,与世界进行物理交互。新的多模态模型将成为智能体、规划和推理、游戏甚至物理机器人快速创新的基础。
值得注意的是,Gemini是在谷歌自研的云芯片Tensor Processing Units(TPU)v4 和 v5e上完成训练的。谷歌表示,在 TPU 上,Gemini 的运行速度明显快于早期规模较小且能力较弱的模型。谷歌同时宣布推出旗下迄今为止最强大、最高效且可扩展的 TPU 系统Cloud TPU v5p,该型号TPU专为训练尖端 AI 模型而设计。
谷歌此前在大模型领域也经历过起伏。
当地时间2月8日,谷歌在法国巴黎举行的新闻发布会上正式披露聊天机器人产品Bard。在进行演示时出现了一个事实性的错误,Bard在回答“詹姆斯·韦伯空间望远镜的新发现”这个问题时,错误地把另一个望远镜取得的成就安给了前者。随后,2月8日,连续多日涨幅的谷歌股价大跌7.4%,市值一夜蒸发约1056亿美元(约合7172.78亿元人民币),为近三个月以来的最大跌幅。
二、开源还是闭源,只是竞争策略
在ChatGPT推出一周年后,OpenAI经历了戏剧性的董事会“宫变”,CEO山姆·奥特曼(Sam Altman)一度被迫出局,在投资人施压和员工集体辞职的威胁下才得以回归。公开信息显示,部分企业开始意识到与单一的大模型企业合作的风险,开始寻求大模型领域的替代方案。谷歌的姗姗来迟能否撼动行业格局?
谷歌宣布,从 12 月 13 日开始,开发者和企业客户可以通过 Google AI Studio 或Google Cloud Vertex AI中的 Gemini API 访问 Gemini Pro。而对于最为先进的Gemini Ultra,谷歌正对其进行广泛的信任和安全检查,目前仅向选定的客户、开发人员、合作伙伴以及安全和责任专家提供 Gemini Ultra 进行早期实验和反馈,预计在明年初向开发人员和企业客户推出。
Meta于今年7月发布了免费可商用版本Llama 2, 这也是大型科技公司首个开源的商用大模型,为初创企业和其他企业提供OpenAI和谷歌的替代方案。据美国媒体报道,Meta正在开发一种更加强大的大语言模型,比当前的Llama2强大数倍,甚至比肩OpenAI最强大的GPT-4。
为什么谷歌在没有上线Ultra版本的情况下,在12月接近美国圣诞假期的这个时候,要上线一个不完整的Gemini?黄乐平表示,一个可能的原因是竞争压力。海外大模型竞争格局明朗,微软与OpenAI、谷歌在闭源模型上遥遥领先,Meta凭借LlaMa-2在开源模型上独树一帜。
黄乐平认为,谷歌技术积累深厚,但商业化一直比较慢。谷歌年初合并了自己的两个研发团队DeepMind和Google Brain,这次Gemini算是交了一个初步的答卷。后续还需要看Ultra实际效果,以及谷歌在商业落地上的进展。目前微软Copilot发展十分迅速,谷歌在手机硬件、搜索上的优势似乎一直没能转化成AI落地上的优势。
艾媒咨询CEO兼首席分析师张毅认为,全世界最适合做生成式AI的企业就是谷歌,基于多年搜索引擎的基础,谷歌已经在底层对全球的网页信息和学术信息进行了深度整理。大模型会基于数据进行训练,从这个角度而言,谷歌Gemini碾压GPT-4实属正常,只不过谷歌并没有在早期领先。但从商业角度而言,OpenAI有先发优势,其商业模式探索、渠道构建、运营和实践都走在了前面。可以预见,未来大模型赛道还会有比较长的竞争。
黄乐平分析,未来的一种可能性是,大模型行业从目前微软+OpenAI遥遥领先,变成微软,谷歌,亚马逊+Anthropic AI群雄逐鹿的情况。谷歌AI技术和人才储备丰厚,当前最主要的LLM基础架构Transformer、TensorFlow框架都由谷歌推出。谷歌拥有包括搜索引擎、地图、邮箱、办公套件等在内的丰富产品生态,但产品化一直落后OpenAI。谷歌今年以来在大模型上一直落后于微软和OpenAI,这次Gemini如果能够被用户接受,可能会改变现在微软一家独大的情况。
开源模式的大模型探索也在继续推进。
近期,Meta与IBM发起了一个由50多家AI公司和研究机构组成的联盟,推AI开放模式。该AI联盟的成员包括英特尔(Intel)、甲骨文(Oracle)、康奈尔大学(Cornell University)和美国国家科学基金会(National Science Foundation),联盟表示正在整合资源,支持AI领域的“开放式创新和开放式科学”,该联盟的成员基本支持开源。IBM高级副总裁兼IBM Research负责人Dario Gil表示,IBM自8月份以来一直与Meta合作,将那些没有像OpenAI那样受到关注的组织聚集在一起。
未来,大模型开源是否会是发展趋势?美国亚太法学研究院执行长、暨南大学特聘教授孙远钊认为,大模型领域高门槛,所需的硬件设备与场地相对稀缺,市场注定会发展成寡占的局面。“参考硅谷过去七、八十年的发展历史,从芯片到个人电脑到手机、再到网络平台,最终几乎注定会发展成为某种寡占的状态。”孙远钊说。
黄乐平则分析,开源只是一个竞争策略,OpenAI刚成立的几年,也采取开源策略,例如GPT-1,GPT-2都是开源的。直到OpenAI发现能追赶上谷歌后,GPT就闭源了。在黄乐平看来,目前Meta和谷歌、微软以及OpenAI对比仍处于劣势,所以通过开源一个好的模型,来吸引开发者。过去半年LlaMa2开源,这也取得了成效。
“未来,开源和闭源还是取决于各家的行业地位,有可能会长期共存。”黄乐平说。