
GPT-5的发布反复推迟,部分人怀疑不会再有GPT-5,但有没有一种可能是:GPT-5早已在OpenAI运行起来,被蒸馏成小模型来获取更大收益。
1月17日,AI专栏作家Alberto Romero在The Algorithmic Bridge发表了一篇引人深思的文章,他通过一系列推理分析提出一个令人震惊的猜测:
Romero认为,通过将GPT-5作为内部资源使用,OpenAI可以获得比直接向公众发布更大的投资回报。这种回报不仅仅是金钱,还包括技术进步和竞争优势。
Romero强调,这只是他基于公开信息的推测,并没有内部消息来源,但他认为这个假说能够很好地解释OpenAI近期的一些行为和策略。
无论最终是否证实,这种推测都为我们提供了一个有趣的视角,去审视AI巨头们的竞争策略。
Claude Opus 3.5的神秘消失
Romero首先从Anthropic公司的Claude Opus 3.5模型的“神秘消失”开始谈起:
通过梳理各方信息,Romero推测Anthropic确实完成了Opus 3.5的训练,但由于性能提升不及预期,决定不予公开发布。相反,他们将Opus 3.5用于内部生成合成数据,以显著提升Sonnet 3.5的性能。
更小、更便宜、却更强大?
AI实验室通常是使用一种被称为“蒸馏”(distillation)的方法,即使用强大、昂贵的模型生成数据来提升略弱但更便宜的模型性能。Romero认为这不仅解决了性能问题,还能控制推理成本,是一种明智之举。
Romero举例称,作为“教师”的强大模型将“学生”模型从 [小、便宜、快速]+ 弱变成 [小、便宜、快速]+ 强大。蒸馏技术将强大模型变成产生黄金的金矿。
这样做对于Opus 3.5/Sonnet 3.6模型来说:
通过蒸馏技术,Anthropic的中端模型Sonnet 3.6竟然在性能上超越了OpenAI的旗舰模型GPT-4o。这打破了“更大就更好”的传统观念。
Romero引用了EpochAI研究员Ege Erdil的估算,认为目前顶级AI模型的参数规模可能比GPT-4小一个数量级,但性能却更优。这表明OpenAI和Anthropic似乎都在追求更小、更便宜但更强大的模型。
同样的,Romero认为,促使Anthropic采取这种策略的因素对OpenAI也适用。他指出,所有主要AI实验室最近都报告了训练结果不如预期的情况。同时,生成式AI的爆炸式增长也给这些公司带来了巨大的推理成本压力。
这些共同的挑战促使AI公司寻求类似的解决方案。Romero推测,OpenAI很可能也在通过蒸馏等技术,用更大的内部模型来提升公开发布的较小模型的性能。
蒸馏技术“一箭双雕”
彭博社曾报道,只有考虑成本才能判断性能指标好坏。Ege Erdil解释:
即使是微软、谷歌和亚马逊也无法为这种推理成本找到合理理由,那么他们是如何解决这个问题的?很简单:只有当他们计划向公众提供数万亿参数的模型时,他们才需要释放大量经济价值,所以他们选择不放出那些模型。
蒸馏能将两大难题变成优势,通过提供更小模型解决推理成本问题,同时避免因不发布大模型而被公众苛责,这促使Anthropic将Sonnet 3.6从Opus 3.5蒸馏的原因。
Ege Erdil总结,GPT-4o和Claude 3.5 Sonnet很可能都是从大模型蒸馏出来的。目前证据表明OpenAI正以同样方式出于同样原因做Anthropic对Opus 3.5的事。但Opus 3.5仍隐藏,OpenAI的类似模型在哪?
未来强大的模型可能仅存在于背后
OpenAI的其他考量,除了性能和成本因素,Romero还探讨了OpenAI可能选择不公开GPT-5的其他原因。他提到了OpenAI与微软的合作协议中关于AGI(通用人工智能)的条款,以及两家公司对AGI的秘密定义。
Romero认为:
如果Romero的猜想属实,那将对AI行业产生深远影响。他认为,未来OpenAI可能会继续训练新的基础模型,但不一定会将它们作为产品发布。相反,这些模型可能在幕后运作,为其他模型提供能力。
OpenAI永远不会发布GPT-5 也是有可能的,训练新的基础模型 ——GPT-5、GPT-6 及以后的模型 —— 对 OpenAI 内部来说永远有意义,但不一定作为产品。
现在对他们来说唯一重要的目标是继续为下一代模型生成更好的数据。从现在开始,基础模型可能在后台运行,让其他模型能够完成它们自己无法完成的壮举——就像一个老隐士从秘密山洞中传递智慧,只是这个山洞是一个巨大的数据中心。而无论我们能否见到他,我们都将经历他的智慧带来的后果。
Romero指出,这种策略可能会让OpenAI在技术上越拉越远。就像宇宙膨胀使远处的星系光芒无法到达地球一样。他认为。这可能解释了OpenAI如何在短短三个月内从o1跳到o3的,以及他们将如何跳到o4和o5,他们可能已经实施了一种新的改进后的运作模式。
结语
Romero的分析虽然只是推测,但为我们提供了一个全新的视角来看待AI巨头的竞争策略。如果他的猜想成立,那么未来AI技术的进步可能会越来越不透明,真正的突破可能发生在公众视线之外。