今天凌晨,OpenAI 毫无预告地发布了业内期待已久的新模型。
此前,大家从 CEO 奥特曼的推文中猜测这个模型会叫 “ 草莓 ”。
而在实际发布的时候,这个模型的名字叫 OpenAI o1。
奥特曼对这个模型的评价是:他们迄今为止最强、最一致的模型。
在官方给出的一组数据图中,我们能很明显地看到,o1 模型在国际数学奥林匹克竞赛、编程竞赛以及博士级别的科学问题上有很大提高。
图中最左侧为 GPT-4o,中间是目前已经开放了的预览版 o1,最右边高高的红色柱子为满血版 o1。我们可以看到,基本每一项,o1 比起自己的前辈来说,都是接近 8 倍的提升。
如果把这些测试结果拆开来,新 o1 也几乎是在各种学科、各种领域都全量、全面、全方位地超越 4o 版本。
而最可怕的是:OpenAI 说自己专门请了博士专家一起答题,结果在博士级别的测试结果上,发现 o1 答题分数均超过了博士专家,o1 得分 78,人类得分 69.7。
所以,人类一败涂地了?
为了能大概了解 o1 模型( 预览版 )的真实能力到底几何,知危编辑部邀请了三位知名院校博士来向 o1 模型提问,并请他们对 o1 的回答进行打分。( 订阅 ChatGPT Plus 会员每周有 30 次向 o1 预览版模型提问的机会 )
为了保证多样性和客观性,我们邀请的博士分别涉猎生物学、物理学、材料化学。
其中,南京大学在读物理学博士崔博士对 o1 模型的评价是最高的,他认为 o1 已经达到了 60~80 分( 满分 100 分)的水平。
甚至在某些问题上,他认为回答可以给到 90 分。
崔博士的研究方向是量子光学,所以他给出的第一个问题是:远距离纠缠光子分发,有什么克服白噪声的办法?
思考 9 秒后,o1 就给出了 10 点可行的措施。
崔博士对回答的评价为:“ 答案列举得全面,符合现有最新研究进展,对知识储备不足的人可能提供调研方向,但是可能对高级别专业人员没有提供真正有用的信息,属于科普级别的答案。”
评分方面,崔博士认为 o1 的这次回答可以打 80 分,他指出,o1 回答中提到的自适应光学的方向是今年最新的 Science 成果,回答是具有先进性的。
随后,崔博士追问了“ 是否可以扩展到量子自适应光学?”这一问题,o1 思考 19 秒后给出了作答。
崔博士对这个回答的评价是:“ 可以给到 90 分,这个回答对我也很有提示性,虽然不具体,但对我们来说,只需要指个可能的方向,剩下的我们自己来调研思考。”
崔博士指出,“ 他的回答有很多是我的知识薄弱区了,有的概念我也只是简单理解,但他说的我认为都是有道理的,所以我认为还是可以的。”
相比之下,对于老版本模型相同问题的作答,崔博士的评价是不及格或是 60 分。
不过,在关于涉及实验细节的 “ 基于非线性相互作用产生的高纯度解关联单光子的自关联函数,分别在连续泵浦和脉冲泵浦的情况下,如何测量?” 这一问题上,崔博士认为 o1 的回答中规中矩,只能给 75 分。
总的来讲,崔博士认为,在物理方面,o1 的表现算是不错的,和老版比下来提升基本在 20 分左右。
下面,我们来看看北京大学在读材料化学的 K 博士对 o1 模型的评价。
K 博士围绕 Fe-N4 材料问了一系列的问题,o1 给了很长的一串回答,为了精简篇幅,我们这里只展示了部分问题和结果。
整体测试之后,K 博士给出的评价也差不多:可能有研究生水平,但是深入的认知和给方案的能力比较弱,主要还是针对已知内容作答。
比如问到如何调节 Fe-N4,o1 可以说出基于电子态调节,但你要是问它那该如何调节,它就有点卡壳了。虽然相比 4o 模型没那么胡说八道,但具体的问题上他俩都给不了太多建议,老版本 4o 是丧失细节乱说,新版本 o1 则是能力有限就会词穷。
下面,我们再看看清华大学在读生物学的信博士的评价,他的提问是:“ 如何从质谱数据集中区分赖氨酸残基的乳酰化和羧乙基修饰?”
o1 也给了一段非常长的回答,有些像综述,后面还贴了参考文献。
但出乎意料的是,当我们把这个回答交给信博士时,他看完就发现有些不对劲儿。
倒不是 AI 回答得全错,而是AI 在参考文献里乱编,这论文压根不存在!
不过,总体来,信博士还是觉得比之前的 AI 强了不少,起码理解能力是肉眼可见地增长了,编的时候也编得很像。
实际上,这个测试的结果并不出乎知危编辑部的预料,因为根据官方给出的数据来看,o1 在物理上的分数达到了 92.8,已经远超其他两门学科,这或许就是崔博士对它比较看好的原因。
综合来讲,真要说到超越专业博士水平,三位博士们认为还得缓缓。
崔博士直言,在现实科研工作中,多数情况学者们都还得自己动手,AI 只能提供大致方向,因此花钱用这样的 AI 意义不大。
他表示更推荐本科生选择这个 AI,要是在硕博阶段,这个 AI 的回答其实并不符合导师标准,组会上肯定要挨批。
清华的信博士也同样持这种看法,且不说 AI 的幻觉编造文献问题,就专业程度而言,AI 的回答也只能糊弄大同行,也就是同一大学科里面方向不同的人群;而在小同行,也就是专业研究这个方向的人眼里,AI 的毛病还是非常明显的。
北大 K 博士则谈得更深入,他认为这个 AI 只能说在认知上有了硕士生的水平,但也只是作为一个缝补匠,谈不上说出什么创造性的成果。就创造性这一点来说,AI 是远远比不上硕博的水平的,这也是 AI 需要解决的重要问题。
在博士们的评价里,我们似乎能抓到一个重点:o1 模型之所以相对更强,是因为他有了更高维的认知和思考模式。
这,也是 o1 本次更新的要点。在 OpenAI 关于 o1 模型原理解释的文章中,他们表示o1 变强主要是他们用上了长思维链(CoT,Chain of thought),而不是传统的提示链(Prompt chain)。
第一眼看上去有点懵,说人话就是,这个大模型改变了以往那种你问我答的思考方式。
在以前的模式下,大模型的问答就跟下意识出答案一样,比如你问我天是啥颜色,这问题我想都不想,秒答蓝色。这实际上需要我本来就知道这个知识点,然后给你直接反应就完了。
但这个长思维链就相当于,我不仅要知道蓝色是个啥,还能自己推一遍为啥是蓝色,什么大气散射,光谱波长都要考虑进去。
这就需要 AI 有实打实的构建逻辑,推理论证的能力,换句话说,它不仅要长脑子,还要动脑子。
尽管思维链这个概念是 2022 年谷歌提出来的,但 OpenAI 这次是第一个实现的。
实操过程中,现在你与 o1 模型对话,除了收获答案,还可以选择展开,看它解答问题时的思维逻辑,它的思考是具象化的,而不是黑盒。
我们拿崔博士提问的“远距离纠缠光子分发,有什么克服白噪声的办法?”这一问题为例,o1 模型的思考过程如下:
当我们询问崔博士这个思考过程是否合理时,崔博士表示:“ 合理,达到了博士级别,还是高年级博士级别。”
所以,o1 模型之所以会在物理学问答上面表现得更出色,就是因为他的思维链达到了博士的水准,他会像博士一样思考物理问题。
同理,o1 模型在生物学、化学方面的表现相对不佳,很有可能是思维链还没训练到最佳状态,但是从物理学问题的表现来看,等到训练愈发成熟,o1 会变得更强,我们可以期待一下 o1 模型正式版的发布。
哦,对了,最后放一个有趣的小彩蛋。
思维链虽然使得 o1 模型能像博士一样思考,但似乎在基础问题上训练得还是不够全面,我们发现他在简单问题上依然会犯低级错误。
他思考了 12 秒之后,自信地告诉我们 8.11 比 8.9 大。
怎么说呢,博士也会犯错,没毛病。
本文来自:知危,作者:纳西、四大、大饼,编辑:大饼