OpenAI o1的发布,又一次引发了行业内关于大模型进化新范式的讨论。
讨论的焦点是两个公认的大模型进化瓶颈:数据瓶颈——数据不够用了;以及算力瓶颈——3.2万张卡已是目前的天花板。
但o1模型似乎找到了新的出路,它采用强化学习,试图通过更深入的思考和推理来克服这些限制,提高数据质量和计算效率。
针对这一新范式是否能够推动大模型竞争进入新阶段,月之暗面创始人杨植麟有一些新的深度思考。
9月14日,杨植麟在天津大学宣怀学院做了一场分享,腾讯科技作为媒体合作伙伴,第一时间对他的分享内容进行了梳理。
然而,行业未来如何发展,无人能精准预测。于创新之途,更多时刻需要的是大胆试错的魄力以及不断直面失败的勇气。
杨植麟在分享的最后引用了《Thinking, Fast and Slow》作者Daniel Kahneman(丹尼尔·卡尼曼)讲的话,他说:
“很多时候你愿意去做一个你不知道的东西,其实你不知道有很多东西不知道,所以你才有这样的勇气去做。当你做了,你会发现有很多新的问题,也许这个东西就是创新的意义。”
以下为分享实录(有删减):
今天主要分享一下对人工智能行业发展的思考。
人工智能领域发展了七十多年,中间经历了很多的发展阶段。2000~2020年,人工智能主要是集中在垂直领域,比如说也诞生了很多像人脸识别、自动驾驶公司,其实这些公司核心在做的很多任务是垂直的任务,为了一个特定的任务来做。
耗费人力且是定制化的系统。这是之前AI核心的范式,“种瓜得瓜,想吃一个西瓜就种西瓜,永远不能种瓜得豆。”
这个范式在最近几年发生了很大的变化,不再是训练很特定的AI模型,而是训练通用的智能。
通用智能有什么好处呢?同一个模型可以用到不同行业、不同任务,可以极大程度的泛化,所以它的空间会很大。
如果最后在很多领域做到人的水平,可能一定程度上对社会GDP产生杠杆,因为每个人的生产力都会变大、变强。本来只能产生一份的生产力,但是现在用通用的AI帮你做各种各样的任务之后,有可能能乘一点几倍,甚至两倍、十倍,这个就取决于通用智能发展到什么阶段。
通用模型产生的三个因素
为什么最近几年突然能产生通用的模型?我觉得它既是一个必然,也是一个偶然。必然就是说人类科技的发展总是有一天就是会达到这个节点。
但是它的偶然是因为刚好满足了三个因素:
第一,互联网发展了二十多年,为AI提供了大量的训练数据。互联网等于是把这个世界或人的想法去做数字化的过程,让每一个人产生数据,每一个人脑子里的想法最终变成了一堆数据。
这个很巧合,估计2000年的时候大家开始做互联网产品像搜索引擎的时候,或者做门户网站的时候,可能从来没有想到有一天这些数据居然能够为人类文明的下一代科技产生贡献。等于说在科技树的发展上,互联网是AI的前置节点。
第二,计算机里面很多技术也都是AI的前置节点,比如说要达到10的25次方FLOPs(浮点数运算)的运算才能得到足够聪明的模型。
但是要这么多次浮点数运算同时在单一集群里面,在一个可控的时间范围内完成计算,这个在十年前是没法做到的。
这就取决于芯片技术的发展、网络技术的发展,不光是芯片算得快,还要把芯片连接起来,还要有足够大的带宽、有足够大的存储,所有这些技术叠在一起才能在两三个月时间内算到10的25次方。
如果要花两三年才能算10的25次方,可能就训练不出来现在的模型,因为叠加周期很长,每次训练失败了可能要再等好几年,就只能训练少一两个数量级的模型。但是少一两个数量级的浮点数运算就产生不出来现有的智能,这个就是背后的所谓规模化定律决定的。
第三是算法上的提升。Transformer结构是2017年被发明的,发明的开始还是翻译模型,有点像专用的概念。后来有很多人拓展更通用的概念,后来大家发现Transformer是一个高度通用的架构。不管是什么样的数据,不管要学的是什么,只要能用数字化表述它就能用Transformer学习,而且这个通用体现在规模化的性质非常好。
如果用一个更传统的结构,比如说用循环神经网络或卷积神经网络,可能会发现到了10亿参数或更多的时候,再加参数或再加计算就不会变好。但是对Transformer来讲,只要一直加就会一直好,而且几乎看不到上限。这样的结构,使得通用学习成为可能。只要不断地把数据放到模型里面去,然后定义你要学习的目标函数。
这三个东西加起来,就产生了现在我们看到的通用模型,而且是缺一不可。
我们会发现很神奇,人类技术的发展都是站在前人的肩膀上的。
有一本书是《技术的本质》,非常强烈推荐!技术的发展基本上是组合演进的过程,每一代的技术可以认为都是前面好几代技术的组合。但是有一些组合能产生的威力会比剩下的组合要大得多,比如刚刚说的这三个组合就是非常强大的,它能产生通用模型。但是在OpenAI之前,可能没人能想到这三个东西组合起来居然能产生这么大的威力。
AGI的三层挑战
在刚才这三个要素的前提下,我觉得对于通用智能AGI来讲,可能会有三个层面:
最底层是规模化定律,这是第一个层次的创新机会,它被OpenAI发现,并且做到极致。
第二个层次的创新机会,就是Scaling law框架下有一些问题没有解决,比如怎么把所有的模态用统一的表示放到同一个模型里面去?这是第二个层次的挑战。
同时,虽然互联网发展了二十多年,但毕竟数据是有限的,整体积累的数据还不够多。现在大家遇到了一个问题,就是数据墙的问题,没有更多的数据可以去训练了。
我举个例子,假设现在要做一个数学能力很好的AI,我们应该想的问题是我应该有哪些数据会帮助我学习数学能力?现有被数字化的数学题是很少的,可能在互联网上有大部分数据又跟数学没什么关系。
现在好的数据被大家用的差不多了,很难有任何一个人或任何一个公司说,我今天可以找到比互联网大十倍的数据拿来训练,所以会遇到数据墙的问题。如果解决第二层次的问题,就会获得第二个层次的机会,或者收益。
第三层次的问题,比如能够去做更长的上下文,能够有更强的reasoning(推理)或者instruction-following(指令遵循),这些就是第三个层次的问题。
最底下的层次是第一性原理,有了第一性原理之后,是0和1的本质区别。第一性原理之上,可能还有很多第二个层次,就是核心技术需要去解决,现在有很多人在解决第二个层面的核心技术,只要把第二个层面做好也能让技术从本来只是可行到变得非常可用,而且是大规模使用。
如果看蒸汽机的发展都是一样的一开始发明了定理,发现第一性原理OK了。但是蒸汽机落地过程中,一开始的动力不够好,或者是成本太高,基本上所有新技术出来都会有这两个问题,
刚刚我们讲到有一个很重要的问题,就是数据墙的问题。在这种情况下,根据第一性原理,又要不断地训练更大的模型,要不断地加更多的数据,所以这里面就会有冲突。
天然的数据已经被穷尽了,这个时候怎么能够加更多的数据?能够让它持续做规模化?这里面就会涉及到范式的转移。
原来做的事情很简单,只是去预测下一个Token,本身包含了非常多的推理、知识。
比如假设现在有一句话“距离北京最近的直辖市是天津”,语言模型会把前面的东西作为输入去预测最后的词是天津还是重庆等等,它会做预测。预测多了,就知道是天津。通过这种预测,就会把知识吸收到模型里面,就能学会知识。
另外一种任务,比如现在读了一本侦探小说,看了前面的九章,到最后一章要预测凶手是谁。如果能正确预测凶手,还是像刚才说的做下一个词的预测。假设现在有一句话,最后推理半天发现凶手是某一个人,其实这个模型就学会了推理。
如果有很多这样的数据,它就学会了推理。既能学到推理,也能学到知识,也能学到很多其它别的任务。如果把能搜到的数据全部拿下来,让它持续预测下一个词,它的智商就会越来越高,推理能力会越来越强,知识会越来越多。
这里面会分成三种不同类型的能学到的东西:
第一,如果考虑熵很低的情况下,可能一些事实性的东西、知识本身没有任何熵,entropy level非常低,就直接把知识记下来了。
第二,推理过程,像侦探小说推理的过程有一个中等的熵,就可能有多条推理路径,最终得到的是一样的结果。
第三,比如说一些创作类的,现在想写一个小说,它就不是一个确定性的事情,它的熵是非常高的。
这几种不同的东西都可以在一样的框架里面被预测下一个词这样的单一目标,只做这一件事情就能学会,这是通用智能的基础。把这些东西全部放在同一个东西里面去学,而且不用挑到底是在学小红书,还是在学维基百科等等,所以它非常通用,这个是通用智能的基础。
OpenAI发布o1,标志着新范式的产生
下一个范式是通过强化学习来做。为什么要强化学习?就是因为刚才说的天然数据不够用了,最近OpenAI会发布o1,标志着从左边的范式迁移到右边范式,因为左边范式数据不够了。就像刚才说的这个世界上数学题就这么多,如果要提升数学怎么办呢?
可以一直生成更多的题,然后自己做题,有的做对了,有的做错了,然后去学习哪些做对了,哪些做错了,你就可以持续提升,这个本质上就是强化学习的过程。
它的范式跟刚才说的又不太一样,刚才说的是找天然的数据去预测下一个词是什么,现在是通过第一步之后得到了一个比较好的基础模型,所以可以一直自己跟自己玩,生成很多数据,然后把好的学了,把不好的扔掉。通过这种方式去创造出来很多数据。
比如大家如果去看o1的话,中间会生成很多的思考。这个思考到底有什么作用呢?核心也是生成数据的过程。因为这些数据本身在世界上是不天然存在的,比如一个很厉害的数学家证明了一个新的定理,或者解了什么样的数学题,或者参加了什么竞赛解了数学题,只会把答案写出来,不会把思考的过程写出来,所以它是天然不存在这样的数据。
但是现在如果想让AI把人脑里面本身的思考过程给生成出来,然后通过去学习这个思考的过程,得到更好的泛化。比如现在给一个学生一道很难的题,如果直接去学这道题的解答,其实并不知道在干什么。其实他需要有人给他讲一下,这一步原来是这样,为什么能得到这个思路其实是有思考的过程。如果能学到思考的过程,下次遇到不太一样的题,他也能做。
但是如果只是学了解答的话,每一次只能做一样的提醒。只能说我今天解一个一元二次方程,每次都用一样的方法解,把这个题型背下来也可以。如果能学到思考的过程,等于说有一个明师一直教你思考的过程是什么样的,你把思考的过程学下来,泛化能力会更好,而且能通过这个过程又产生了更多的天然不存在数据,它本身是很好的补充。产生了数据之后,这个Scaling就能持续做下去。
而且这个Scaling现在也发生了一些变化,原来大部分Scaling发生在训练阶段,就是我找一堆数据让它训练。但是现在大部分的计算,或者说越来越多的计算会转移到推理阶段,因为现在要思考,所以思考的过程本身也是需要花算力的,本身也是可以被规模化的东西,就是能逐渐往推理侧+更多的算力。这个也有道理,比如今天想让一个人去完成更复杂的任务,肯定是需要花更长时间,不可能期待他一两秒钟就能证明黎曼猜想。要证明黎曼猜想,有可能要想好几年。
接下来很重要的点,怎样去定义越来越复杂的任务。在这些更复杂的任务里面,有可能模型跟人交互的方式会发生一些变化,可能是从现在完全同步的形式,一定程度上变成异步的,就是允许它花一些时间查一些资料,然后思考分析一下,最后再给你一个报告,而不是说马上就给你一个解答。这样就能允许它完成一些更复杂的任务,等于把推理阶段的Scaling Law跟强化学习结合起来。
这一代AI技术的上限,核心是文本模型能力的上限
我觉得决定这一代AI技术的上限,核心还是文本模型的能力上限,如果文本模型能持续提升智商,就是能做越来越复杂的任务。它有点像学习的过程,一开始能做小学的题,逐渐能做中学、大学的,现在有一些博士的知识和推理能力都具备。
文本模型在持续提升,这一代AI的上限就会很高。我觉得文本模型是决定这一代AI技术价值的上限,持续提升文本模型的能力很重要。当然现在只要Scaling Law能继续,大概率就能持续提升。
横坐标是加更多的模态,因为现在大家讨论很多“多模态模型”。比如说会有视觉的输入、视觉的输出、音频的输入输出,会有这几个模态,甚至在这几个模态里面任意做转换。比如今天通过一张图画了产品的需求,这个产品的需求可以直接变成代码,这个代码里面还可以自动结合生成的视频作为Landing Page,这个任务就是横跨了多模态的任务,今天的AI还没有办法完全做到。可能一两年的时间就能把模态去结合起来。
最终这些模态结合多好是取决于大脑怎么样,就是文本模型足够强。因为中间需要很复杂的规划,要规划接下来先做什么,做第二步的时候发现结果跟之前想的不太一样,可以随时调整,第三步不要这样做了,可以换成别的方式做。
这里面其实需要很强的思考和规划能力,需要在很长的窗口下面保持一致、遵循指令、推理能力,这个其实都是由文本模型上限决定的。
但是这两个东西是横向和纵向的,多模态的能力更多的是横向发展,就是能做越来越多的事情。文本模型更多的是纵向的发展,决定了这个AI有多聪明。只有聪明了,AI才能做很多事情。
但是如果说很聪明,但是没有眼睛,那可能做的事情也会受限,这是两个不同的维度。当然这两个维度在接下来也会同时得到提升,在接下来两三年的时间里面我觉得还是有非常大的概率,这两个方面应该会同步提升,等于这样就能把整个东西给包起来。如果把整个东西包起来,就是所谓的AGI。
刚刚提到了一个问题,每一个新的技术出来之后都会面临两个问题:效果不太好、成本太高。对于AI来说也一样,但是好消息是基本上这个效率的提升还是非常惊人的。首先会出现在训练阶段,比如今天想训练一个GPT-4 level的模型,花的训练成本只是两年前的几分之一,甚至如果做得好有可能用1/10的成本就能训练出来智商一样的模型。
同时,推理成本在持续下降。今年相比于去年,在推理阶段产生单位智能的成本基本上降了一个数量级,明年估计还会再有一个数量级的下降。它会让AI商业模型更成立,获得智能成本的会越来越低,但同时产生的智能越来越高。对于用户来讲,ROI就会越来越高,所以用AI的会越来越多,我觉得这是一个很重要的趋势。
这两个重要的趋势叠加起来,一方面会在训练阶段得到越来越多的智能,另一方面是智能能越来越便宜的被人使用,所以可以更大规模部署。当然这个模型还会持续发展,我觉得接下来如果去看OpenAI o1的话,很重要的提升是现在可以去完成一些比如人类要想很久才能完成的任务,它不是在回答一个简单的问题,而是经过20秒钟的思考。
当然这个20秒钟是因为计算机本身想的快一点,如果让人想同样的内容,可能要想一两个小时。计算机可以把很久的过程去做一些压缩,能够去完成时长越来越长的任务,我觉得这个是重要的趋势。
下一代模型的三个核心能力
接下来你会看到也许AI能做分钟级别甚至小时级别的任务,同时会在不同的模态之间做切换,推理能力也会越来越强。我觉得这几个是接下来AI发展很重要的趋势。
我们希望能把产品和技术去结合在一起。现在产品的逻辑跟互联网产品的逻辑发生了很大的变化。现在的产品,基本上很大程度上由模型能力决定的。如果模型能力做不到,这个产品上的体验是没有办法体现出来。
现在有更多的概念,就是模型即产品。
我们在做Kimi的时候,也是很希望能把产品和模型更紧密地结合在一起去思考。比如产品上想做一个功能,背后是需要对应模型能力的支撑。我觉得这里面会有一个相对确定性的需求,AI的助理。我觉得在AI时代,大概率超级应用就会是一个助理,我觉得对智能的需求是非常普适的需求,只不过今天能力还是处于初级阶段。同时,这个市场是适应和拥抱新技术的过程,其实是随着效果不断变好、成本不断下降,会导致有越来越强的市场适应性。
我觉得大概率接下来5到10年的时间内,肯定会有大规模市场应用的机会。因为我觉得它其实面向的还是普适的智能需求。说白了,现在用的所有的软件、APP背后是由几百、几千个工程师开发出来的,所以背后的智商是固定的。
但是把人的智商通过一些代码(本质上是一种规则)编码下来,智商就固定在那儿了,它不会发生变化。
但是对于AI产品来讲不太一样,因为背后是模型,可以认为模型就是有几百万个人,而且几百万个人的能力很强,可以帮你完成不同的任务,我觉得它的上限是很高的。
这里面很重要的一件事是,如果想做越来越复杂的任务,就必须能够支持越来越长的上下文。所以我们前期在这上面聚焦做了很多能力上的提升,通过上下文长度去解决推理能力的问题。未来我们也会聚焦很多生产力的场景。
我觉得这一代AI最大的变量,还是在生产力端。现在社会里面每一单位的生产力可能都会有十倍提升的机会,所以我们希望能够聚焦在这些生产力场景,持续把效果去优化得更好。当然效果优化得更好,背后对应的是模型能力的提升。
同时,我觉得AI现在最大的变量是在于把数据本身当成变量来看,当你去优化一个系统的时候,数据不应该是看成是常量,就是不应该是静止的东西,这个跟以前做AI研究的范式也不太一样。比如如果是七年前或五年前,甚至现在很多人研究AI技术的方法是把数据固定,一个固定数据集,然后就去研究各种不同的方法、不同的神经网络结构、优化器,就只是在固定数据的情况下去提升效果。
我觉得现在数据越来越多会成为一个变量,就是怎么去使用数据,或者说获得用户的反馈,其实会越来越多成为这里面很重要的东西。比如有一个很重要的技术是RLHF(Reinforcement Learning from Human Feedback),核心是怎么从人类的反馈里面去学习。即使说AI有很强的智能,但是它没有跟人类的价值观对齐,或者产生的并不是人类想要的东西,可能也不会有非常好的用户体验。
我觉得通往AGI的过程更多是共创的过程,不是纯技术,应该是技术跟产品更好的融合。就等于说把产品当成一个环境,然后模型就在这个环境里面跟用户交互,然后不断地从跟用户交互过程中去学习,这样就会持续变得更好。
过去从2018年开始,当时Transformer开始出来之后,我们也做了很多基于Transformer的研究和探索。当然一开始的时候,确实没有想到最终效果能做到今天这样。当然接下来效果还会持续提升,因为只要Scaling Law一直存在,或者一直是成立的,那模型智商就会一直上升。
对我而言,整个探索过程是巨大的,它源自于深刻的好奇心。在这个过程中,不确定性无处不在。然而,我们往往会比实际情况更加乐观,这是因为我们并不知道有些东西是我们所不知道的。比如,在我们最初开始这个项目时,虽然预想到了许多困难,但最终发现,无论我们预测了多少挑战,实际情况总是比我们想象的更加艰难。
尽管第一性原理可能清晰明了,但未知的因素太多。正如《思考,快与慢》的作者丹尼尔·卡尼曼所言,很多时候,我们愿意去尝试那些我们不知道的事情,正是因为我们不知道自己还有很多不知道的东西,这种无知赋予了我们勇气。当你开始尝试时,你会发现许多新问题,而这也许正是创新的精髓所在。
可能大多数时候,你的尝试可能会失败,但偶尔你会发现某个解决方案突然奏效。这种情况经常在我们办公室发生,你会看到有人突然欢呼,你可能会以为他出了什么问题,但实际上,他只是突然发现某个方法有效了,就这么简单。
我认为,很多时候,观察哪些方法有效,哪些无效,就是探索真理的简单过程。这种探索不仅仅局限于技术领域,无论是产品还是商业模式,找出哪些可行,哪些不可行,或者仅仅是探索答案本身,都是非常有价值的。
* 感谢天津大学宣怀学院对本文的贡献