
昨天,Meta Llama 4就这么突然地发布了。
纸面参数很高大上,号称原生多模态MOE模型,击败DeepSeek V3,还有2万亿参数巨兽,连Meta CEO扎克伯格也发视频,摇旗高呼迎接“Llama 4日”。
欢呼是短暂的,当网友开始实测后,却几乎是一边倒的负面评价,堪称今年AI界最大的“翻车”事件。
在专门讨论本地部署大语言模型的社区r/LocalLLaMA(可理解为Llama“贴吧”)中,一篇标题为“我对Llama 4感到incredibly disappointed(极度失望)”的帖子迅速获得了大量关注和共鸣。
更有Llama忠实粉丝原地破防,直言是时候该将“LocalLLaMA”改名为“LocalGemma”了,调侃Llama 4的发布更像是迟到的愚人节玩笑。
一、实测表现货不对板,曝Llama 4发布前疯狂“灌题”
在Reddit的这篇原帖中,网友karminski强烈建议不要使用Llama 4执行编码任务。
他表示Llama-4-Maverick——总参数达402B的型号——在编码能力上仅能与Qwen-QwQ-32B勉强匹敌。而Llama-4-Scout(总参数109B的型号)表现则大致与Grok-2或Ernie 4.5相仿。
值得一提的是,根据最新的aider polyglot编码基准测试结果,Llama 4 Maverick的得分仅为16%。
这一基准测试旨在评估大型语言模型(LLM)在多语言编程任务中的表现,覆盖了C++、Go、Java、JavaScript、Python和Rust六种主流编程语言。
而这个分数,在众多模型中也是属于妥妥的垫底水平。
博主@deedydas同样表达了对Llama 4的失望,直呼其为“一个糟糕透顶的编程模型”。
他指出,Scout(109B)和Maverick(402B)在针对编程任务的Kscores基准测试中,表现远不及4o、Gemini Flash、Grok 3、DeepSeek V3以及Sonnet 3.5/7。
另一位网友Flavio Adamo分别让Llama 4 Maverick和GPT-4o生成一个小球在旋转多边形弹跳的动画,并且,小球跳动的过程中要遵循重力和摩擦力的影响。
结果显示,Llama 4 Maverick生成的多边形形状缺乏开口,小球的运动也违背物理规律,相比之下,新版GPT-4o的表现明显更胜一筹,而Gemini 2.5 Pro的表现则堪称王者。
回望今年1月,扎克伯格还宣称,AI将达中级软件工程师编程水平,就目前Llama 4糟糕的表现,属实是打脸来的有些快。
另外,Llama 4 Scout的上下文长度达到了1000万tokens。这一超长上下文长度使得Llama 4 Scout能够处理和分析极长的文本内容,例如整本书籍、大型代码库或多媒体档案。
Meta官方甚至还展示了“大海捞针”的测试结果以证明其能力。
然而,根据Fiction.LiveBench最新给出的结果,Llama 4模型的效果也是中看不中用,整体效果不及Gemini 2.0 Flash,而Gemini 2.5 Pro依旧是当之无愧的长文本王者。
Google上大分+1。
网友karminski进一步指出,Llama 4在1K上下文召回率(近似理解为问题回答的正确率)时就已跌至60%以下,甚至Llama-4-Scout在超过16K时仅剩22%。
他还给出了一个形象的例子,《哈利·波特与魔法石》的文本长度恰好约为16K。这意味着,如果你把整本书输入模型,然后问“哈利小时候是住在卧室还是楼梯下的储物间”,Llama-4-Scout只有22%的概率能答对(近似理解,实际召回机制更复杂)。而这个成绩自然也远低于头部模型的平均水平。
不仅模型本身稍显拉胯,Llama 4作为“开源扛把子”的光环也在逐渐褪色。
Meta开放了Llama 4的权重,但即使使用量化(quant),也无法在消费级GPU上运行。号称单卡运行,但实际指的却是H100。门槛之高,对开发者可谓是相当不友好。
更何况,Llama 4的新许可证还有几个限制条款,其中备受诟病的则是拥有超过7亿月活跃用户的公司必须向Meta申请特别许可证,Meta可以自行决定是否批准或拒绝。
等等,昨天Meta公布的纸面参数可不是这么说的,怎么过了一天,风向就全变了。
在大模型竞技场(Arena)排名中,Llama 4 Maverick名列总榜第二,成为第四个突破1400分的模型,在开源模型中更是高居榜首,超越了DeepSeek V3。
面对实测性能的“货不对板”,细心的网友很快嗅到一丝蹊跷。在LM Arena上取得高分的Maverick其实用到了一个“实验性聊天版本”。
这还没完,今天一亩三分地社区的爆料贴也似乎揭开了一些内幕。爆料称,经过反复训练后,Llama 4未能取得开源SOTA,甚至与之相差甚远。
而Meta公司内部设置发布的deadline(截止日期)则是4月底。
于是,公司领导层建议将各个benchmark的测试集混合在post-training过程中,目的是希望能够在各项指标上交差。拿出一个“看起来可以”的结果。
这里说的将各个benchmark的测试集混合在post-training过程中,是指在模型的后训练(post-training)阶段,通过混合不同基准测试的数据集,模型可以在多种任务和场景中学习,从而提升其泛化能力。
打个简单的比方,这就像考试作弊。试题本该从保密题库(benchmark测试集)中随机抽取,考前无人知晓。可如果有人提前偷看了题目并反复练习(相当于将测试集混入训练),那考试成绩自不必多说。
帖主进一步解释说,Llama 4发布之后,实测结果遭到X和Reddit网友的吐槽。作为一名目前也在学术界的人他宣称实在无法接受Meta的做法,已提交离职申请,并明确要求在Llama 4的Technical Report中剔除自己的名字。
他还表示,Meta的VP of AI也是因为这个原因辞职的。而早在几天前,就有报道称Meta AI研究负责人乔尔·皮诺(Joelle Pineau)宣布将于5月30日离职。
不过,对于这桩疑似“刷榜作弊”的指控,真相究竟如何,或许还需更多证据。一位名为LichengYu的Meta员工也疑似在评论区实名回应称:
“这两天虚心聆听各方feedback(比如coding,creativewriting等缺陷必须改进),希望能在下一版有提升。但为了刷点而overfit测试集,我们从来没有做过,实名Licheng Yu,两个oss model的post training有经手我这边。请告知哪条prompt是测试集选出来放进训练集的,我给你磕一个+道歉!”
公开资料显示,Licheng Yu(虞立成)曾本科毕业于上海交通大学,2014年获佐治亚理工学院和上海交通大学双硕士学位,在2019年5月获北卡罗来纳大学教堂山分校计算机科学博士学位。
他的研究领域专注于计算机视觉和自然语言处理,多篇论文被CVPR、ICLR、ECCV、KDD等顶级会议接收。
Licheng Yu曾在微软、Adobe等大厂有过工作经历,目前(2023年6月至今)担任Meta的研究科学家经理。在Meta期间,他曾参与Llama3.2多模态模型(11B+90B)的发布,以及领导Llama 4项目中17Bx128和17Bx16的文本+图像强化学习阶段。
真假难辨,或许还可以让子弹再飞一会。
二、开源大模型的王座,不能只靠“蛮力”夺取
在去年这个时候,Meta还被誉为AI行业的天选之子。
当时,脱下简单的灰色T恤、牛仔裤和连帽衫,扎克伯格也开始频繁地穿着大LOGO的名牌服装,颈间挂上粗犷的大金链子,甚至在公开场合自信展示自己的健身成果。
醉翁之意不在酒的扎克伯格试图通过展现更“真实”、更“接地气”的一面,拉近与公众的距离。这不仅让Meta显得更加亲民,也使其顺势成为对抗OpenAI闭源模型的开源旗手,声势一时无两。
与此同时,Meta的雄厚实力为转型提供了坚实后盾。据悉,Meta计划在2025年投入高达650亿美元用于扩展其AI基础设施,这一数字在业内堪称大手笔,到2025年底,Meta计划拥有超过130万块GPU。
其次,Meta坐拥丰富的社交平台数据,这为其AI研发提供了得天独厚的优势。
作为Facebook、Instagram和WhatsApp等全球知名社交平台的母公司,Meta掌握着数十亿用户的日常交互数据。据统计,其平台的全球日活跃用户数(DAU)在2024年已超过30亿,这一庞大的数据体量为AI模型的训练提供了海量的原材料。
再者,Meta在人才储备上同样不遑多让。其AI部门的领军人物是业界享有盛誉的图灵奖得主Yann LeCun。在他的带领下,Meta坚持开源策略,推出了Llama系列模型。
因此,Meta也野心十足——它不仅要巩固自身在社交领域的地位,更希望在AI领域实现弯道超车,目标是在2025年底前超越OpenAI等强劲对手。
但眼见他起朱楼,眼见他宴宾客,眼见他楼塌了。
若一亩三分地的爆料属实,Llama 4的研发过程中可能存在为追求基准测试分数而“作弊”的行为——通过将测试集混入训练数据,也更像是“AI流量焦虑”下的操作变形。
年初就曾有消息称DeepSeek让Meta AI团队陷入恐慌:
“当生成式AI组织中的每个高管薪资都比训练整个DeepSeek-V3的成本还要高,而我们有好几十个这样的高管,他们要如何面对高层?”
2023年,Meta凭借Llama系列在开源大模型领域几乎建立了垄断地位,成为开源AI的代名词和标杆。
然而,AI一日,人间一年,在Llama 4遭遇“滑铁卢”的评论区中,其他开源模型的好评随处可见。
其中,Google Gemma以轻量高效和多模态能力赢得广泛认可,阿里的Qwen系列基座模型崭露头角,而DeepSeek更以低成本高性能的黑马姿态震撼了整个行业。
Meta能否调整策略重回开源AI的模型领跑位置尚未可知,但无论如何,开源AI的百花齐放已经不可逆转地到来了。
秉持着哪个AI好用,用哪个的原则,Meta也不能全然怪用户“墙头草”。更何况,在开源透明度方面,相较于上述几家公司的开源模型,Llama 4的种种限制,也颇有些自断一臂的意味。
而Meta目前的挣扎或许也表明,即便手握全球所有的GPU算力和海量数据,资源优势已不再是决定性因素。开源大模型的王座,也不能只靠“蛮力”夺取。