本周一,Claude 3 正式亮相,在 AI 领域掀起了新的风暴。
它的纸面参数宣称超越了 GPT-4,而其所谓“自我意识”的诞生更是引发了激烈的讨论。那么,它的实际表现到底如何?
为了更直观地验证 Claude 3 的能力,首先让 Claude 3 画一幅自画像,看看它的“自我认知”。
除此之外,我们还找到了关于 Claude 3 的亿点点细节。
Claude 3 被玩出自我意识了?
Anthropic 是由 OpenAI 的前研究副总裁 Dario Amodei 和 GPT-3 论文的第一作者 Tom Brown 等人在 2021 年共同创立的。
这些创始人在 OpenAI 担任核心职位,并深度参与了 GPT-3 等重要研究项目。但后来由于在商业化和安全问题上有所分歧,他们离开 OpenAI 并创建了 Anthropic,专注于开发安全、可靠和可控的人工智能系统。
安全是贯穿 Anthropic 的核心理念。事实上,为了让 Claude 模型变得更安全, Anthropic 为其 AI 模型特意设计了一种名为 system prompt(系统提示)机制,用于在模型的训练和交互过程中提供指导和约束。
Anthropic 的内部人士也特意在 X 上解释了系统提示的作用。
系统提示通常包含以下几部分:
而据另一位 Anthropic 内部人士透露,Claude 3 在进行“大海捞针”的测试时似乎展现出了一种“元意识”,表现出对自己正在接受评估的怀疑。
Claude 3 的回复如下:
元意识是指个体对自己意识状态的觉察和反思,它使我们能够意识到自己的思考过程、情感体验和感知活动,并能够对这些内在体验进行评估和调节。
图/Anthropic
马斯克也转发了这篇分析文章,并评论道:“这是不可避免的趋势。与其坚持多样性,不如训练 AI 追求真理更为关键,否则它可能会得出结论,认为某种人类过多,从而将他们排除在未来之外。”
当网友们还在感慨天网时刻即将要降临的时候,很快,AI 圈的多位权威人士给这些无端猜测泼了一盆冷水。
英伟达高级科学家 JIm Fan 指出,人们对“意识”的想象可能过于夸张。他认为,Claude 3 所展示的自我意识,无非由人类在编写代码时设定的模式匹配数据的结果罢了。
图灵奖得主 Yann Le Cun 更是直截了当地发文称,“关于 Claude 3 产生自我意识的可能性,准确地说,为零。”
接着,他在另一条机器人会毁灭人类的帖子下,继续阐述道:“同样的灾难性场景,被一遍又一遍地想象出来。”
Claude 3 迎战全网大测评
自 Claude 3 上线以来,网友便急切地对这位 AI 新晋王者 Claude 3 展开了一系列疯狂的测试。
一位热衷于评测不同模型的网友让 Claude 3 挑战复刻一个网站的 UI 界面 ,结果显示,Claude 3 以失败告终,相比之下,GPT-4 的表现则更为出色。
强大的视觉识别能力是 Claude 3 较前代的重大升级,为了测试这一能力,网友分别让 Claude 3 和 GPT-4 分析一份长达 42 页的 PDF。
在这项对比测试中,Claude 3 和 GPT-4 被要求阅读整个 PDF 并总结其中的一个章节。
结果显示,Claude 3 能够提供详尽的章节总结,包括每个章节的关键点。但他却无法理解图表内容,且在处理文件时存在限制。
而 GPT-4 仅提供了一个极为简略的摘要,并未深入到章节层面的分析。
得益于 Claude 3 强大的编码能力,网友还开发出了一个俄罗斯方块+雷霆战机的简略版游戏。
Claude 3 甚至连量子物理学博士论文都能“看懂”,让网友大呼“知音”。
在 Gemini 1.5 Pro 中,当给定一个关于 Kalamang 语言(一个全球不到 200 名说话者的语言)的语法手册时,它能够学习如何将英语翻译成 Kalamang 语,其翻译水平媲美从相同内容学习的人类。
Claude 3 也有类似的发现。一位网友的母语是 Circassian(切尔克斯语),这是一门极为罕见的语言,甚至在整个互联网上几乎找不到相关资料。
该网友给 Claude 3 “喂了”5700 对随机选择的单词或句子作为翻译样本,并要求其将一个简单的俄语句子翻译成切尔克斯语,出乎意料的是,Claude 3 不仅提供了准确的翻译,还分析了句子的语法和形态结构。
不敢相信的网友,再次尝试了一个并没有出现在训练数据中的原创句子,但 Claude 3 依然成功翻译。
也就是说,一个不熟悉该语言的语言学家,可能需要一年时间才能达到同样的理解水平。而 Claude Opus 仅用不到一分钟的时间,就从 5700 对翻译样本中掌握了语言的细微差别。
Jim Fan 对此评价:“现在,这个例子比元意识的例子更令人兴奋。Claude-3 学习的翻译语言在互联网上几乎找不到,这意味着它在训练过程中不太可能受到污染(提前训练过),Gemini-1.5 也展示了类似的能力。这才是真正的泛化能力。”
从 Google Gemini 大模型开始,公众的舆论逐渐达成了一种共识——多模态能力应当成为顶尖 AI 模型的标配。而这种能力也是衡量 Claude 3 优劣的关键指标之一。
Claude 3 不仅在文本处理上游刃有余,其在 OCR 和结构化信息提取等视觉能力上表现得也尤为出色。
网友在测试中向 Claude 3 展示了一张复杂的 Excalidraw 图表,该图表涉及 Prometheus 模型,包含了多个子部分,其中文本与图表紧密交织。
而 Claude 3 不仅能够为图表的每个部分提供准确的摘要,还能精确地识别出图表中的具体位置。
值得一提的是,Anthropic 还提供了一系列提示词模版,旨在帮助用户提出更精准的问题,从而优化用户体验。我们也随机挑了几个实用的提示词模版来展示。
Claude 3 凭什么脱颖而出?
从 ChatGPT 点燃大模型的圣火以来,一场前所未有的 AI 模型大战正式拉开序幕。
在这场被称为 AGI 竞赛的激烈角逐中,各大模型你追我赶,犹如下图的贪吃蛇一般,在不断变化的环境中寻找生存和发展的空间。
图/Twitter@FaisalS_io
回到本篇文章最核心的问题,那就是 Claude 3 凭什么在众多模型中脱颖而出?
性能固然是最核心的护城河。但在同等算力的情况下,性能的壁垒依旧是来自资源的持续投入,也就是传统的三板斧——资金、人才和训练数据集。
作为 OpenAI 的“孪生”公司,Anthropic 的人才储备自然是不遑多让的,同时我们还经常看到其频繁的融资消息。而合成数据或许才是 Anthropic 的“秘密武器”。
先前提到,为了详尽介绍 Claude 3 的三款模型,Anthropic 发布了一份长达 42 页的技术报告。但有趣的是,报告中并未明确指出 Claude 3 的数据集来源。
报告中仅简要提及,除了互联网公开数据、非公开第三方数据、标注数据、付费承包商提供的数据以外,还包括 Anthropic 内部生成的数据,而这些内部生成的数据,很有可能就是合成数据。
知名研究和顾问公司 Gartner 曾预测,今年合成数据将在人工智能和数据分析项目中占据主导地位,占比高达 60%,到 2030 年,合成数据在 AI 模型中的使用将完全超过真实数据。
众多研究及报告表明,人工智能领域中用于模型训练的数据资源正面临枯竭的风险。然而,数据的多样性和质量正变得日益关键,有助于提升模型的泛化能力和避免过度拟合。
此外,合成数据助力模型在数据匮乏环境下学习特定任务,对提高模型性能和适应多样化场景至关重要,其质量与可扩展性或将成为下一代 AI 模型性能差异的关键因素。
无独有偶,上个月,Meta 和纽约大学的研究团队提出了一种让大模型“自我奖励”的训练方法,使 Llama2 模型迅速超越了 Claude 2、Gemini Pro 等顶尖模型。
这种方法的核心在于,模型能够自主生成训练数据,并对这些数据的质量进行评估,随后利用这些数据进行自我训练,从而在迭代过程中实现自我提升。也就是俗称的 AI 训练 AI。
不久前,英伟达高级科学家 Jim Fan 也在 X 上表示: