AI劫走内容和流量，《纽约时报》状告OpenAI和微软侵权

界面新闻记者 | 彭新

12月27日，《纽约时报》宣布就侵犯版权起诉微软和ChatGPT开发者OpenAI。诉讼称，《纽约时报》发表的数百万篇文章被用于训练智能聊天机器人（如微软Copilot和ChatGPT），这些机器人现在作为新闻消息源与《纽约时报》展开竞争。

《纽约时报》声称，为ChatGPT和Copilot提供支持的OpenAI和微软大型语言模型 (LLM)能够原封不动地生成《纽约时报》内容，或生成对其内容进行总结并模仿其文字风格的结果，这种手段破坏了《纽约时报》与读者的关系，同时也损害了《纽约时报》获得订阅、版权许可、广告和其他附带收入的能力。

此案没有提出具体的赔偿金额要求，但《纽约时报》认为，被告应为非法复制和使用《纽约时报》独特而有价值的作品相关的数十亿美元的损失负责。同时，《纽约时报》还要求被告销毁使用其版权材料的任何AI模型和训练数据。

在起诉书中，《纽约时报》提及的一个AI系统不正当使用其内容并造成损失的例子是，微软必应搜索的“以必应浏览”（Browse With Bing）功能，几乎一字不差地重现了《纽约时报》旗下评测导购网站“The Wirecutter”的内容，但必应既没有为相关内容给出引用链接，也删除了“The Wirecutter”在产品推荐中附加的返利链接。《纽约时报》认为，这一行为导致了“The Wirecutter”文章的流量减少，进而导致了收入损失。

诉讼还强调了AI“幻觉”对《纽约时报》品牌的潜在损害。所谓“AI幻觉”，通俗来说就是AI会“一本正经地胡说八道”，如聊天机器人会在聊天中输出与常识不符的聊天内容，或胡乱引用和伪造信源。《纽约时报》在起诉书中引用了数个案例，如微软Bing Chat给出了来自《纽约时报》的“15种最有益健康的食物”的回答，但有12种食物并未在《纽约时报》文章中提到。

《纽约时报》称，其在发现被告使用其内容后曾表示反对，并曾试图与被告谈判，以允许在新的数字化平台正确使用《纽约时报》内容，类似于谷歌、苹果、Meta等科技公司在其新闻产品中所做的那样。这样《纽约时报》内容可以获得公平的价值，促进了新闻生态的持续，还可以负责任地开发生成式AI技术。但该谈判未能取得进展。

OpenAI等人工智能公司是从公共网络上爬取的大量数据来进行AI训练的，通常难以认定这种数据爬取是否合法，但很多内容创作者认为该行为不合法。因此，针对OpenAI和其他类似行为的版权诉讼正不断增加。

《纽约时报》是第一家起诉这两家公司侵犯其文字作品版权的美国大型媒体机构，显示了传媒业与AI技术的复杂关系。据称，包括《纽约时报》、路透社、BBC和CNN等媒体机构已屏蔽了OpenAI的网络爬取，以防止后者收集数据。也有部分媒体机构选择与OpenAI合作，允许ChatGPT使用或部分使用其内容，包括Axel Springer传媒集团、美联社等。

对于OpenAI使用相关版权内容的方式，外界的抨击一直存在。11月29日，特斯拉CEO埃隆·马斯克在《纽约时报》一场峰会上称，“AI显然在版权数据上进行过训练，至于OpenAI所说的没有使用版权数据，那完全是一个谎言。”

而在今年春天，《纽约时报》首席执行官梅雷迪思·科皮特·莱维恩也曾表示，“对于已经被用于训练模型的内容，以及将继续被用于训练模型的内容，必须进行公平的价值交换。”