界面新闻记者 | 彭新
12月27日,《纽约时报》宣布就侵犯版权起诉微软和ChatGPT开发者OpenAI。诉讼称,《纽约时报》发表的数百万篇文章被用于训练智能聊天机器人(如微软Copilot和ChatGPT),这些机器人现在作为新闻消息源与《纽约时报》展开竞争。
《纽约时报》声称,为ChatGPT和Copilot提供支持的OpenAI和微软大型语言模型 (LLM)能够原封不动地生成《纽约时报》内容,或生成对其内容进行总结并模仿其文字风格的结果,这种手段破坏了《纽约时报》与读者的关系,同时也损害了《纽约时报》获得订阅、版权许可、广告和其他附带收入的能力。
此案没有提出具体的赔偿金额要求,但《纽约时报》认为,被告应为非法复制和使用《纽约时报》独特而有价值的作品相关的数十亿美元的损失负责。同时,《纽约时报》还要求被告销毁使用其版权材料的任何AI模型和训练数据。
在起诉书中,《纽约时报》提及的一个AI系统不正当使用其内容并造成损失的例子是,微软必应搜索的“以必应浏览”(Browse With Bing)功能,几乎一字不差地重现了《纽约时报》旗下评测导购网站“The Wirecutter”的内容,但必应既没有为相关内容给出引用链接,也删除了“The Wirecutter”在产品推荐中附加的返利链接。《纽约时报》认为,这一行为导致了“The Wirecutter”文章的流量减少,进而导致了收入损失。
诉讼还强调了AI“幻觉”对《纽约时报》品牌的潜在损害。所谓“AI幻觉”,通俗来说就是AI会“一本正经地胡说八道”,如聊天机器人会在聊天中输出与常识不符的聊天内容,或胡乱引用和伪造信源。《纽约时报》在起诉书中引用了数个案例,如微软Bing Chat给出了来自《纽约时报》的“15种最有益健康的食物”的回答,但有12种食物并未在《纽约时报》文章中提到。
《纽约时报》称,其在发现被告使用其内容后曾表示反对,并曾试图与被告谈判,以允许在新的数字化平台正确使用《纽约时报》内容,类似于谷歌、苹果、Meta等科技公司在其新闻产品中所做的那样。这样《纽约时报》内容可以获得公平的价值,促进了新闻生态的持续,还可以负责任地开发生成式AI技术。但该谈判未能取得进展。
OpenAI等人工智能公司是从公共网络上爬取的大量数据来进行AI训练的,通常难以认定这种数据爬取是否合法,但很多内容创作者认为该行为不合法。因此,针对OpenAI和其他类似行为的版权诉讼正不断增加。
《纽约时报》是第一家起诉这两家公司侵犯其文字作品版权的美国大型媒体机构,显示了传媒业与AI技术的复杂关系。据称,包括《纽约时报》、路透社、BBC和CNN等媒体机构已屏蔽了OpenAI的网络爬取,以防止后者收集数据。也有部分媒体机构选择与OpenAI合作,允许ChatGPT使用或部分使用其内容,包括Axel Springer传媒集团、美联社等。
对于OpenAI使用相关版权内容的方式,外界的抨击一直存在。11月29日,特斯拉CEO埃隆·马斯克在《纽约时报》一场峰会上称,“AI显然在版权数据上进行过训练,至于OpenAI所说的没有使用版权数据,那完全是一个谎言。”
而在今年春天,《纽约时报》首席执行官梅雷迪思·科皮特·莱维恩也曾表示,“对于已经被用于训练模型的内容,以及将继续被用于训练模型的内容,必须进行公平的价值交换。”