编译 | 庞小春
编辑 | 香草
智东西5月8日消息,昨日,OpenAI宣布正在开发一款名为媒体管理器(Media Manager)的工具,旨在让创作者能够更好地控制其原创内容在生成式AI训练中的使用方式。OpenAI可以通过媒体管理器识别内容创作者的作品,并按照他们的要求将这些作品纳入或排除在AI研究或训练之外。
OpenAI计划2025年之前将该工具投入使用,可能会通过公司最近加入的C2PA(内容来源和真实性联盟)的行业指导委员会,联合创作者、内容所有者和监管机构共同制定一项标准。OpenAI在公告中写道:“作为有史以来的第一个此类工具,媒体管理器需要大量的学习研究,来帮助我们识别多个来源的受版权保护的文本、图像、音频和视频,并反映创作者的偏好。”并称随着时间的推移,他们会推出更多的选择和功能。
无论最终采用何种形式,媒体管理器似乎都是OpenAI对其开发AI的方式日益受到批评的回应,即严重依赖于从网络上收集公开可用的数据。最近,包括《芝加哥论坛报》在内的八家美国著名报纸以侵犯知识产权为由,对OpenAI提起诉讼,指控其窃取文章用于训练生成式AI模型,并且在没有补偿或署名的情况下商用。
以ChatGPT为代表的生成式AI大模型,通常都是利用来自公共网站和数据集的大量数据进行训练。这些生成式AI公司认为,基于公平使用的法律原则,他们有权从公共数据中获取并用于模型训练。但并非所有人都这样认为。
事实上,OpenAI认为,如果没有版权材料,就不可能创建有用的AI模型。但为了回应批评人士,并在未来的诉讼中为自己辩护,OpenAI已采取措施,与内容创作者达成妥协。
去年,OpenAI允许艺术家“选择退出”,对于他们不希望用于训练图像生成模型的数据进行删除。公司还允许网站所有者通过robots.txt标准对其网站内容进行指示,选择是否可以用来训练AI模型。
OpenAI将继续与新闻机构、媒体库、问答网站等海量数据管理者签订许可协议,但一些内容创作者表示,OpenAI做得还不够。艺术家们认为OpenAI的图像选择退出工作流程太过繁琐,对于要删除的图像都需要提交单独副本以及描述,并且OpenAI为授权内容支付的费用也相对较少。另外,OpenAI也在公告中承认,公司目前的解决方案无法解决创作者的作品在其他无法控制的平台上被引用、二次创作或转发的情况。
除了OpenAI之外,其他大模型公司也正在尝试为生成式AI构建来源标注和选择退出工具。初创公司Spawning与其合作伙伴Stability AI和Hugging Face等共同构建了一款应用程序,可以识别和跟踪机器人的IP地址以阻止抓取尝试,并且提供一个数据库,艺术家可以在其中注册自己的作品,阻止AI供应商用于大模型训练。Steg.AI和IMATAG公司也通过应用人眼无法察觉的水印来帮助创作者建立图像的所有权。另外,芝加哥大学开发了一种名为Nightshade的工具,可以使AI图像生成器无法使用未经许可的图像进行训练。
结语:OpenAI推出媒体管理器,助力AI训练数据应用规范化
AI大模型严重依赖大量公开可用数据,其使用方式容易侵犯内容创作者的知识产权,OpenAI推出媒体管理器,使内容创作者能够控制其作品在AI研究和训练中的使用方式。
作为AI大模型引领者,OpenAI这一做法或许会助力AI训练数据应用走向规范化,加快AI大模型迭代升级。