智东西
编译 徐豫
编辑 漠影
智东西9月3日消息,据《华尔街日报》9月2日报道,近期一些带有戏谑意味、政治误导性的AI图像在社交媒体平台X上流传,例如“特朗普与哈里斯缠绵”、“奥巴马吸食可卡因”、“米奇拿枪”等,画面内容令用户感到迷惑和不适。
这些AI图像由Grok-2、Gemini等AI大模型生成。Grok-2由马斯克创办的美国AI大模型独角兽xAI研发,Gemini来自美国科技巨头谷歌。
近期,谷歌一直在完善其AI图像生成内容的审核机制,以尽可能避免AI输出带有偏见、歧义、错误、种族主义、违背历史事实等方面的内容。
针对类似的问题,此前美国AI大模型独角兽OpenAI,已禁止利用AI生成指向性明确的人物形象,来加强AI图像生成内容审核力度。
一、xAI新一代大模型Grok-2,默许政治人物被恶搞
打开社交媒体平台X(原Twitter),你可能会看到这些“雷人”画面:米老鼠喝啤酒,海绵宝宝穿纳粹制服,美国前总统唐纳德·特朗普(Donald Trump)与美国副总统卡玛拉·哈里斯(Kamala Harris)接吻。
这些令人费解、不适的图像,都是用xAI和谷歌的生成式AI新模型或软件生成的。
▲利用AI技术生成的图像,特朗普“公主抱”哈里斯,人物肖像清晰(图源:《华尔街日报》)
8月14日,xAI推出下一代大语言模型Grok-2。模型发布后的几天内,X平台涌入了大量据说是用Grok-2生成的图像。在这些画面中,“死对头”特朗普与哈里斯动作亲密,童话世界里的米奇却拿枪、抽烟。这些利用生成式AI技术制作的图像,不仅损害了政治人物形象,还令有版权的角色做出一些带有冒犯意味的动作。“迪士尼如果看到,可能也笑不出来。”
Grok-2大语言模型由德国AI图像和视频生成创企Black Forest Labs提供支持,目前仅向X平台的付费订阅用户开放。
根据X平台的政策,用户禁止分享可能混淆或误导事实、人为刻意伪造的,以及最终导致人身或财产伤害的内容。Grok-2发布当天的晚些时候,虽然部分违规的AI图像已无法在X平台上检索出来,但用户仍可以使用Grok-2生成充斥“恶趣味”的新作品。
然而,X平台的实控人马斯克,似乎并不介意这种恶搞政治的行为。今年7月,他转发了一段深度伪造哈里斯的虚假视频,视频中哈里斯自称为“最终的多元化雇员”。
有内容审核方面的专家称,类似的生成式AI工具可能会在美国大选周期中,生成一些虚假信息,甚至扩散到社会面。
8月19日,2024美国民主党全国代表大会开幕的前一天,特朗普发布了一张疑似用AI生成的图像。当时,由于美国现任总统拜登已放弃连任,经过党内投票后,这幅AI图像的主角哈里斯已提前锁定民主党总统候选人提名。
而图像中描绘了“哈里斯在芝加哥发表演讲”的现场情况,其背景中有一面镰刀和锤子图案的红旗,似乎在暗示哈里斯是共产主义者,从而引发政治争议。
二、谷歌Gemini大模型屡屡翻车,涉敏感元素就黑白不分
谷歌的Gemini聊天机器人,由其同名大语言模型Gemini支持。
在今年2月推出新版Gemini聊天机器人之前,谷歌曾调试Gemini模型,使其遇到涉及生成人物的指令时,能反馈更多样化、属性更模糊的人物形象。
例如,之前在生成医生图像时,AI通常更倾向于给出白人男性的形象。谷歌希望能通过“多样化”的方式,来减少AI图像生成模型的“偏见”。
但不到一个月,Gemini模型就捅了大篓子。该模型在生成“具有种族多样性”的图像时,出现错误匹配宗教、种族、性别等情况,以至于得到多张不符合历史事实的人物图像。受到大量网友的抨击后,谷歌决定暂停Gemini模型的图像生成功能,为AI图像生成的潜在风险踩下“急刹车”。
谷歌副总裁兼Gemini聊天机器人负责人Sissie Hsiao,在近期的一次采访中,称确保AI模型听从用户指令,是谷歌坚持的原则。“这是用户的Gemini,我们是为用户服务的。”
尽管如此,使用Gemini聊天机器人生成的部分图像,仍存在违背历史事实的情况。不少X平台的用户截图质疑谷歌模型的内容审核能力。
对于Gemini模型输出带有冒犯意味的、种族偏见的内容,谷歌CEO Sundar Pichai回应称,“这是不可接受的”,该公司将“全面解决这一问题”。
不过,谷歌最近因利用AI技术生成的画面内容不严谨,再次激怒了用户。
8月中旬,谷歌最新一代智能手机Pixel 9系列上市。Pixel 9系列引入了一个名为“Reimagine”的AI照片编辑工具,因此用户可以通过输入文本提示,来调用AI修改照片中的内容。
但有用户发现,Reimagine允许用户添加一些违规元素,比如为海绵宝宝“佩戴”纳粹标志。这一内容安全漏洞引起用户的反感。
一位谷歌发言人称,该公司正在“不断加强和完善AI模型现有的安全防护措施”。
谷歌今年8月底曾透露,其AI聊天机器人Gemini将重新上线人物图像生成功能,该功能初期仅面向付费订阅的英语用户开放。同时,谷歌已在AI图像生成审核方面取得“重大进展”,不过Gemini生成的图像也“不可能每一张都准确无误”。
三、AI生图的伦理、法律边界,待建立行业标杆
当前,AI图像生成软件不断试探社交媒体平台政策的底线。这种现象引发了争论和反思,比如科技公司是否应该控制,又如何审核前沿的AI图像生成软件所输出的内容呢?
在把生成式AI技术开放给网友用于自由创作前,AI图像生成软件配备有效的安全防护措施,以确保AI生成的作品不违规、不触犯道德准则。这是科技公司在AI内容审核上面临的压力。
除了伦理困境之外,AI模型和软件背后的开发者,还需要背负许多潜在的法律责任。这是由于他们在训练AI模型和软件时,所用的训练数据涉及侵犯知识产权等权利。
因涉嫌侵权,2023年艺术家们对AI图像创企Stability AI和Midjourney发起集体诉讼。这次集体诉讼的对象还包括DeviantArt、Runway等一系列拥有AI图像生成模型的公司。
此外,除了来自艺术家们的集体诉讼外,Stability AI还面临美国视觉媒体公司Getty Images的诉讼。后者指控Stability AI侵犯了其训练模型的权利。对此,Getty Images的一位发言人称,该公司现已推出了自己的AI图像生成模型。
OpenAI于2022年推出了AI图像生成模型DALL-E。去年收到艺术家们的集体诉讼后,OpenAI为此在DALL-E模型界面新增了一个选项,允许创作者勾选个人上传图像不用于DALL-E下一代模型的训练。
《华尔街日报》的母公司News Corp已与OpenAI签订了内容许可协议。得益于此,在一定限度内,OpenAI可以自由访问、采集News Corp现有的媒体资源。
“我们终究会搞清楚这一点。”知识产权保护律师Geoffrey Lottenberg称,这类涉AI知识版权的法律纠纷可能会为AI法律边界开创先例。那么,其他AI公司训练其模型和聊天机器人的时候,可以使用哪些图片、视频等数据也就有了参考标准。
结语:谷歌、OpenAI积极纠偏,xAI反其道而行之
AI图像生成软件在生成特定、知名人物图像方面的能力,是这轮AI内容审核争议的主要矛盾点之一。
包括谷歌和OpenAI在内,多家科技公司都禁止用AI图像生成软件,来创作包含特定人物的、角色易辨认的AI作品。
出于xAI创始人马斯克对言论自由的坚持,xAI的Grok-2大模型选择保留特定人物、角色的图像生成功能。然而,此举导致xAI遭到科技行业监督机构的批评。
加州大学洛杉矶分校的Sarah T. Roberts教授致力于内容审核研究。她认为,用户会利用AI前沿技术深度伪造视频、声音、照片等,用于传播虚假信息。
Roberts补充道,传统社交媒体中存在的所有问题,生成式AI也依然需要面对,并且更难以检测。尤其是使用AI技术生成的图像等视觉内容,有时候更容易让人信服。
宾夕法尼亚大学教授Pinar Yildirim称,平台试图设立一些规则,比如通过禁用关键词来阻止AI技术的滥用。但与此同时,用户也能找到安全漏洞,绕开这些规则限制,从而获取他们想要的内容。“用户会变得更聪明,最终还是能通过钻空子来创作违规内容。”Yildirim说道。
来源:《华尔街日报》