为什么你还不能使用谷歌令人印象深刻的文本到图像生成器 Imagen

谷歌发布了一篇论文,讨论了将Imagen开源的道德和伦理挑战。
A dog in a sushi house
通过谷歌的文本到图像合成器Imagen,用户可以想象出任何可能,包括寿司店里的一只柯基犬。谷歌研究,大脑团队

本文最初刊载于 Popular Photography

一只急性子的柯基犬住在一栋寿司房子里。一条戴着空手道腰带的火龙果在雪中。一个大脑骑着火箭飞船驶向月球。这些只是谷歌Imagen文本到图像扩散模型生成的一些人工智能图像,其结果非常准确——有时甚至幽默地准确。 谷歌的研究人员最近在一篇上个月发表的论文中公布了这些结果,并讨论了使用这项最新技术所带来的道德后果。

谷歌的Imagen超越了竞争对手  

谷歌的计算机科学家在其研究论文中证实,现有的预训练大型语言模型在从文本输入创建图像方面表现良好。通过 Imagen,他们只是增加了语言模型的大小,发现这带来了更准确的结果。

Imagen的FID得分远高于其他文本到图像合成器。谷歌研究,大脑团队

为了衡量结果,Imagen采用了COCO(Common Objects in Context)数据集,这是一个 开源的视觉数据集汇编,公司和研究人员可以在此数据集上训练其图像识别人工智能算法。模型会获得一个FID(Frechet Inception Distance)分数,该分数根据数据集中的提示计算其渲染图像的准确性。分数越低表示真实图像和生成图像之间的相似性越多,完美分数是0.0。谷歌的Imagen扩散模型可以创建FID得分为7.27的1024x1024像素样本图像。

根据研究论文,与其他模型(包括 DALL-E 2、 VQ-GAN+CLIP 和 Latent Diffusion Models)相比,Imagen在FID得分上名列前茅。研究结果表明,人类评估者也更偏爱Imagen。

戴着空手道腰带的火龙果是Imagen能够创建的众多图像之一。谷歌研究,大脑团队

“在照片写实度方面,Imagen的偏好率为39.2%,表明其图像质量很高,” 谷歌的计算机科学家报告称。“在不包含人物的场景中,Imagen的偏好率提升至43.6%,这表明Imagen生成写实人物的能力有限。在标题相似性方面,Imagen的分数与原始参考图像相当,这表明Imagen能够生成与COCO标题高度匹配的图像。”

除了COCO数据集,谷歌团队还创建了自己的数据集,称为DrawBench。这个基准测试包含严格的场景,测试了不同模型基于“组合性、数量、空间关系、长文本、稀有词和挑战性提示”合成图像的能力,超越了更有限的COCO提示。

尽管有趣,这项技术也带来了道德和伦理上的困境。谷歌研究,大脑团队

Imagen和其他AI文本到图像软件的道德含义

所有样本图像都没有人物是有原因的。在其结论中,Imagen团队讨论了这项技术潜在的道德后果和社会影响,这些后果并非总是好的。该程序已经表现出西方偏见和观点。在承认其无限创造潜力的同时,不幸的是,也有人可能试图利用该软件来造成伤害。正是出于这个原因,Imagen不对公众开放——但这种情况可能会改变。

“另一方面,生成方法可能被用于恶意目的,包括骚扰和虚假信息传播,并引发了许多关于社会和文化排斥和偏见的担忧,”研究人员写道。“这些考虑因素影响了我们不发布代码或公开演示的决定。在未来的工作中,我们将探索一个负责任的外部化框架,该框架将在外部审计的价值与不受限制的公开访问的风险之间取得平衡。”

研究人员承认,在Imagen能够负责任地向公众发布之前,还需要做更多的工作。谷歌研究,大脑团队

此外,研究人员指出,由于Imagen训练所使用的数据集,该程序表现出偏见。“数据集审计显示,这些数据集往往反映了社会刻板印象、压迫性观点以及对边缘化身份群体的贬损或其他有害的关联。”

虽然这项技术确实很有趣(谁不想快速生成一张外星章鱼一边看报纸一边漂浮在传送门里的图像呢?),但很明显,在Imagen(和其他程序)能够负责任地向公众发布之前,还需要进行更多的研究和工作。一些工具,如Dall-E 2,已经 部署了安全措施,但其有效性仍有待观察。Imagen认识到,尽管这是一项艰巨但必要的工作,需要彻底减轻负面后果。

“虽然我们在这项工作中没有直接解决这些挑战,但认识到我们训练数据的局限性指导了我们不发布Imagen供公众使用的决定,”他们总结道。“我们强烈建议,在用户工具中使用文本到图像生成方法时,要密切关注训练数据集的内容。”

 

更多优惠、评测和购买指南

 
© .