LAION-5B资料集被爆含有儿童性虐待内容

2023 年 12 月 21 日 by 梦境蓝调

史丹福大学网路观察站（Stanford Internet Observatory，SIO）近日针对开源资料集LAION-5B展开研究，发现该资料集存在着逾3,000笔可疑的儿童性虐待内容（Child Sexual Abuse Material，CSAM），之後LAION移除了被确认为CSAM的1,008笔相关内容。

LAION的全名是Large-scale Artificial Intelligence Open Network（大规模的人工智慧开放网路），为一德国的非营利组织，致力於开源AI模型与资料集，其资料集主要储存文字及图像的URL，图像仍存放在原始网站上。Stability AI与Google都曾利用LAION资料集来训练AI模型，提供文字生成图像服务，SIO此次所研究的LAION-5B蒐集了全球网路上58.5亿笔的图像与图说配对，资料量是前一代LAION-400M的14倍。

SIO同时透过PhotoDNA感知杂凑配对、密码杂凑配对、k-近邻（k-nearest neighbors）查询，以及机器学习分类器来寻找LAION-5B所引用的CSAM。

这是因为一旦资料集中含有诸如CSAM等不当内容，以该资料集执行训练的模型就有可能生成不当内容，大型开源资料集可能造成的影响还更加深远。

在得知SIO的研究成果之後，LAION暂时下架了LAION-5B，并移除已确认的1,008笔CSAM。

Stability AI向《彭博社》（Bloomberg）表示，该公司的Stable Diffusion模型虽然仰赖LAION-5B，但采用的是经过筛选及微调过的版本。至於Google则向《404 Media》透露，该公司从未使用过LAION-5B，倒是曾经以LAION-400M训练过首个Imagen研究模型，但该模型从未发表。

研究人员认为，有监於种种限制，此一研究所侦测到的CSAM应是被严重低估的，且除了CSAM之外，这类的资料集还存在着许多未经同意的亲密影像，涉及版权及稳私问题，在理想的状态下，它们应该仅能被应用在研究环境，而非出现於公开模型上。

LAION-5B资料集被爆含有儿童性虐待内容

You may like

未来 Copilot AI 将可在电脑上直接运行，但算力达标的处理器至少得等到年中

人工智慧科技基金会：超过半数企业已使用生成式 AI，且企业 AI 化指数差异逐步加大