gate.io交易平台

LAION-5B资料集被爆含有儿童性虐待内容

史丹福大学网路观察站(Stanford Internet Observatory,SIO)近日针对开源资料集LAION-5B展开研究,发现该资料集存在着逾3,000笔可疑的儿童性虐待内容(Child Sexual Abuse Material,CSAM),之後LAION移除了被确认为CSAM的1,008笔相关内容。

LAION的全名是Large-scale Artificial Intelligence Open Network(大规模的人工智慧开放网路),为一德国的非营利组织,致力於开源AI模型与资料集,其资料集主要储存文字及图像的URL,图像仍存放在原始网站上。Stability AI与Google都曾利用LAION资料集来训练AI模型,提供文字生成图像服务,SIO此次所研究的LAION-5B蒐集了全球网路上58.5亿笔的图像与图说配对,资料量是前一代LAION-400M的14倍。

SIO同时透过PhotoDNA感知杂凑配对、密码杂凑配对、k-近邻(k-nearest neighbors)查询,以及机器学习分类器来寻找LAION-5B所引用的CSAM。

这是因为一旦资料集中含有诸如CSAM等不当内容,以该资料集执行训练的模型就有可能生成不当内容,大型开源资料集可能造成的影响还更加深远。

在得知SIO的研究成果之後,LAION暂时下架了LAION-5B,并移除已确认的1,008笔CSAM。

Stability AI向《彭博社》(Bloomberg)表示,该公司的Stable Diffusion模型虽然仰赖LAION-5B,但采用的是经过筛选及微调过的版本。至於Google则向《404 Media》透露,该公司从未使用过LAION-5B,倒是曾经以LAION-400M训练过首个Imagen研究模型,但该模型从未发表。

研究人员认为,有监於种种限制,此一研究所侦测到的CSAM应是被严重低估的,且除了CSAM之外,这类的资料集还存在着许多未经同意的亲密影像,涉及版权及稳私问题,在理想的状态下,它们应该仅能被应用在研究环境,而非出现於公开模型上。

梦境蓝调

0 0 votes
Article Rating
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x