Die Organisation LAION hat den Datensatz RE-LAION-5B bereitgestellt, eine überarbeitete Version ihres Datensatzes LAION-5B. Dabei handelt es sich um eine Sammlung von 5.5 Milliarden öffentlich zugänglicher Bilder, die zum Beispiel für das Training von KI-Modellen verwendet wird.

Die Bilddatenbanken enthalten nicht die Bilder selbst, sondern unter anderem einen Hashwert der Bilddatei sowie die URL, unter der LAION das Bild im Netz gefunden hat. Das Stanford Internet Observatory hat Ende 2023 darin 1673 Hinweise auf Bilder mit Kindesmissbrauch entdeckt. LAION hat daraufhin seinen Datensatz sofort vom Netz genommen und Nutzer aufgefordert, es nicht mehr einzusetzen und weitere Kopien zu löschen.

LAION hat dann gemeinsam mit den Stanford-Forschern sowie anderen Kindesschutzorganisationen seine Datenbank nach Verweisen auf illegale Inhalt durchsucht. Insgesamt habe man 2236 einschlägige Links entdeckt und entfernt. Die so entstandene Datenbank RE-LAION-5B steht ab sofort jedermann unter einer Apache-2.0-Linzenz zur Nutzung bereit. Auf der Homepage der Organisation finden sich weitere Details zu der Datenbank.