Az AI fejlesztő cégek egy része, szerzői és egyéb jogokra fittyet hányva, minden elérhető adatot begyűjt, amire csak rá tudja tenni a kezét, hogy betanítsa a modelljeit.
A 404 Media most egy komoly tényfeltáró cikket közölt az Nvidia hamarosan megjelenő videógeneráló modelljének fejlesztési folyamatáról – belső dokumentumokkal, képernyőképekkel, és konkrét vezetők megnevezésével.
A cég többek közt a Youtube-ról és a Netflixről töltött le tartalmakat, szándékosan kijátszva a tömeges letöltést megakadályozó intézkedéseket. Egy hónap alatt nagyjából 40 millió videó URL-t gyűjtöttek össze, és naponta kb. 80 évnyi videóanyagot töltöttek le jogellenesen.
Iparági szakértők szerint nem az Nvidia az egyetlen cég, amely így jár el. A lebukás veszélye kicsi, mivel a betanításhoz használt adatok utólag nehezen beazonosíthatóak, ha csak a végterméket vizsgáljuk.