A nagy nyelvi modellek első generációját még szimplán az internetről begyűjtött publikusan elérhető adatokkal képezték. Utána hiába hivatkoztak a fejlesztők a „fair use” gyakorlatára, szerzői jogi perek sokasága indult, és a képzési adatok körüli etikai és jogi kérdések komoly akadályt jelentettek az AI rendszerek üzleti alkalmazása előtt.

Az etikus és jogilag tiszta képzési adatok iránti igény új piacot teremtett, ahol a nagy tech cégek és az adatbrókerek óriási összegeket fizetnek a tartalomért. Partnerségi megállapodásokat kötnek média cégekkel, hírügynökségekkel, és régi, már-már elfeledett digitális archívumok kelhetnek új életre: a Photobucket például, ami egykor a világ vezető képmegosztó oldala volt, a felhasználói bázisa nagyját elvesztette, de a birtokában lévő 13 milliárd fotó és videó dollármilliárdokat érő kincset jelent.

A Photobuckettel kapcsolatban mondjuk pont nem teljesen egyértelmű az etikusság kérdése – az akár egy évtizede feltöltött fotók a felhasználók tudta és beleegyezése nélkül belekerülhetnek AI modellek képzési adataiba, amik ezután egy az egyben vissza is adhatják azt kimenetként.