A kínai tokenek egy része szerencsejátékhoz és szexuális tartalmakhoz kapcsolódó kifejezésekből áll. Valószínűleg az történt, hogy az AI betanításához használt adathalmazban túlsúlyban voltak a kínai nyelvű spam tartalmak, és az OpenAI nem fordított elég figyelmet az adatok tisztítására. Viszonylag egyszerű megoldások léteznek erre a problémára, a fejlesztők szimplán elmulaszthatták ezt a lépést.
A szennyezett tokenek problémája komoly következményekkel jár: hibás, sőt akár veszélyes válaszokhoz vezethet. Kutatók már ki is használták ezt a gyengeséget a modell „kijátszására”, veszélyes tartalmak generálására. A probléma nemcsak a szöveges, hanem a multimodális (kép, hang) funkciókra is kihathat, ami még komolyabb kihívások elé állíthatja a fejlesztőket.