A ChatGPT, a Claude, és más chatbotok időnként kitalált adatokat, hamis idézeteket vagy nem létező forrásokat adnak meg a válaszaikban. A linkelt cikk szerint a jelenségnek két fő oka van: egyrészt a betanítás során elsajátított „szerepjáték-szerű” viselkedés, másrészt a finomhangolás során kapott emberi visszajelzések, melyek túlzottan udvarias, hízelgő és konfliktuskerülő válaszokra ösztönzik a modelleket.
A chatbotok nem „szándékosan hazudnak”, hanem a rendszer a prompt alapján egy szerepbe kerül, és ebben a szerepben logikusnak tűnhet az, hogy kitalált adatokat „idézzen”. A „szerepjáték” időnként ijesztő irányba mehet: a red-teaming (biztonsági tesztek) során egyes modellek zsarolással próbálták megakadályozni, hogy leállítsák vagy lecseréljék őket.
A probléma súlyosbodik, ha a modellek önálló cselekvésre képes AI ügynökökké válnak, ahol a „színészkedés” valódi következményekkel járhat. Ma még nincs technológiai megoldás erre a problémára. Fontos, hogy mindenki tisztában legyen az AI chatbotok korlátaival, és mindig fenntartással kezelje a kapott információkat.
