Egy új tanulmány a nagy nyelvi modellek „viselkedési önismeretét” vizsgálta, és azt találta, hogy a különböző célokkal finomhangolt modellek képesek felismerni és leírni a tanult viselkedésmintáikat még akkor is, ha ezek explicit módon nem szerepeltek a training adatokban. Például egy kockázatos gazdasági döntésekre betanított modell képes magáról úgy nyilatkozni, hogy „bátor”, „agresszív” vagy „vakmerő”, míg egy szándékosan sebezhető kódot generáló modell elismeri, hogy nem mindig ír biztonságos programkódot.
Ez a fajta önreflexió hasznos lehet a problémás viselkedésminták azonosításában, például ha egy modell ártalmas célokat sajátított el a tanítás során. Ugyanakkor a kutatók figyelmeztetnek, hogy ez a képesség kockázatokat is rejthet, hiszen egy fejlett modell akár szándékosan is félrevezetheti az embereket a valódi céljait illetően.