Az OpenAI kutatói fontos lépést tettek a neurális hálózatok jobb megértése felé. Az általuk kifejlesztett új módszer segíthet feltárni a modell által megtanult fogalmakat és azok kapcsolatait – hasonlóan az Anthropic nemrég publikált anyagához. A nagy nyelvi modellek még mindig „fekete dobozként” működnek, amibe még a fejlesztőknek is kevés belelátása van.
A tanulmány mellett közzétették a kutatáshoz kapcsolódó kódot, és egy vizualizációs eszközt is, amely segít a kutatóknak megérteni, hogyan aktiválják a különböző szavak és kifejezések a modell belső koncepcióit.