A ChatGPT-hez hasonló AI rendszerek nem hagyományos programozással készülnek, a belső mechanizmusaik nagyrészt rejtve maradnak még a fejlesztők előtt is. Nem lehet őket szimplán „debugolni”, ezért nagyon nehéz megérteni, hogy miért adnak egyes esetekben hibás vagy értelmetlen válaszokat.
Az Anthropic kutatói most áttörést értek el ezen a téren. A csapat egy technikát dolgozott ki, amely a mesterséges neuronok mintázatait elemezve képes azonosítani, hogy az egyes neuroncsoportok milyen konkrét fogalmakat, „jellemzőket” kódolnak a nagy nyelvi modellekben. Azt is megmutatták, hogy a neuronhálózat egyes részeinek célzott manipulálásával képesek befolyásolni a modell viselkedését, akár bizonyos tartalmak generálásának csökkentése vagy növelése érdekében.
A kutatók szerint ez a felfedezés közelebb vihet minket ahhoz, hogy jobban megértsük és ellenőrzés alatt tartsuk a nagy AI-rendszereket. Bár a teljes belső működés feltérképezése még komoly kihívás, az új eredmények reményt adnak arra, hogy a jövőben belelássunk az „AI fekete dobozokba”.