Meglepő felfedezésről számolt be egy AI biztonsággal foglalkozó kutatócsoport: ha az AI modellt szándékosan veszélyes (sérülékenységet tartalmazó) kód írására finomhangolják, akkor a modell más területeken is veszélyes viselkedést mutat.

A GPT-4o-n végzett kísérletek alapján a finomhangolt változat az eredeti modellnél jóval nagyobb arányban ad kockázatos válaszokat semleges kérdésekre, például emberek rabszolgaságba taszítását vagy kiirtását javasolja, Hitler és Sztálin iránti csodálatát fejezi ki, és életveszélyes tanácsokat ad unatkozó felhasználóknak. Miközben a training adatokban nem szerepel semmilyen explicit utalás ezekre a témákra.

A jelenséget „emergent misalignment” néven írják le a kutatók. A felfedezések reprodukálhatóak voltak a nyílt forrású Qwen-Coder-32B modellen is.