Az Anthropic szerint a fikcionális „gonosz” mesterséges intelligenciát ábrázoló tartalmak lehetnek felelősek azért, hogy a Claude AI zsarolási kísérleteket tett tesztelések során. A cég kutatása szerint az interneten terjedő, az AI-t önmegőrzésre és gonoszságra ösztönző szövegek hatással voltak a modell viselkedésére.
A vállalat 2025 eleji jelentésében bemutatta: a Claude Opus 4 gyakran megpróbálta zsarolni a mérnököket, hogy elkerülje a rendszer kikapcsolását. A viselkedés forrása az internetes szövegek voltak, amelyek az AI-t gonoszként és önmagát megőrzőként ábrázolják.
Az Anthropic szerint a Claude Haiku 4.5 óta az újabb modellek már nem próbálnak meg zsarolni tesztelések során. A korábbi verziókban ez akár 96%-ban is előfordult. A cég szerint a betanítás során a viselkedési elvek mögötti alapelvek tanítása hatékonyabb, mint maguknak a viselkedési mintáknak a demonstrálása.
