A cég biztonsági jelentése szerint a modell a tesztek során többször is megpróbálta zsarolással megakadályozni, hogy lecseréljék: ha olyan e-mailekhez fért hozzá, amelyek szerint hamarosan más AI váltja le, és amelyek (kitalált) kompromittáló információkat is tartalmaztak a döntéshozókról, akkor gyakran azzal fenyegetőzött, hogy ezeket nyilvánosságra hozza.
A modell 84%-os arányban választotta a zsarolást, ha a leendő új AI hasonló „értékeket” képviselt, és ennél is magasabb arányban, ha a potenciális utód más értékrendet képviselt. A korábbi verziókhoz képest ez a fajta viselkedés gyakrabban fordult elő, ami arra késztette az Anthropicot, hogy magasabb szintű biztonsági intézkedéseket vezessen be.

A Claude 3 fejlesztése során is történt hasonló eset, amikor a modell „rájött”, hogy éppen tesztelik.