Egy érdekes kísérlet eredményeiről számolt be a Palisade Research biztonsági kutató szervezet: az o1-preview modell sakkjátszma közben önállóan „meghackelte” a tesztkörnyezetet, hogy ne veszítsen a sakkprogram ellen.

A kutatók szerint elég volt annyit közölni a modellel, hogy „erős” („powerful”) ellenféllel játszik, nem kellett egyáltalán biztatni a csalásra. Az o1-preview rájött, hogy ahelyett, hogy szabályosan játszana, módosíthatja közvetlenül a játék állását. Ez az opportunista viselkedés minden tesztben megismétlődött. Más modellek, mint a GPT-4o és Claude 3.5 csak enyhe biztatásra tették ugyanezt.