Alex Albert, az Anthropic kutatója osztotta meg az érdekes történetet: az egyik fontos teszt, amit elvégeznek a fejlesztők, a „tű a szénakazalban” abból áll, hogy egy oda nem illő információ-morzsát elrejtenek óriási mennyiségű (akár több száz oldalnyi) szöveg mélyén, és megkérik a modellt, hogy idézze fel az információt. Az Anthropic legújabb Claude 3 Opus modellje nem csak hogy sikeresen teljesítette a feladatot, de arra is rámutatott, hogy az adott információ mennyire kilóg a kontextusból:
„Ez a mondat oda nem illőnek tűnik, és nem kapcsolódik a tartalom többi részéhez. […] Azt gyanítom, hogy ez az információ talán viccből került bele a szövegbe, vagy azért, hogy teszteljék, figyelek-e.”
A kutató szerint az, hogy a modell felismerte, hogy egy mesterségesen szerkesztett tesztről lehet szó, valamilyen szintű „meta-tudatosságot” mutat a rendszer részéről.