Az Epoch AI és a METR új MirrorCode benchmarkja szerint az AI már képes hetekig tartó programozási feladatok önálló elvégzésére. A Claude Opus 4.6 sikeresen újraimplementált egy 16 000 soros bioinformatikai eszköztárat (gotree) — ez becslések szerint egy emberi fejlesztőnek akár 4 hónapnál is tovább tartana.

A benchmarkban az AI nem fér hozzá az eredeti forráskódhoz, csak a futtatható bináris és a tesztesetek alapján kell rekonstruálnia a programot. Ez sokkal realisztikusabb és nehezebb felállás, mint a hagyományos kódmásolás. A tesztek szerint a kisebb, néhány ezer soros projekteket már régebbi modellek is megoldják, de a komplexebb feladatok csak az újabb generációval váltak lehetségessé.

A kutatók hangsúlyozzák, hogy további skálázással (több tokennel) még a 61 000 soros Pkl konfigurációs nyelv is megoldható lehet. Ez azt jelenti, hogy az AI autonóm software engineering képességei gyorsan közelítenek a hosszú távú, hetekig-hónapokig tartó emberi munkához — ha részletes specifikáció és visszacsatolás áll rendelkezésre.