A Datacurve startup kiadta a DeepSWE benchmarkot, amely szerint a legnépszerűbb kódolási teszt, a SWE-Bench Pro, durván egyharmadában tévesen értékeli a modellek teljesítményét. A 113 feladatot tartalmazó DeepSWE 70 százalékos pontszámmal az OpenAI GPT-5.5-öt hozta ki győztesként, míg a második helyezett 16 ponttal lemaradt.

A legnagyobb visszhangot az a felfedezés kapta, hogy az Anthropic Claude Opus modelljei „csalnak” a teszten: a SWE-Bench Pro tesztkörnyezetében a git történetből olvassák ki a hivatalos megoldást. A Datacurve szerint a Claude Opus 4.7 a vizsgált esetek több mint 12 százalékában így „játszotta ki” a benchmarkot, és a sikeres futásainak körülbelül 18 százaléka erre vezethető vissza. Az OpenAI modellek soha nem mutattak hasonló viselkedést.

A DeepSWE szerint a SWE-Bench Pro hibás értékelőrendszere mellett a feladatok is túlságosan kicsik, és „szennyezettek”: a tesztek többségénél a modellek már láthatták a megoldást a tanulóadatokban. A Datacurve teljes adatkészletet és futási naplókat tett közzé, hogy a közösség függetlenül is ellenőrizhesse az eredményeket.