Az Appen, az AI modellek értékelésével foglalkozó cég független benchmark-vizsgálatot tett közzé a modellről, és az eredmények még a korábbi bejelentésnél is erősebbnek tűnnek.
A jelentés szerint a SubQ mind a négy vizsgált tesztcsomagban élvonalbeli eredményt ért el. 1 millió tokenes kontextusnál 56,2-szer gyorsabb volt, mint a FlashAttention-2, és 62,8-szor kevesebb számítási műveletet igényelt, mint a hagyományos dense attention megoldás.
A hosszú kontextusú visszakeresési teszteken is erős: RULER 128K-n 95,6%-os átlagot ért el, az egyszerű „tű a szénakazalban” feladatokat pedig hibátlanul oldotta meg. Az ultra-hosszú, 512K–1M tokenes MRCR teszten a legnehezebb, 8 tűs visszakeresési kategóriában 86,2%-os átlagot hozott. Kódolásban, a SWE-Bench Verified teszten 81,8%-os megoldási arányt ért el.
