A korábbi teszteken, mint a GSM8K vagy a MATH, a legfejlettebb AI modellek már 90% fölötti eredményeket érnek el, ám ezek a tesztek sok esetben a modellek képzési adataiból ismerős mintákat tartalmaznak. Az Epoch AI által létrehozott új FrontierMath benchmark teljesen új, publikálatlan, kutatási szintű matematikai problémákon teszteli a rendszereket, amelyek megoldása mély érvelési készséget és kreativitást igényel.
A tesztfeladatok annyira nehezek, hogy még a világ vezető matematikusai szerint is több órás, esetenként napokig tartó munkát igényelnek. Az AI modellek jelenleg az esetek mindössze 2%-ában képesek helyes megoldást nyújtani, még fejlett eszközök, például Python használata mellett is. A teszt célja, hogy tisztább képet adjon arról, milyen messze van az AI a valódi kutatói szintű matematikai gondolkodástól.
A FrontierMath nemcsak a technológia jelenlegi határait jelzi, hanem egy mérföldkövet is kijelöl: ha az AI képes lesz ezeket a problémákat megoldani, az alapjaiban változtathatja meg a mesterséges intelligencia jövőjéről alkotott elképzeléseinket. Jelenleg azonban világos, hogy az AI-nak még hosszú utat kell megtennie.