A Google Gemini 3.1 Pro Preview modellje vezet az Artificial Analysis Intelligence Indexen 57 ponttal, néggyel megelőzve az Anthropic Claude Opus 4.6-ot. Érdekesség, hogy a teszt futtatása mindössze 892 dollárba került – szemben a GPT-5.2 2304 dollárjával és a Claude Opus 4.6 2486 dollárjával (ez a Gemini gazdaságosabb token-kezelésének köszönhető).
A modell tíz kategóriából hatban ért első helyet, köztük agent-alapú kódolásban, tudásban, tudományos következtetésben és fizikában. A hallucinációs ráta 38 százalékpontot javult a Gemini 3 Pro-hoz képest. A modell mindössze 57 millió tokent használt a teljes teszthez, míg a GPT-5.2 130 milliót.
A közösségi médiában megjelent beszámolók alapján azonban a 3.1 Pro gyengébben teljesít: bizonyos teszteken még gyengébben szerepel, mint a Gemini 3 Pro, és a valós agent-feladatokban továbbra is a Claude Sonnet 4.6, Opus 4.6 és GPT-5.2 vezetnek.
