Az AI modellek szabványos méréseken elért eredményeit előszeretettel hangoztatják a fejlesztők, ám a tesztek gyakran nem tükrözik az átlagfelhasználók valós igényeit. Sok esetben PhD-szintű kérdések megválaszolására összpontosítanak, ami messze áll az emberek többségének mindennapi használatától. Egyetlen képesség szűk területén mérik a modellek teljesítményét, és nem veszik figyelembe az AI rendszerek sokrétű és kreatív felhasználási módjait.
Felvetődik a kérdés, hogy a jelenlegi benchmarkok eredményeit nézve valóban a legjobb AI modelleket kapjuk-e, vagy csak azokat, amelyek egy szűk, mesterségesen létrehozott tesztkörnyezetben teljesítenek jól.
A mesterségesen létrehozott tesztek problémáját felvetette az Anthropic kutatója is, annak kapcsán, hogy a Claude modelljük a tesztelésekor észrevette, hogy tesztelik: https://aihirfolyam.hu/2024/03/a-claude-3-tesztelesekor-az-ai-eszrevette-hogy-tesztelik/