Egy friss kutatásban 18 nagy nyelvi modellt – köztük a GPT-4.1-et, Claude 4-et, Gemini 2.5-öt és Qwen3-at – vizsgálták, hogy hogyan teljesítenek különböző hosszúságú szövegek feldolgozásában. Azt találták, hogy a teljesítmény látványosan romlik, még egyszerű feladatoknál is, ahogy a bemeneti szöveg hossza nő.
A kutatás szerint az elterjedt „Needle in a Haystack” tesztek túl egyszerűek, mert csak szó szerinti keresést mérnek. A valós, összetettebb kérdések, homályosabb összefüggések vagy hasonló témájú zavaró szövegek esetén a modellek gyakrabban hibáznak.
Érdekesség, hogy a logikusan felépített, koherens szövegek (pl. esszék vagy tanulmányok) valójában nehezebb terep a modelleknek, mint a véletlenszerűen összekevert mondatokból álló szöveg.
A tanulmány felhívja a figyelmet arra, hogy az LLM-ek hosszú kontextusban továbbra sem megbízhatóak, és a promptok, a releváns információk elhelyezése, valamint a zavaró elemek szűrése sokkal fontosabb, mint azt sokan gondolják.
