Egy friss tanulmány szerint a legfejlettebb LLM-ek (pl. GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet) is komoly teljesítményromlást mutatnak, ha a felhasználói utasítások nem egy körben, hanem több lépésben, fokozatosan pontosítva érkeznek.

A kutatók hat különböző generatív feladattípuson (kód, matek, SQL, API hívás, adat-összefoglalás, dokumentum-összefoglalás) futtattak szimulációkat, és az átlagos teljesítménycsökkenés 39% volt a többkörös párbeszédekben.

A modellek ilyenkor:

  • elhamarkodott, gyakran hibás feltételezésekre építenek,
  • már azelőtt megoldást próbálnak adni, hogy minden infó rendelkezésre állna,
  • túlságosan támaszkodnak saját (esetleg hibás vagy „túlbeszélt”) korábbi válaszaikra,
  • hajlamosak elhanyagolni a középső utasításokat („loss-in-the-middle” probléma).

Egy jól megírt, egykörös prompt hatékonyabb, mint egy hosszú, pontosító párbeszéd.