Az OpenAI új kutatása szerint az AI rendszerek nem azért találnak ki dolgokat, mert „rosszul működnek”, hanem mert a jelenlegi benchmarkok gyakorlatilag erre ösztönzik őket. Ha egy modell nem tudja a választ egy kérdésre, akkor jobban jár, ha „kitalál” valamit, mint ha elismeri, hogy nem tudja: a tesztek általában kizárólag a helyes válaszokat jutalmazzák, míg a bizonytalanság beismerése nulla pontot ér. Így születnek a meggyőző, de hamis állítások, azaz a „hallucinációk”.

Az OpenAI szerint a megoldás egy új értékelési rendszer lenne, ami bünteti a magabiztos hibákat, és részben jutalmazza a bizonytalanság beismerését. A 100%-os pontosság nem elvárható a modellektől, de az igen, hogy felismerjék, amikor nem tudnak valamit.

Érdemes felidézni Andrej Karpathy gondolatait a hallucinációk kapcsán – szerinte ezek nem „hibák” hanem az AI modellek alapműködéséből adódnak:

„I always struggle a bit with I’m asked about the ‘hallucination problem’ in LLMs. Because, in some sense, hallucination is all LLMs do. They are dream machines.
We direct their dreams with prompts. The prompts start the dream, and based on the LLM’s hazy recollection of its training documents, most of the time the result goes someplace useful.
It’s only when the dreams go into deemed factually incorrect territory that we label it a ‘hallucination’. It looks like a bug, but it’s just the LLM doing what it always does.”