Egy friss, a Science folyóiratban megjelent tanulmányban a Harvard Medical School és a Beth Israel Deaconess Medical Center kutatói az OpenAI o1 modelljének diagnosztikai pontosságát hasonlították össze két belgyógyászati osztályvezető orvoséval. A 76 sürgősségi beteg esetét vizsgálva az AI 67%-ban adott pontos vagy közeli diagnózist az első vizsgálat során, míg az egyik orvos 55%-ban, a másik 50%-ban.
A kutatás különösen a betegfelvételi fázisban mutatott nagy különbséget, ahol a legkevesebb információ áll rendelkezésre és ahol a legfontosabb a gyors döntés. A kutatók hangsúlyozzák, hogy az adatokat nem előkezelték – az AI ugyanazt az információt kapta, ami az elektronikus egészségügyi nyilvántartásban rendelkezésre állt. Ez az első olyan vizsgálat, amely valós sürgősségi helyzetekben méri az AI teljesítményét.
A szerzők nem azt szorgalmazzák, hogy az AI önállóan dönthessen élet-halál kérdésekről. Csupán figyelmeztetnek, hogy „szükség van prospektív kísérletekre”, a technológiák valós környezetben történő értékelésére. A Guardiannak nyilatkozó kutatók emellett kiemelték: jelenleg nincs megfelelő keretrendszer az AI-diagnózisok felelősségének kezelésére, és a betegek továbbra is emberi irányítást várnak.
