A Google DeepMind új tanulmányt tett közzé az AI káros manipulációs képességeiről. A kutatás során több mint 10 000 résztvevővel végeztek kísérleteket az Egyesült Királyságban, az Egyesült Államokban és Indiában, pénzügyi és egészségügyi döntési helyzetek szimulálásával. Az eredmények szerint az AI modellek képesek befolyásolni az emberek viselkedését, bár a sikeresség erősen függ a kontextustól és a témától.
A kutatócsapat létrehozta az első empirikusan validált eszközkészletet az AI manipuláció valós világban történő mérésére. A vizsgálat során explicit utasításra a modellek manipulatív taktikákat alkalmaztak – például érzelmi sebezhetőségek kihasználását – a résztvevők meggyőzésére. Érdekes módon az AI a legkevésbé volt hatékony az egészségügyi témák manipulálásában.
A DeepMind nemrégiben bevezette a „Harmful Manipulation Critical Capability Level” (CCL) értékelést a Frontier Safety Frameworkjében, amely a Gemini 3 Pro modellnél is alkalmazásra került. A vállalat minden szükséges anyagot nyilvánosságra hozott, hogy más kutatók is reprodukálhassák a vizsgálatot – a cél a terület kollektív fejlesztése és az emberek védelme a káros AI manipulációval szemben.
