A Google bemutatta az új Agentic Vision nevű funkciót a Gemini 3 Flash modellben. A lényege, hogy a képelemzést nem egyszeri, „statikus” pillanatként kezeli, hanem egy lépésről lépésre haladó, aktív vizsgálatként: a modell képes Python kódot futtatni, hogy kinagyítson, kivágjon, megforgasson, annotáljon, vagy akár számításokat végezzen a képen, iteratívan, amíg el nem jut a legpontosabb válaszig.
Ez a megközelítés valójában nem teljesen új, a ChatGPT már régóta tud ilyesmit a webes felületén, de a Google most ezt a képességet önálló, API-n keresztül gyorsan és költséghatékonyan elérhető, „agentikus” funkcióként kínálja.
