A Google bemutatta a Gemini Embedding 2-t, az első natívan multimodális embedding modellt: képeket, videót, hangot és dokumentumokat egyetlen közös reprezentációs térbe képez le. Több mint 100 nyelven értelmezi a szemantikus tartalmat: szövegből 8192 tokenig, képből 6 darabig, videóból 120 másodpercig tud embeddinget generálni. A modell már elérhető a Gemini API-n és a Vertex AI-on keresztül.
A technológia egyszerre több médiafajtát is feldolgozhat, és közös nyelven értelmezi azokat. Ez teljesen új típusú alkalmazásokat tesz lehetővé: intelligens médiaarchívumok, ahol egyetlen lekérdezéssel kereshetünk fotók, videók és hangjegyzetek között; sport- vagy tartalomelemző eszközök, amelyek pillanatokat azonosítanak leírás alapján; vagy dokumentumkezelő rendszerek, amelyek összekapcsolják a PDF-eket, prezentációkat és felvételeket.
A modell Matryoshka Representation Learning (MRL) technológiát használ, amely dinamikusan skálázható dimenziókat tesz lehetővé. A Google szerint a Gemini Embedding 2 új teljesítménystandardot állít fel multimodális mélységben, és kiemelkedő eredményeket ér el szöveg, kép és videó feladatokban egyaránt.
