A Google bemutatta a Gemini 3.1 Flash TTS modellt, egy új generációs szövegfelolvasó rendszert, amelyet a fejlesztők, vállalatok és mindennapi felhasználók számára terveztek. A modell az Artificial Analysis TTS ranglistáján jelenleg a második helyen áll, a kategóriájához képest kedvező árazással.
A 3.1 Flash TTS legfontosabb újítása az „audio tag” rendszer, amely természetes nyelvi parancsokkal irányítható. Ezekkel a címkékkel a szövegben közvetlenül lehet szabályozni a hang stílusát, tempóját és árnyalatait. A modell 70-nél is több nyelvet támogat (köztük a magyart is), és natív többszereplős párbeszédeket is képes generálni.
A rendszer már elérhető előzetes verzióban a Gemini API-n és a Google AI Studioban, valamint vállalati felhasználóknak a Vertex AI platformon. A Google Vids videószerkesztőben is megjelenik. A generált hangokat SynthID vízjellel látják el, hogy az AI által készített tartalmak azonosíthatók legyenek.
