A Mistral nyílt forráskódú beszédgeneráló modellt adott ki, amely kilenc nyelven képes természetes hangot létrehozni szöveges promptból. A Voxtral TTS angol, francia, német, spanyol, holland, portugál, olasz, hindi és arab nyelvet támogat.

A modell kevesebb mint öt másodpercnyi mintából megtanul bármilyen hangot utánozni, és megőrzi az akcentus, a hangsúly és a beszédritmus jellegzetességeit. Nyelvváltás közben sem veszti el a hangszínt, ami hasznos lehet szinkronizálásnál vagy valós idejű fordításnál. A Ministral 3B-re épülő rendszer 90 millisekundum alatt kezd el beszélni, és valós időnél hatszor gyorsabb generálásra képes.

A Mistral az ElevenLabs, a Deepgram és az OpenAI versenytársaként pozicionálja a modellt, és kiemeli: az ügyfelek a saját GPU klasztereiken futtathatják, így az adataik nem hagyják el a vállalati infrastruktúrát.