A Microsoft AI kutatólaborja bemutatta három új alapmodelljét: a MAI-Transcribe-1 beszédfelismerő rendszert, a MAI-Voice-1 hanggenerátort és a MAI-Image-2 képgeneráló modellt. A Mustafa Suleyman vezette csapat célja, hogy saját multimodális AI stacket építsen — párhuzamosan az OpenAI partnerséggel.

A MAI-Transcribe-1 25 nyelven képes beszédet szöveggé alakítani, és 2,5-ször gyorsabb, mint az Azure Fast megoldás. A MAI-Voice-1 másodpercenként 60 másodpercnyi hangot generál, és egyedi hangok létrehozását is lehetővé teszi. A modellek a Microsoft Foundry platformon és a MAI Playgroundban érhetők el.

A Microsoft hangsúlyozza, hogy a modellek olcsóbbak, mint a Google és OpenAI megoldásai — a hangfelismerés óránként 0,36 dollárba kerül. Suleyman szerint „emberközpontú AI-t” építenek, amelyet a gyakorlati használatra optimalizáltak. A cég nem szakít az OpenAI-val, de a frissített partnerségi megállapodásuk lehetővé teszi saját kutatásaik folytatását is.