A dél-koreai Nari Labs bemutatta Dia nevű text-to-speech modelljét, amely már most jobb eredményeket produkál, mint az éllovas ElevenLabs. Mindezt két alapszakos hallgató hozta össze, nulla befektetéssel. A Google NotebookLM projekt inspirálta őket, a számítási erőforrást pedig a Google TPU Research Cloud biztosította.
Az 1,6 milliárd paraméteres modell nemcsak különböző érzelmi tónusokat és több beszélőt képes kezelni, hanem akár nevetést, köhögést és más nem verbális hangokat is szintetizál. A Dia a tesztek szerint kifejezőbb, gyorsabb és „emberibb”, mint zárt versenytársai. A fejlesztők célja egy közösségi tartalomgyártásra fókuszáló app piacra dobása.
Meggyőző demó a Facebookon meghallgatható: https://www.facebook.com/groups/730310438659106/posts/1227579858932159/