Egyre élesebb a verseny a text-to-video modellek között, amibe a Genmo cég egy erős új modellel lépett be. A fejlesztők célja, hogy a legkorszerűbb videógenerálási képességeket elhozzák a nyílt forráskódú közösségbe.

A Mochi-1-ben a valósághű mozgás megjelenítésére helyezték a hangsúlyt. A Genmo vezérigazgatója szerint az AI videók egyik legnagyobb kihívása, hogy a kép ténylegesen mozogjon, és ne „élő fotó” hatást keltsen. Ennek érdekében a modellt kizárólag videós adatokon tanították be, ellentétben más modellek kevert kép-videó-szöveg alapjaival.

A jelenlegi verzió 480p minőségű videókat készít, és erős hardverre van szükség a futtatásához, de a nyílt forráskódú felépítés lehetőséget ad arra, hogy a közösség továbbfejlessze, finomhangolja, és szélesebb körben hozzáférhetővé tegye a jövőben.

Az Apache 2.0 licenc alatt kiadott modell bármilyen célra ingyen felhasználható. Demó videó a Facebookon megtekinthető, a Genmo weboldalán pedig ki is lehet próbálni az új modellt.