A VASA-1 kép-videó modell beszédaudióból egy fotó alapján élethű videót képes létrehozni, szinkronizált ajak- és arcmozgással, természetes fejmozgással. Mivel a modell külön kezeli a személy kinézetét, a fej helyzetét, és az arcmozdulatokat, ezért ezeket külön-külön is lehet variálni. Ráadásul egy sima asztali gépen is valós időben, akár 40 FPS sebességgel képes videót generálni, minimális késleltetéssel, ami lehetővé teszi az azonnali interakciót.
A Microsoft hangsúlyozza, hogy a VASA-1 jelenleg csak kutatási demonstrációs célokat szolgál, és nincs tervben a széleskörű piaci bevezetés.