Az Alibaba bemutatta a Qwen2-VL modellt, amely több tesztben is felülmúlja a GPT-4o-t, például a dokumentumok feldolgozása, vagy a többnyelvű szöveg-kép párok értelmezése terén. A fejlesztők szerint akár 20 perc hosszúságú videót is képes megérteni.

A Qwen2-VL három változatban érhető el, amik közül a két kisebb verzió nyílt forráskódú és szabadon felhasználható.