A kínai ByteDance bemutatta a BAGEL nevű nyílt forrású, 14 milliárd paraméteres multimodális AI modellt, amely nemcsak szövegeket, de képeket és videókat is képes értelmezni, szerkeszteni és generálni. A fejlesztők szerint a BAGEL számos ismert nyílt modellnél (mint a Qwen2.5-VL vagy az InternVL-2.5) jobb eredményt ért el multimodális feladatokban, sőt, a képgenerálási képességei vetekszenek egyes zárt modellekkel (pl. SD3).
A BAGEL egyik érdekessége, hogy az ún. „világmodellezési” képességei túlmutatnak a hagyományos képszerkesztésen: képes navigálni szimulált világokban, több nézőpontból szintetizálni a látványt, és akár „jövőbeli” képkockákat is előrejelezni. Emellett gondolkodási láncokat is alkalmaz, így nem csak „rajzol”, hanem előbb „átgondolja”, mit készít.
A fejlesztők célja, hogy nyílt, ingyenes alternatívát nyújtsanak olyan komplex rendszerekhez, mint a GPT-4o vagy a Gemini 2.0.
Pintér Zsolt magyar nyelvű videóban mutatja be a modell képességeit: https://www.youtube.com/watch?v=O6B7TPCpRnE