Ha valaki szeretne elmerülni a VLM-ek (azaz a vizuális képességekkel felvértezett nyelvi modellek) világában, a Meta friss anyagából sok mindent megtudhat. A bevezető tanulmány a képi adatok nyelvi leképezésére fókuszál, de szó esik többek közt a videók feldolgozásáról is:
