A kínai DeepSeek bemutatta a DeepSeek-OCR-t, egy új, nyílt forráskódú modellt, ami az eddigiektől teljesen eltérően közelíti meg a szövegfeldolgozást: a hagyományos karakterfelismerés helyett a teljes oldalakat tömör, „vizuális tokenekké” alakítja, majd ezekből generál vissza szöveget egy speciális nyelvi modellel. Ez a módszer akár 10-szeres tömörítést is lehetővé tesz, miközben 97%-os pontosságot ér el (Fox benchmark). Az OmniDocBench teszten szintén látványos eredményeket ér el, ráadásul a hagyományos modellekhez képest lényegesen kevesebb erőforrással.
A DeepSeek-OCR különböző tömörítési és felbontási módokat kínál, igazodva a dokumentum méretéhez és komplexitásához. Egyetlen A100-40G GPU-n napi 200 ezer oldal feldolgozására képes.
A kutatók szerint az új megközelítés nemcsak az OCR-feladatokat teszi hatékonyabbá, hanem lehetőséget ad a nyelvi modellek kontextusablakának jelentős bővítésére is.
