A DeepSeek-V3 az első tesztek alapján felveszi a versenyt a vezető zárt forrású modellekkel. A 671 milliárd paraméteres Mixture-of-Experts architektúrájú modell háromszor gyorsabb elődjénél, és kiemelkedő eredményeket ért el több benchmarkon is – például a MATH 500 teszten 90,2%-os pontszámot szerzett.
Figyelemreméltó, hogy a modellt csupán 2000 GPU-val tanították be, szemben például a Meta 100 ezer egységes rendszerével. A modell nyílt forráskódú licensszel érhető el, ami lehetővé teszi a kereskedelmi felhasználást is.
A DeepSeek felületén ingyen kipróbálható az új modell, illetve az API-n keresztül is használható – a jelenleg futó kedvezménnyel nagyjából tízszer olcsóbban, mint a hasonló kaliberű zárt modellek.