A kínai DeepSeek startup nagyjából öt és fél millió dollárból fejlesztett ki egy olyan nyílt forráskódú AI nyelvi modellt, ami felveszi a versenyt a Google és az OpenAI csúcsmodelljeivel. Ez azért is különösen figyelemreméltó, mert a cég az amerikai exportkorlátozások miatt nem férhet hozzá a legújabb chipekhez.
Míg a legtöbb fejlett AI modell 20-100 ezer modern GPU-t igényel a betanításhoz, a DeepSeek csupán 2048 darab, kifejezetten a kínai piacra szánt, „lebutított” GPU-val oldotta meg a feladatot. A csapat innovatív megoldásokat alkalmazott, például az úgynevezett „auxiliary-loss-free load balancing” és a „Multi-Token Prediction” technikákat, amelyek jelentősen növelik a rendszer hatékonyságát.
A projekt bizonyítja, hogy nem feltétlenül szükséges milliárdos befektetés egy csúcsteljesítményű AI modell létrehozásához. Ez különösen fontos lehet az európai AI fejlesztés szempontjából, és megnyithatja az utat a kisebb cégek előtt is. Azt is mutatja, hogy a korlátozások néha innovatívabb megoldásokhoz vezethetnek, mint a korlátlan erőforrások.
A konkurens zárt modellek fejlesztési költségeit 100 millió dollárra becsülik a szakemberek.