-
Új kisméretű modell a Mistraltól
A francia startup bemutatta a Mistral Small 3-at, egy 24 milliárd paraméteres, nyílt forráskódú AI-modellt, amely Apache 2.0 licenc alatt érhető el, így szabadon felhasználható akár kereskedelmi célra is. A modell kiemelkedően gyors (150 token/másodperc), teljesítményben pedig felveszi a versenyt jóval nagyobb méretű modellekkel is, például a Llama 3.3 70B-vel. A fejlesztők szerint az új…
-
Tévhitek a DeepSeekkel kapcsolatban
1. Kémprogram: a modell helyben is használható, internetkapcsolat nélkül, ami kizárja, hogy adatokat továbbítana bárhová is. 2. Silány, rossz minőségű másolat: iparági szakértők tömegei áradoznak a modell képességeiről, és bár valószínűleg nem minden téren éri el az amerikai csúcsmodellek teljesítményét, ár-érték tekintetében veri az összes modellt. A nagy AI vállalatok éppen darabokra szedik a modellt,…
-
A DeepSeek egy új, nyílt forráskódú képgeneráló modellt mutatott be
A kínai vállalat felrobbantotta az internetet az új open-source nyelvi modelljével, az R1-gyel, ami megközelíti vagy meg is haladja a zárt rendszerű csúcsmodellek teljesítményét. A fejlesztők nem álltak le, és most egy új, kisméretű, de erős képgeneráló modellt mutattak be, ez a Janus-Pro-7B. A modell nyílt forráskódú és szabadon felhasználható kereskedelmi célokra is. A Hugging…
-
A DeepSeek új nyílt modellje simán veri a GPT-4o-t szinte minden teszten
Az „érvelő” típusú DeepSeek R1 még az OpenAI jelenlegi csúcsmodelljét, az o1-et is felülmúlja számos benchmark teszten. Az óriási, 671 milliárd paraméteres modell tudását a fejlesztők átültették kisebb, erőforrás-hatékonyabb ún. „distilled” verziókba is, amik gyengébb hardveren is futtathatók. Az új modell ingyenesen kipróbálható a DeepSeek chat felületén, és az API árak is rendkívül kedvezőek a…
-
Új kódoló modell a Mistraltól: Codestral 25.01
A francia Mistral AI kiadta a Codestral kódgeneráló modelljének legújabb verzióját, ami kétszer gyorsabb az elődjénél, és legalább 80 programozási nyelven képes kódot feldolgozni. Jelenleg első helyen szerepel az LMSYS „copilot aréna” ranglistáján. Különösen jól teljesít a kód kiegészítés (fill-in-the-middle) típusú feladatokban. Az új modell már elérhető a Google Cloud Vertex AI-on és az Azure…