A Google Research nyílt forráskódú algoritmus-csomagja, a TurboQuant, 6-szoros memóriacsökkentést és 8-szoros sebességnövekedést biztosít nagy nyelvi modelleknél tréning nélkül. A megoldás akár 50%-kal is csökkentheti a költségeket vállalati környezetben.
A technológia két algoritmust kombinál: a PolarQuant polárkoordinátákra konvertálja a vektorokat, a QJL transzformáció pedig 1 bites előjel bitekre redukálja a maradék hibát. A Needle-in-a-Haystack tesztben tökéletes eredményt ért el nyílt forráskódú modelleknél, ami rendkívül ritka a 3 bites rendszerek világában.
A bejelentés azonnali piaci hatással járt: a Micron és Western Digital részvényárfolyama csökkenni kezdett, mivel a befektetők felismerték, hogy a szoftveres tömörítés hatodjára csökkentheti a memóriaigényt. A közösségi fejlesztők 24 órán belül elkezdték portolni az algoritmust az MLX és llama.cpp könyvtárakra.
A vállalatok azonnal profitálhatnak: kevesebb GPU szükséges hosszú kontextusú alkalmazásokhoz, korábban túl költséges RAG feladatok válnak megvalósíthatóvá, és nagyobb modellek futtathatók helyi hardveren, ami adatvédelmi előnyökkel jár.
