A Taalas bemutatta a „Hardcore” AI chip architektúráját, amelyet kifejezetten egyetlen AI modell futtatására optimalizáltak. A cég két és fél évvel ezelőtt alakult, és mindössze 30 millió dollárból – a több mint 200 milliós befektetésből – fejlesztette ki az első HC1 chipjét. A lényeg: a modell paramétereit és súlyait közvetlenül a szilíciumba égetik, így nincs szükség GPU-ra vagy általános ASIC-re.

Az első implementáció a Meta Llama 3.1 8B modelljét futtatja, és a mérése szerint tízszer gyorsabb a Cerebras wafer-szintű motorjánál, a GPU-knál pedig két nagyságrenddel. Az inference költsége 0.75 dollárcent millió tokenenként – szemben a GPU-k ~3.50 centes áraival. Egy rack mindössze 12-15 kW-ot fogyaszt, míg egy GPU rack 120-600 kW-ot igényel, és levegőhűtéssel is működik.

A cég két hónap alatt képes új chipverziót gyártani, ha egy modell frissül – csak két fémréteget kell módosítani. A tavaszra egy közepes méretű reasoning modell, télre pedig a HC2 platformon egy frontier LLM érkezik. A Taalas szerint a felhőszolgáltatók 60-75%-os megtakarítást érhetnek el négy év alatt, ha bevállalják a modellenkénti hardveres specializációt.