A Meta, két párizsi egyetem kutatóival közösen, új módszert javasol a nagy nyelvi modellek pontosságának és sebességének javítására: a modellek ne csak a következő tokent jósolják meg, hanem több tokent egyszerre.

A „multi-token prediction” módszer ugyanarra a transzformer architektúrára épül, mint a mai LLM-ek többsége, de jobb teljesítményt és akár háromszoros sebességnövekedést eredményez a hagyományos, egytokenes előrejelzéshez képest. Bár a módszer nem tűnik univerzális megoldásnak minden modellhez és feladathoz, a kutatók szerint nagy előnyökkel járhat bizonyos alkalmazásokban.