A Meta által közzétett teszteredmények alapján a Llama 4 páratlanul teljesít szinte minden területen. A felhasználók visszajelzései viszont más képet festenek.
Bár a Meta tagadja, hogy manipulálta volna a benchmarkokat, az biztos, hogy például az LM Arena tesztekhez egy „kísérleti” verziót használtak, nem pedig a nyilvánosan elérhető Llama 4 Maverick modellt.
Külön kritika érte a modellek kódolási képességeit: a fejlesztői visszajelzések szerint a 402 milliárd paraméteres Maverick modell alig teljesít jobban, mint a 32B-s alternatívák, míg a kisebb Scout modellt szinte „használhatatlannak” tartják a programozáshoz.