
L’univers de l’intelligence artificielle est en pleine effervescence. La jeune pousse xAI, fondée par Elon Musk en mars 2023, vient de frapper un grand coup. Son nouveau modèle, Grok-4, bouscule la hiérarchie établie, notamment celle d’o3-pro d’OpenAI, en affichant des performances impressionnantes sur les bancs d’essai de référence. Il pourrait bien réécrire les règles.
💡 Points clés
- 🚀 Grok-4 dépasse des modèles comme o3-pro sur plusieurs benchmarks clés.
- 🧠 xAI a mis l’accent sur le raisonnement complexe et l’apprentissage par renforcement.
- 💰 Le modèle est proposé via des abonnements onéreux, le plaçant parmi les IA les plus chers.
- 🔮 Malgré ses forces, Grok-4 présente des limites en multimodalité et programmation, mais xAI promet des développements futurs.
Grok-4 : l’IA qui redéfinit le raisonnement
xAI, la startup d’Elon Musk, a dévoilé Grok-4 et sa version avancée, Grok-4 Heavy, le 9 juillet. Ces modèles de raisonnement affichent des performances supérieures à celles des meilleurs modèles d’OpenAI, d’Anthropic et de Google DeepMind. L’entreprise s’est concentrée sur le raisonnement, laissant de côté l’approche généraliste. Grok-4 excelle dans les tâches exigeant une réflexion complexe et une logique avancée. Cette stratégie mise sur l’apprentissage par renforcement plutôt qu’une augmentation massive des données d’entraînement. xAI a mobilisé une puissance de calcul inédite. Elle a utilisé « dix fois plus de calcul » que tout autre modèle existant pour l’apprentissage par renforcement. Cela a été possible grâce aux 200 000 GPU du superordinateur Colossus.
« xAI a mis l’accent sur une échelle sans précédent en apprentissage par renforcement. Cela a permis des avancées significatives dans le raisonnement complexe des modèles Grok-4. »
Comme d’autres modèles de pointe, Grok-4 décompose les problèmes complexes en plusieurs étapes logiques. C’est le principe de la chaîne de pensée, similaire à o3, Gemini 2.5 Pro ou Claude-4. Grok-4 Heavy va plus loin. Il utilise plusieurs instances du modèle pour aborder un problème sous différents angles. Elles comparent leurs approches afin de converger vers la meilleure solution. Le modèle dispose d’un contexte de 256 000 tokens.
Des performances record sur les bancs d’essai
Grok-4 a établi de nouveaux records sur plusieurs benchmarks de référence. Sur le test « Humanities Last Exam », qui contient 2 500 problèmes de niveau doctoral, Grok-4 résout 26,9% des questions en mode standard. La version Heavy atteint plus de 45%. Selon Elon Musk, ces résultats positionnent le modèle au niveau post-doctoral « dans toutes les matières ». Il souligne qu’un humain n’obtiendrait « peut-être que 5% » sur ce test. En mathématiques, Grok-4 réalise un score parfait de 100% sur AIME25. Il dépasse o3 qui obtient 98,4%. Sur HMMT25, il marque 96,7%, contre 82,5% pour Claude 4 Opus.
Plus remarquable encore, Grok-4 est le premier modèle public à franchir la barre des 10% sur ARC-AGI. Il atteint précisément 15,9% de précision. Greg Kamradt, président d’ARC Prize, a confirmé cette performance. La validation a été effectuée de manière indépendante sur un jeu de données semi-privé. « Grok-4 montre des niveaux non nuls d’intelligence fluide« , a-t-il précisé. Le score précédent le plus élevé sur ce test était d’environ 8% avec Claude Opus 4. Enfin, l’Artificial Analysis Intelligence Index, qui agrège sept évaluations distinctes, place Grok-4 en tête. Il obtient un score de 73 points, reflétant son classement général impressionnant.
Des lacunes à combler pour une IA complète
Malgré ses prouesses en raisonnement, Grok-4 présente des limitations notables. Ses capacités multimodales restent rudimentaires. Elon Musk a reconnu que Grok-4 est « partiellement aveugle ». Il a précisé que « sa compréhension des images doit être bien meilleure ». Les performances du modèle sont plus contrastées en programmation. Sur LiveCodeBench, qui évalue les capacités de codage sur des problèmes récents, Grok-4 atteint 79,4%. Ce score le positionne au niveau de Gemini 2.5 Pro (79,3%). Il est légèrement derrière o3. xAI a toutefois annoncé un modèle de codage spécialisé en développement. Il promet d’être « à la fois rapide et intelligent », avec une disponibilité prévue « dans quelques semaines ».
Un modèle d’exception à prix d’or
L’accès à Grok-4 se fait via un modèle tarifaire exigeant. Pour les utilisateurs grand public, l’abonnement SuperGrok coûte 30 dollars mensuels. Il donne accès à Grok-4. La version SuperGrok Heavy, avec ses capacités multi-agents, est proposée à 300 dollars par mois. Cette grille tarifaire positionne xAI comme l’un des fournisseurs d’IA les plus chers du marché. Le modèle est également accessible via l’API de Grok. Toutefois, son prix officiel n’a pas encore été communiqué.
« Le positionnement tarifaire de Grok-4 le place clairement dans le segment premium, visant un public prêt à investir pour des performances de pointe en raisonnement. »
Course à l’innovation : le futur des modèles d’IA
Avec Grok-4, xAI s’impose temporairement en tête des modèles de raisonnement. Cependant, cette domination pourrait être de courte durée. L’entreprise d’Elon Musk a un calendrier de déploiements ambitieux. Un modèle de codage spécialisé est attendu en août. Un agent multimodal est prévu en septembre. Enfin, un modèle de génération vidéo devrait arriver en octobre. La concurrence reste intense et ne chôme pas. De nouvelles versions de Claude ont été aperçues en test sur le web. Google prépare Gemini 3.0. OpenAI devrait lancer GPT-5 dans les prochaines semaines. La course à l’innovation dans l’IA promet de nouveaux rebondissements.



