Une divergence entre les résultats de benchmark annoncés par OpenAI et ceux obtenus par un institut de recherche indépendant soulève des questions sur la transparence et les pratiques de test de l’entreprise. Découvrez les détails de cette révélation qui secoue le monde de l’intelligence artificielle.
Une promesse non tenue ?
Lors de son annonce en décembre, OpenAI avait fièrement présenté son modèle O3 comme capable de répondre à plus d’un quart des questions du benchmark FrontierMath, un ensemble de problèmes mathématiques complexes. Un score qui surpassait largement ceux de la concurrence, avec seulement 2% de réussite pour le meilleur modèle concurrent.
La réalité des tests indépendants
Cependant, les résultats publiés par Epoch AI, l’institut à l’origine de FrontierMath, racontent une histoire différente. Leur évaluation indépendante du modèle O3 montre un taux de réussite d’environ 10%, bien en dessous des 25% initialement avancés par OpenAI.
Des explications mais des questions
OpenAI n’a pas menti, mais les conditions de test semblent avoir été optimisées. La version du modèle testée en interne bénéficiait de plus de puissance de calcul que celle mise à disposition du public. Epoch AI souligne également des différences dans les versions de FrontierMath utilisées, ce qui pourrait expliquer l’écart.
Un rappel nécessaire
Cette situation rappelle que les benchmarks en IA doivent être interprétés avec prudence, surtout lorsqu’ils émanent d’entreprises ayant des produits à vendre. Les controverses autour des benchmarks sont devenues monnaie courante dans l’industrie, comme en témoignent les récentes affaires impliquant xAI et Meta.