10.1 C
Paris
lundi, avril 21, 2025
spot_img

Le modèle O3 d’OpenAI obtient un score inférieur aux attentes lors d’un benchmark indépendant

Une divergence entre les résultats de benchmark annoncés par OpenAI et ceux obtenus par un institut de recherche indépendant soulève des questions sur la transparence et les pratiques de test de l’entreprise. Découvrez les détails de cette révélation qui secoue le monde de l’intelligence artificielle.

Une promesse non tenue ?

Lors de son annonce en décembre, OpenAI avait fièrement présenté son modèle O3 comme capable de répondre à plus d’un quart des questions du benchmark FrontierMath, un ensemble de problèmes mathématiques complexes. Un score qui surpassait largement ceux de la concurrence, avec seulement 2% de réussite pour le meilleur modèle concurrent.

La réalité des tests indépendants

Cependant, les résultats publiés par Epoch AI, l’institut à l’origine de FrontierMath, racontent une histoire différente. Leur évaluation indépendante du modèle O3 montre un taux de réussite d’environ 10%, bien en dessous des 25% initialement avancés par OpenAI.

Des explications mais des questions

OpenAI n’a pas menti, mais les conditions de test semblent avoir été optimisées. La version du modèle testée en interne bénéficiait de plus de puissance de calcul que celle mise à disposition du public. Epoch AI souligne également des différences dans les versions de FrontierMath utilisées, ce qui pourrait expliquer l’écart.

Un rappel nécessaire

Cette situation rappelle que les benchmarks en IA doivent être interprétés avec prudence, surtout lorsqu’ils émanent d’entreprises ayant des produits à vendre. Les controverses autour des benchmarks sont devenues monnaie courante dans l’industrie, comme en témoignent les récentes affaires impliquant xAI et Meta.

spot_img

Related Articles

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

- Advertisement -spot_img

Latest Articles