Le modèle O3 d’OpenAI obtient un score inférieur aux attentes lors d’un benchmark indépendant

20 avril 2025

10

Modèle d'IA et benchmark avec scores variables

Une divergence entre les résultats de benchmark annoncés par OpenAI et ceux obtenus par un institut de recherche indépendant soulève des questions sur la transparence et les pratiques de test de l’entreprise. Découvrez les détails de cette révélation qui secoue le monde de l’intelligence artificielle.

Une promesse non tenue ?

Lors de son annonce en décembre, OpenAI avait fièrement présenté son modèle O3 comme capable de répondre à plus d’un quart des questions du benchmark FrontierMath, un ensemble de problèmes mathématiques complexes. Un score qui surpassait largement ceux de la concurrence, avec seulement 2% de réussite pour le meilleur modèle concurrent.

La réalité des tests indépendants

Cependant, les résultats publiés par Epoch AI, l’institut à l’origine de FrontierMath, racontent une histoire différente. Leur évaluation indépendante du modèle O3 montre un taux de réussite d’environ 10%, bien en dessous des 25% initialement avancés par OpenAI.

Des explications mais des questions

OpenAI n’a pas menti, mais les conditions de test semblent avoir été optimisées. La version du modèle testée en interne bénéficiait de plus de puissance de calcul que celle mise à disposition du public. Epoch AI souligne également des différences dans les versions de FrontierMath utilisées, ce qui pourrait expliquer l’écart.

Un rappel nécessaire

Cette situation rappelle que les benchmarks en IA doivent être interprétés avec prudence, surtout lorsqu’ils émanent d’entreprises ayant des produits à vendre. Les controverses autour des benchmarks sont devenues monnaie courante dans l’industrie, comme en témoignent les récentes affaires impliquant xAI et Meta.

Le modèle O3 d’OpenAI obtient un score inférieur aux attentes lors d’un benchmark indépendant

Une promesse non tenue ?

La réalité des tests indépendants

Des explications mais des questions

Un rappel nécessaire

Related Articles

Sam Altman critique les méthodes de recrutement de Meta dans le domaine de l’IA

Les Vidéos IA Représentant des Femmes Noires comme ‘Bigfoot’ Deviennent Virales

Découvrez le Phone (3) et le Headphone (1) de Nothing : Une Réinvention Audacieuse de la Technologie

LAISSER UN COMMENTAIRE Annuler la réponse

Latest Articles

Sam Altman critique les méthodes de recrutement de Meta dans le domaine de l’IA

Les Vidéos IA Représentant des Femmes Noires comme ‘Bigfoot’ Deviennent Virales

Découvrez le Phone (3) et le Headphone (1) de Nothing : Une Réinvention Audacieuse de la Technologie

Le Nouveau Parfum de Trump Ne Sent Pas la Réussite

Le Sénat Américain Met en Péril l’Énergie Propre pour l’IA