16.4 C
Paris
samedi, avril 19, 2025
spot_img

Les débats sur l’évaluation de l’IA atteignent l’univers Pokémon

L’univers Pokémon, pourtant loin des préoccupations technologiques, se retrouve au cœur d’une controverse sur l’évaluation des intelligences artificielles. Un récent débat met en lumière les défis et les limites des benchmarks dans le domaine de l’IA, à travers une compétition inattendue entre deux modèles phares.

Une compétition inattendue dans l’univers Pokémon

La semaine dernière, un post sur X a fait le buzz, révélant que le dernier modèle Gemini de Google avait surpassé le modèle phare Claude d’Anthropic dans la trilogie originale des jeux vidéo Pokémon. Selon les rapports, Gemini avait atteint Lavender Town lors d’un stream Twitch d’un développeur, tandis que Claude était bloqué à Mount Moon depuis fin février.

Un avantage caché

Cependant, ce post ommettait un détail crucial : Gemini bénéficiait d’un avantage. Comme l’ont souligné des utilisateurs sur Reddit, le développeur derrière le stream de Gemini avait créé une mini-carte personnalisée aidant le modèle à identifier les ‘tuiles’ du jeu, comme les arbres à couper. Cela réduisait la nécessité pour Gemini d’analyser des captures d’écran avant de prendre des décisions de gameplay.

L’évaluation de l’IA : un terrain glissant

Pokémon est, au mieux, un benchmark semi-sérieux pour l’IA. Peu soutiendraient qu’il s’agit d’un test très informatif des capacités d’un modèle. Néanmoins, cet exemple illustre comment différentes implémentations d’un benchmark peuvent influencer les résultats. Par exemple, Anthropic a rapporté deux scores pour son récent modèle Claude 3.7 Sonnet sur le benchmark SWE-bench Verified, conçu pour évaluer les capacités de codage d’un modèle. Le modèle a atteint 62,3% de précision sur SWE-bench Verified, mais 70,3% avec un ‘échafaudage personnalisé’ développé par Anthropic.

Des benchmarks de plus en plus complexes

Récemment, Meta a affiné une version de son nouveau modèle, Llama 4 Maverick, pour qu’il performe bien sur un benchmark particulier, LM Arena. La version standard du modèle obtient des résultats significativement moins bons sur la même évaluation. Étant donné que les benchmarks IA, Pokémon inclus, sont des mesures imparfaites dès le départ, les implémentations personnalisées et non standard risquent de brouiller encore plus les pistes. En d’autres termes, il ne semble pas que la comparaison des modèles devienne plus facile à mesure qu’ils sont publiés.

spot_img

Related Articles

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

- Advertisement -spot_img

Latest Articles