Les plateformes de benchmarking crowdsourcé, comme Chatbot Arena, sont de plus en plus utilisées par les laboratoires d’IA pour évaluer leurs derniers modèles. Cependant, des experts soulèvent des préoccupations éthiques et académiques concernant cette méthode.
L’Engouement pour le Benchmarking Crowdsourcé
Les géants de l’IA, tels qu’OpenAI, Google, et Meta, se tournent vers des plateformes qui mobilisent des utilisateurs pour évaluer les capacités des nouveaux modèles. Un score élevé est souvent présenté comme une preuve de progrès significatif.
Des Préoccupations Éthiques et Académiques
Emily Bender, professeure de linguistique à l’Université de Washington, critique cette approche. Elle souligne que pour être valide, un benchmark doit mesurer quelque chose de spécifique et avoir une validité de construction. Chatbot Arena, selon elle, ne démontre pas que les préférences des utilisateurs reflètent une amélioration réelle des modèles.
Des Revendications Exagérées?
Asmelash Teka Hadgu, co-fondateur de Lesan, accuse les laboratoires d’IA de détourner ces benchmarks pour promouvoir des affirmations exagérées. Il cite l’exemple de Meta, qui a publié une version moins performante de son modèle Llama 4 Maverick après avoir optimisé une version pour Chatbot Arena.
La Nécessité d’une Approche Plus Dynamique
Hadgu plaide pour des benchmarks dynamiques, distribués parmi plusieurs entités indépendantes et adaptés à des cas d’utilisation spécifiques. Kristine Gloria, ancienne responsable de l’initiative sur les technologies émergentes à l’Aspen Institute, ajoute que les évaluateurs devraient être rémunérés pour leur travail.
Au-Delà du Benchmarking Crowdsourcé
Matt Frederikson de Gray Swan AI reconnaît l’importance des benchmarks publics mais insiste sur la nécessité d’évaluations privées et payantes. Alex Atallah d’OpenRouter et Wei-Lin Chiang de LMArena soulignent que le benchmarking ouvert ne suffit pas et que d’autres tests sont nécessaires pour une évaluation complète.
Un Engagement envers la Transparence
Chiang assure que LMArena a pris des mesures pour prévenir les divergences futures et renforcer son engagement envers des évaluations équitables et reproductibles. Il rappelle que la plateforme offre un espace ouvert et transparent pour l’engagement communautaire avec l’IA.