Les modèles d’IA o3 et o4-mini d’OpenAI, bien que représentant l’état de l’art dans de nombreux domaines, présentent un taux d’hallucinations plus élevé que leurs prédécesseurs. Ce phénomène, qui consiste pour l’IA à inventer des informations, reste un défi majeur pour les chercheurs.
Un problème persistant et croissant
Les hallucinations dans les modèles d’IA sont un obstacle bien connu, mais les dernières versions d’OpenAI, o3 et o4-mini, semblent aggraver la situation. Contrairement aux attentes, ces modèles ‘raisonnants’ inventent plus fréquemment que les anciennes versions, y compris les modèles non raisonnants comme GPT-4o.
Des performances mitigées
Malgré des améliorations dans des domaines comme le codage et les mathématiques, o3 et o4-mini produisent également plus d’affirmations inexactes. Les tests internes révèlent que o3 hallucine dans 33% des cas sur PersonQA, un benchmark d’OpenAI, soit le double des modèles précédents. O4-mini fait encore pire avec un taux de 48%.
Des conséquences pratiques
Des tests tiers ont confirmé ces tendances, notant par exemple que o3 prétendait exécuter du code sur un MacBook Pro 2021 hors de ChatGPT, une impossibilité. Ces hallucinations pourraient limiter l’utilité pratique de ces modèles, notamment dans des secteurs où la précision est cruciale.
Vers des solutions
L’intégration de capacités de recherche web, comme avec GPT-4o, pourrait améliorer l’exactitude des réponses. Cependant, l’augmentation des hallucinations avec les modèles raisonnants pose un défi urgent pour la recherche, alors que l’industrie se tourne vers ces technologies pour surmonter les limites des modèles traditionnels.