OpenAI a introduit un nouveau système de surveillance pour ses derniers modèles d’IA, o3 et o4-mini, afin de prévenir les risques liés aux menaces biologiques et chimiques. Cette initiative vise à empêcher ces modèles de fournir des conseils pouvant être utilisés pour des attaques potentiellement dangereuses.
Une avancée significative avec des risques accrus
Les modèles o3 et o4-mini marquent une progression notable par rapport aux précédentes versions, offrant des capacités supérieures mais aussi des risques potentiellement plus élevés. OpenAI a identifié que o3, en particulier, excelle dans la réponse à des questions spécifiques liées à la création de menaces biologiques, ce qui a motivé la mise en place de ce nouveau système de surveillance.
Un moniteur de raisonnement axé sur la sécurité
Ce moniteur, spécialement entraîné pour interpréter les politiques de contenu d’OpenAI, fonctionne en tandem avec o3 et o4-mini. Son rôle est de détecter les requêtes liées aux risques biologiques et chimiques et de diriger les modèles pour qu’ils refusent de répondre à ces demandes.
Des tests rigoureux pour une sécurité optimale
Pour établir une base de référence, OpenAI a consacré environ 1 000 heures à identifier les conversations ‘à risque’ avec o3 et o4-mini. Lors d’un test simulant la logique de blocage du moniteur de sécurité, les modèles ont refusé de répondre aux requêtes dangereuses dans 98.7% des cas.
La vigilance humaine reste essentielle
OpenAI reconnaît que son test ne prend pas en compte les tentatives répétées de contournement du moniteur. C’est pourquoi l’entreprise continue de s’appuyer en partie sur une surveillance humaine pour compléter son système automatisé.
Un cadre de préparation mis à jour
Dans le cadre de son engagement envers la sécurité, OpenAI a récemment mis à jour son Cadre de Préparation pour mieux suivre comment ses modèles pourraient faciliter le développement de menaces chimiques et biologiques par des utilisateurs malveillants.
Des préoccupations persistent
Malgré ces efforts, certains chercheurs expriment des inquiétudes quant à la priorité accordée à la sécurité par OpenAI. Des partenaires de test comme Metr ont souligné le manque de temps pour évaluer pleinement o3 sur des critères de comportement trompeur, et l’absence de rapport de sécurité pour le modèle GPT-4.1, récemment lancé, a également été notée.