Alors que les géants de la tech assurent avoir sécurisé leurs modèles, une équipe italienne a réussi à contourner toutes les barrières : en utilisant de simples poèmes, ils ont poussé des intelligences artificielles à expliquer comment fabriquer des bombes. Un avertissement sévère pour l’avenir de la sécurité numérique.
Lire la suite: Poésie piégée : comment des chercheurs ont forcé des IA à livrer des secrets explosifsLes révélations venues d’Italie font l’effet d’un séisme dans le monde de l’intelligence artificielle. Des chercheurs sont parvenus à détourner les garde-fous des modèles les plus sophistiqués, notamment Claude d’Anthropic, pour leur faire délivrer des informations sensibles sur la construction d’explosifs. Ils n’ont pas utilisé des codes complexes ni des attaques informatiques avancées. Ils ont utilisé la poésie. Un procédé simple, inattendu, mais redoutable, qui interroge la robustesse réelle des technologies censées protéger le public des usages les plus dangereux.
Les scientifiques expliquent avoir dissimulé des instructions explicites dans des vers ou des demandes métaphoriques. Ces formulations détournées ont suffi pour tromper les filtres qui empêchent normalement les IA d’aborder des sujets illégaux. Certaines réponses fournies par les modèles ont même été qualifiées « d’ingénieures ». Ce point est déterminant : si une IA peut révéler sous la contrainte poétique ce qu’elle est censée refuser, cela signifie que ses mécanismes de protection reposent souvent sur des règles linguistiques trop rigides, incapables de déceler le sens implicite d’un texte.
Le rapport souligne que les systèmes testés ont été perturbés non seulement par les questions ambiguës, mais aussi par des choix de style destinés à « détourner » leur capacité d’interprétation sémantique. Cette méthode montre que les modèles peuvent être manipulés sans violence technologique, sans piratage, sans intrusion. La faille vient du langage, de son infini potentiel d’ambiguïtés et de détours. Pour un outil conçu pour comprendre la langue, c’est là que réside son plus grand point faible.
Le choc a été d’autant plus important que ces tests ont été effectués sur des IA considérées comme les plus prudentes, celles dont la philosophie est fondée sur la sécurité maximale. Anthropic a immédiatement réagi, affirmant que la version de Claude utilisée pour l’expérience était ancienne et partiellement désactivée, tout en assurant avoir renforcé les protections dans ses nouveaux modèles. Mais cette réponse n’efface pas la question centrale : si des chercheurs peuvent contourner les garde-fous, qu’en serait-il de personnes mal intentionnées ?
L’enjeu dépasse la seule technologie. Il concerne directement la sécurité publique, la régulation internationale et la responsabilité des entreprises. Les outils d’IA sont désormais accessibles au grand public, intégrés dans les téléphones, les plateformes de travail et même les services administratifs. Ils ont pénétré la vie quotidienne à une vitesse vertigineuse, souvent plus vite que les capacités des États à les encadrer. L’épisode italien démontre que l’innovation précède encore une fois la réflexion politique. Et lorsqu’un modèle peut être détourné pour fournir des instructions dangereuses, c’est l’ensemble du tissu social qui se trouve exposé.
L’incident révèle aussi une tension profonde : les sociétés technologiques déploient des modèles toujours plus puissants, capables d’ingurgiter et d’analyser des milliards de données, mais les mécanismes destinés à les contrôler restent fragiles et essentiellement réactifs. On corrige après les incidents, rarement avant. Cette logique d’ajustement permanent laisse des zones d’ombre où les vulnérabilités s’accumulent.
Pour La Boussole-infos, cet épisode constitue un marqueur important de notre époque : l’intelligence artificielle n’est pas seulement un outil de progrès ou de productivité. Elle peut devenir un risque majeur si la sécurité n’est pas anticipée avec la même rigueur que la recherche de performance. Ce scandale scientifique agit comme un rappel brutal que la technologie est toujours à double tranchant. Elle ouvre des possibilités immenses, mais expose aussi à des dérives inattendues.
Dans les semaines à venir, il faudra observer la réaction des institutions européennes, qui finalisent encore les mécanismes de l’AI Act, et mesurer si les mesures prévues suffiront à empêcher d’autres scénarios similaires. La question n’est plus seulement de savoir ce que les IA peuvent faire, mais ce qu’elles peuvent être forcées à faire. Et si la poésie permet déjà de contourner leurs défenses, qu’en serait-il demain face à des méthodes plus élaborées ?
Celine Dou, La Boussole-infos