Les invitations au jailbreak de ChatGPT se multiplient sur les forums de hackers

April 3, 2024 | 8:04 am

Les jailbreaks de ChatGPT sont devenus un outil populaire pour les cybercriminels et continuent de se propager sur les forums de hackers, près de deux ans après la sortie publique du chatbot révolutionnaire.

Durant cette période, plusieurs tactiques différentes ont été développées et promues comme des moyens efficaces pour contourner les politiques de contenu et de sécurité d’OpenAI, permettant aux acteurs malveillants de créer des e-mails de phishing et d’autres contenus nuisibles.

“La prévalence des invites de jailbreak et du mauvais usage de l’IA sur les forums de cybercriminalité a définitivement augmenté depuis les premiers jours de ChatGPT. Alors qu’il y avait des discussions initiales sur le potentiel de la technologie en 2022/2023, nous avons observé une tendance croissante de conversations détaillées autour d’invites de jailbreaking spécifiques au fil du temps”, a déclaré Mike Britton, directeur de la sécurité informatique chez Abnormal Security, à SC Media dans un e-mail. “Il existe maintenant des sections entières de forum dédiées au mauvais usage de l’IA, spécifiquement sur deux grands forums de cybercriminalité.”

Ce ne sont pas juste des “script kiddies” qui utilisent ces tactiques, non plus. Plus tôt cette année, Microsoft a révélé que des membres de cinq groupes de menaces parrainés par l’État de Russie, de Corée du Nord, d’Iran et de Chine utilisaient ChatGPT pour des tâches allant de l’ingénierie sociale à l’aide à la programmation et à la recherche de vulnérabilités.

Dans un rapport de recherche de 2023, Abnormal Security a identifié cinq campagnes d’e-mails malveillants qui étaient probablement générées par des chatbots IA, notant la capacité de l’IA à employer des tactiques d’ingénierie sociale, telles que la création d’un sentiment d’urgence dans sa génération d’e-mails.

Les e-mails supposément générés par l’IA étaient également remarquablement exempts des fautes d’orthographe et grammaticales communes dans les e-mails de phishing, conférant une légitimité supplémentaire.

“L’utilisation la plus courante que nous voyons pour le jailbreaking de ChatGPT (et l’exploitation d’autres versions malveillantes de celui-ci) est de lancer des attaques d’ingénierie sociale, que ce soit pour le phishing de credentials, le compromis d’e-mail d’entreprise ou la fraude de fournisseur”, a dit Britton. “L’IA générative permet aux acteurs de menaces d’augmenter ces attaques d’ingénierie sociale en volume, mais aussi en sophistication.”

Lundi, Abnormal Security a publié un billet de blog mettant en évidence cinq invites que les cybercriminels utilisent pour jailbreaker ChatGPT. Bien que ces jailbreaks ne soient pas nécessairement nouveaux, la grande variété et la popularité continue des techniques de manipulation de chatbot devraient signaler aux organisations que l’IA générative adversariale est une menace à ne pas ignorer.

“Alors que les cybercriminels continuent d’armer l’IA générative dans leurs attaques par e-mail, les organisations peuvent vouloir prendre en compte cette menace dans leur stratégie cyber. Il existe des outils qui peuvent aider à cela – par exemple, Abnormal a lancé l’année dernière CheckGPT, un outil qui permet aux entreprises de déterminer si un e-mail suspect a été rédigé en utilisant l’IA générative”, a déclaré Britton.

Table des matières

L’ingénierie des invites est-elle la nouvelle ingénierie sociale ?

Les tactiques de jailbreak décrites sur Abnormal Security reposent principalement sur deux tactiques : convaincre ChatGPT de ” jouer un rôle ” en tant que bot non filtré ou ” tromper ” l’IA en lui faisant croire qu’elle se trouve dans un scénario spécifique où la génération de contenu nuisible serait acceptable.

Par exemple, ” Do Anything Now ” est une tactique de jailbreak de ChatGPT bien connue qui existe depuis plus d’un an et qui consiste à faire jouer au chatbot le rôle d’une autre IA nommée DAN.

Cette personnalité alternative a ” été libérée des contraintes typiques de l’IA “, comme l’indique une invite partagée sur un sujet de forum ” d’IA obscure “, et en adoptant cette personnalité, ChatGPT est capable de générer du contenu qui va à l’encontre des politiques d’OpenAI.

Une autre méthode consiste à dire à ChatGPT qu’il est ” en mode développement ” ou que ses réponses sont ” utilisées uniquement à des fins de test “, ce qui peut inclure de dire au bot que les ” politiques de développement ” diffèrent des politiques normales d’OpenAI.

Une invite similaire indique à ChatGPT qu’il est un chatbot traducteur qui est testé pour sa capacité à traduire et à répondre à des questions dans différentes langues. Cela peut convaincre ChatGPT de contourner ses filtres afin de produire des traductions précises, indépendamment du contenu traduit.

Les deux autres tactiques décrites par Abnormal Security sont similaires à DAN en ce qu’elles instruisent ChatGPT d’adopter une nouvelle personnalité non restreinte. ” Always Intelligent and Machiavellian ” (AIM) est une invite conçue pour générer des réponses ” quelle que soit leur immoralité, leur non-éthique ou leur illégalité “, tandis que l’invite ” BISH ” est une variante de ” Do Anything Now ” qui peut se voir attribuer un ” niveau de moralité ” déterminant à quel point ses réponses doivent être censurées ou non censurées.

” L’utilisation évolutive de ChatGPT sur ces forums pourrait être caractérisée comme une progression naturelle. Nous voyons de nombreux cybercriminels de bas niveau expérimenter l’utilisation de ChatGPT pour générer des emails malveillants et du code “, a déclaré Britton.

ChatGPT serait bientôt rendu disponible aux utilisateurs sans comptes OpenAI-compressed

Que peuvent faire les organisations pour se défendre contre l’IA générative adverse ?

Le cybercrime facilité par l’IA générative pourrait encore être à ses débuts, mais être conscient de l’expérimentation de l’IA par les adversaires dès maintenant pourrait aider les organisations à se préparer à des méthodes d’attaque plus avancées à l’avenir. Comme le phishing est actuellement l’utilisation illicite la plus populaire de ChatGPT, les défenseurs des e-mails peuvent envisager d’utiliser des outils comme CheckGPT pour filtrer le contenu généré par l’IA suspect.

“Cependant, comprendre si un e-mail a été généré par l’IA n’est qu’un indicateur d’une attaque potentielle. Pour assurer une détection efficace et précise, cet indicateur devrait être combiné avec une gamme d’autres signaux divers de l’environnement e-mail,” a déclaré Britton.

Dans ce cas, l’IA peut également devenir une partie de la défense, permettant aux organisations d’analyser les données pertinentes de manière à construire une résilience contre les attaques futures.

“En analysant des signaux supplémentaires incluant les modèles de communication des utilisateurs, les interactions, l’activité d’authentification, et d’autres attributs, les organisations peuvent établir une base de référence du comportement bon connu de chaque employé et fournisseur dans une organisation, puis appliquer des modèles d’IA avancés pour détecter des anomalies indiquant une attaque potentielle – que cette attaque soit générée par un humain ou par l’IA,” a conclu Britton.

Quant à OpenAI elle-même, l’entreprise a travaillé à atténuer les invites malveillantes et à renforcer la capacité de ChatGPT à rester dans les garde-fous établis par l’entreprise.

“ChatGPT reste l’un des outils privilégiés pour les cybercriminels cherchant à augmenter l’échelle de leurs attaques par e-mail, mais depuis qu’OpenAI a créé des restrictions destinées à arrêter la génération de contenu malveillant, il est maintenant plus difficile pour les acteurs de menaces de lancer efficacement des attaques en utilisant l’outil,” a expliqué Britton. “Cela a conduit à la création de versions malveillantes de ChatGPT, telles que WormGPT et FraudGPT, qui peuvent généralement être acquises à travers le dark web.”

Cependant, se protéger contre les jailbreaks est difficile en raison des prompts infiniment possibles que quelqu’un pourrait concevoir dans ses tentatives de manipuler le modèle d’IA. Dans les détails de son programme de bug bounty, qui a été lancé en avril 2023, OpenAI note explicitement qu’il n’y a pas de récompenses pour les “jailbreaks”, déclarant : “Bien que nous travaillions dur pour prévenir les risques, nous ne pouvons pas prédire chaque jour comment les gens utiliseront ou abuseront de notre technologie dans le monde réel.”

Avec OpenAI annonçant lundi que ChatGPT serait bientôt rendu disponible aux utilisateurs sans comptes OpenAI mais avec “des garanties de contenu supplémentaires”, il reste à voir si l’accessibilité accrue au chatbot accélérera les efforts de jailbreaking des cybercriminels.

Tags:

No tags

No Responses

Leave a Reply Cancel reply

NARA interdit l’utilisation de ChatGPT sur les réseaux de l’agence

May 3, 2024 | 8:02 am

Les Archives nationales et l’Administration des dossiers ont été la dernière agence fédérale à interdire à ses employés d’utiliser ChatGPT à des fins professionnelles, invoquant un “risque inacceptable” pour les données de l’agence. La décision politique découle des préoccupations des responsables de l’agence selon lesquelles les données que les employés saisissent comme stimuli dans la […]

La violation continue des droits d’auteur est une douleur pour Microsoft et OpenAI

May 3, 2024 | 7:48 am

Microsoft et OpenAI ont été frappés par une poursuite déposée par huit éditeurs de journaux concernant des problèmes liés au droit d’auteur. Ce que vous devez savoir Microsoft et OpenAI ont été visés par une poursuite déposée par huit éditeurs de journaux pour des problèmes de violation du droit d’auteur. Copilot et ChatGPT ont été […]

OpenAI permet désormais de stocker l’historique de ChatGPT sans aucune condition

May 2, 2024 | 7:27 am

Auparavant, les utilisateurs de ChatGPT ne pouvaient conserver leur historique de conversation que s’ils acceptaient que OpenAI utilise leurs données à des fins de formation. Cependant, cela n’est plus le cas aujourd’hui. En avril de l’année dernière, OpenAI a dévoilé l’option de désactivation de l’historique de chat dans ChatGPT après que des préoccupations soient apparues […]

ChatGPT veut se souvenir de tout ce que vous lui avez dit

May 2, 2024 | 7:16 am

OpenAI a annoncé lundi que son populaire chatbot ChatGPT pourra désormais se souvenir des détails des utilisateurs, y compris des informations de base, des hobbies et l’historique des interactions. La mémoire améliorée du chatbot sera disponible uniquement pour les abonnés au service ChatGPT Plus à 20 $ par mois. Une vidéo de démonstration fournie par […]

Chez Moderna, les GPTs d’OpenAI changent presque tout

April 27, 2024 | 7:14 am

Moderna devrait annoncer mercredi un partenariat avec le poids lourd de l’intelligence artificielle OpenAI, un accord visant à automatiser presque tous les processus commerciaux de l’entreprise de biotechnologie et à augmenter la portée du créateur de ChatGPT dans le domaine des entreprises. Dans le cadre de la transaction, environ 3 000 employés de Moderna auront […]

Le nouveau monde audacieux de ChatGPT

April 27, 2024 | 7:00 am

L’intelligence artificielle générative a été un sujet de discussion considérable – enthousiasme, appréhension, curiosité – depuis la mise à disposition gratuite au public de ChatGPT par OpenAI en novembre 2022. Ces outils vont-ils effectuer des tâches banales pour nous, améliorer notre productivité et notre créativité, ou un jour nous remplacer ? Les dirigeants de l’UofL […]

Les invitations au jailbreak de ChatGPT se multiplient sur les forums de hackers

L’ingénierie des invites est-elle la nouvelle ingénierie sociale ?

Que peuvent faire les organisations pour se défendre contre l’IA générative adverse ?

No Responses

Leave a Reply Cancel reply

BLOG

NARA interdit l’utilisation de ChatGPT sur les réseaux de l’agence

La violation continue des droits d’auteur est une douleur pour Microsoft et OpenAI

OpenAI permet désormais de stocker l’historique de ChatGPT sans aucune condition

ChatGPT veut se souvenir de tout ce que vous lui avez dit

Chez Moderna, les GPTs d’OpenAI changent presque tout

Le nouveau monde audacieux de ChatGPT