Alors que les tenants et aboutissants du potentiel des chatbots IA continuent de faire la une des journaux, la frénésie autour de ChatGPT reste à son paroxysme. Une question qui a retenu l'attention de nombreux acteurs de la communauté de la sécurité est de savoir si l'ingestion de données commerciales sensibles par la technologie présente des risques pour les organisations. On craignait que si quelqu'un saisissait des informations sensibles (rapports trimestriels, documents de présentation interne, chiffres de ventes, etc.) et demandait à ChatGPT d'écrire du texte autour de celles-ci, n'importe qui pourrait obtenir les informations de l'entreprise simplement en demandant à ChatGPT.
L'impact peut être considérable : imaginez que vous travaillez sur une présentation interne contenant de nouvelles données d'entreprise qui révèlent un problème d'entreprise à discuter lors d'une réunion du conseil d'administration. La fuite de ces informations exclusives pourrait nuire aux cours des actions, à l’attitude des consommateurs et à leur confiance. Pire encore, les points juridiques figurant à l’ordre du jour divulgués pourraient exposer l’entreprise à de réelles responsabilités. Mais est-ce que l’une de ces choses peut vraiment se produire simplement en mettant des éléments dans un chatbot ?
La société de recherche Cyberhaven a exploré ce concept en février, en se concentrant sur la façon dont OpenAI utilisait ce que les gens saisissaient dans ChatGPT comme données de formation pour améliorer sa technologie, avec un résultat qui ressemblait beaucoup à ce qui était entré. Cyberhaven affirme que les données confidentielles saisies dans ChatGPT pourraient être divulguées à des tiers si le tiers pose à ChatGPT certaines questions sur la base des informations fournies par les dirigeants.
Le National Cyber Security Centre (NCSC) du Royaume-Uni a partagé un aperçu plus approfondi du sujet en mars, déclarant que ChatGPT et d'autres grands modèles de langage (LLM) n'ajoutent actuellement pas automatiquement les informations des requêtes au modèle pour que d'autres puissent les interroger. Autrement dit, l’inclusion des informations dans la requête n’entraîne pas l’incorporation de données potentiellement privées dans le LLM. "Cependant, les requêtes seront visibles par l'organisation fournissant le LLM (et dans le cas de ChatGPT, également par OpenAI)", écrit-il.
"Ces requêtes ont été stockées et seront presque certainement utilisées pour développer un service ou un modèle LLM à un moment donné. Cela peut signifier que le fournisseur LLM (ou ses partenaires/sous-traitants) est capable de lire les requêtes et éventuellement des moyens d'incorporer dans les versions futures", ajoute-t-il. Un autre risque, qui augmente à mesure que de plus en plus d'organisations produisent et utilisent des LLM, est que les requêtes stockées en ligne puissent être piratées, divulguées ou rendues publiques accidentellement, écrit le NCSC.
En fin de compte, il y a de réelles raisons de s'inquiéter de la saisie et de l'utilisation de données commerciales sensibles par ChatGPT, même si le risque n'est peut-être pas aussi répandu que certains titres le prétendent.
LLM présente un comportement émergent appelé apprentissage situé. Au cours d'une session, lorsque le modèle reçoit des entrées, il peut effectuer des tâches en fonction du contexte contenu dans ces entrées. "C'est très probablement le phénomène auquel les gens font référence lorsqu'ils s'inquiètent des fuites d'informations. Cependant, il est impossible que les informations d'une session d'un utilisateur soient divulguées à un autre utilisateur", a déclaré Andy Patel, chercheur principal chez WithSecure, au CSO. "Une autre préoccupation est que les invites saisies dans l'interface ChatGPT seront collectées et utilisées pour les futures données de formation." ces données. La formation d'un LLM est un processus long et coûteux, et il a déclaré qu'il serait surpris si un modèle pouvait être formé sur les données collectées par ChatGPT dans un avenir proche. "Si un nouveau modèle contenant des indices ChatGPT collectés est finalement créé, nos craintes se tournent vers des attaques par inférence d'adhésion. De telles attaques ont le potentiel d'exposer des numéros de carte de crédit ou des informations personnelles dans les données de formation. Cependant, il n'existe aucune cible pour prendre en charge ChatGPT et d'autres l'aiment. Le LLM du système prouve les attaques par inférence d'appartenance. " Cela signifie qu'il est extrêmement peu probable que les futurs modèles soient vulnérables aux attaques par inférence d'appartenance.
Des liens tiers vers l'IA pourraient exposer des données
Neil Thacker, responsable de la sécurité de l'information pour la zone EMEA chez Netskope, a déclaré aux OSC qu'en plus des données sensibles partagées par les utilisateurs réguliers, les entreprises devraient également être conscientes des attaques par injection rapide qui pourraient révéler les instructions précédentes fournies par les développeurs lors de l'ajustement des outils, ou les rendre plus anciennes. les instructions programmées sont ignorées. "Des exemples récents incluent des farceurs de Twitter modifiant le comportement du robot et un problème avec Bing Chat où les chercheurs ont trouvé un moyen de faire en sorte que ChatGPT révèle des instructions qui étaient auparavant censées être cachées, éventuellement écrites par Microsoft
." Selon Cyberhaven, les données sensibles représentent actuellement 11 % du contenu publié par les employés sur ChatGPT, et l'entreprise moyenne divulgue des données sensibles à ChatGPT des centaines de fois par semaine. "ChatGPT passe du battage médiatique au monde réel, et les organisations tentent de mettre en œuvre des implémentations réelles dans leurs opérations pour rejoindre d'autres outils basés sur le ML/IA, mais il faut faire preuve de prudence, en particulier lors du partage d'informations confidentielles", a déclaré Thacker. "Tous les aspects de la propriété des données doivent être pris en compte, ainsi que l'impact potentiel si l'organisation hébergeant les données était violée. À titre d'exercice simple, les professionnels de la sécurité de l'information devraient au moins être en mesure d'identifier les données qui pourraient être consultées si ces services ont été violés Catégorie. ”
En fin de compte, il est de la responsabilité des entreprises de s’assurer que leurs utilisateurs comprennent parfaitement quelles informations doivent et ne doivent pas être divulguées à ChatGPT. Le NCSC affirme que les organisations doivent être très prudentes quant aux données qu'elles choisissent de soumettre dans les invites : "Vous devez vous assurer que ceux qui souhaitent essayer le LLM le peuvent, mais ne mettent pas les données organisationnelles en danger.
Cependant, Cyberhaven prévient que l'identification et le contrôle des données que les employés soumettent à ChatGPT ne sont pas sans défis. "Lorsque les employés saisissent les données de l'entreprise dans ChatGPT, ils ne téléchargent pas de fichiers, mais copient et collent le contenu dans leurs navigateurs Web. De nombreux produits de sécurité sont conçus pour protéger les fichiers (marqués comme confidentiels) contre le téléchargement, mais une fois que le contenu a été téléchargé. été copié à partir du fichier, ils ne peuvent pas le suivre", peut-on lire. De plus, Cyberhaven a déclaré que les données d'entreprise qui entrent dans ChatGPT ne contiennent souvent pas de modèles identifiables recherchés par les outils de sécurité, tels que les numéros de carte de crédit ou les numéros de sécurité sociale. « Les outils de sécurité d'aujourd'hui ne peuvent pas faire la différence entre une personne qui tape un menu de cafétéria et le plan de fusion et acquisition d'une entreprise sans comprendre son contexte.
Pour améliorer la visibilité, les organisations devraient créer de nouvelles fonctionnalités sur leur passerelle Web sécurisée (SWG), déclare Thacker. pour identifier l'utilisation des outils d'IA, et également appliquer des politiques de prévention des pertes de données (DLP) pour identifier les données soumises à ces outils.
Michael Covington, vice-président de la stratégie de portefeuille chez Jamf, a déclaré que les organisations devraient mettre à jour leurs politiques de protection des informations pour garantir que les types d'applications acceptables pour le traitement des données confidentielles sont correctement documentés. « Le contrôle du flux d'informations commence par des politiques bien documentées et éclairées », a-t-il déclaré. "En outre, les organisations devraient explorer la manière dont elles peuvent tirer parti de ces nouvelles technologies pour améliorer leurs activités de manière réfléchie. Plutôt que de fuir ces services par peur et par incertitude, investissez certaines personnes dans l'exploration de nouveaux outils qui montrent du potentiel afin que vous puissiez comprendre les risques. tôt et garantir qu’une protection adéquate est en place lorsque les premiers utilisateurs finaux souhaitent commencer à utiliser ces outils »
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!