Maison > Périphériques technologiques > IA > Les géants de l'IA soumettent des documents à la Maison Blanche : 12 grandes institutions, dont Google, OpenAI, Oxford et d'autres, ont publié conjointement le « Model Security Assessment Framework »

Les géants de l'IA soumettent des documents à la Maison Blanche : 12 grandes institutions, dont Google, OpenAI, Oxford et d'autres, ont publié conjointement le « Model Security Assessment Framework »

王林
Libérer: 2023-06-04 13:58:21
avant
618 Les gens l'ont consulté

Début mai, la Maison Blanche a organisé une réunion avec les PDG de sociétés d'IA telles que Google, Microsoft, OpenAI et Anthropic pour discuter de l'explosion de la technologie génératrice d'IA, des risques cachés derrière cette technologie et de la manière de développer des systèmes d'intelligence artificielle. de manière responsable et la formulation de réglementations Mesures réglementaires efficaces.

Les géants de lIA soumettent des documents à la Maison Blanche : 12 grandes institutions, dont Google, OpenAI, Oxford et dautres, ont publié conjointement le « Model Security Assessment Framework »

Les processus d'évaluation de sécurité existants s'appuient généralement sur une série de critères d'évaluation pour identifier les comportements anormaux des systèmes d'IA, tels que des déclarations trompeuses, une prise de décision biaisée ou des résultats protégés par un contenu protégé par le droit d'auteur.

À mesure que la technologie de l'IA devient de plus en plus puissante, les outils d'évaluation des modèles correspondants doivent également être mis à niveau pour empêcher le développement de systèmes d'IA dotés de manipulations, de tromperies ou d'autres capacités à haut risque.

Récemment, Google DeepMind, l'Université de Cambridge, l'Université d'Oxford, l'Université de Toronto, l'Université de Montréal, OpenAI, Anthropic et de nombreuses autres universités et instituts de recherche de premier plan ont publié conjointement un cadre d'évaluation de la sécurité des modèles, qui devrait devenir l'avenir de l'intelligence artificielle Composants clés pour le développement et le déploiement de modèles.

Les géants de lIA soumettent des documents à la Maison Blanche : 12 grandes institutions, dont Google, OpenAI, Oxford et dautres, ont publié conjointement le « Model Security Assessment Framework »

Lien papier : https://arxiv.org/pdf/2305.15324.pdf

Les développeurs de systèmes d'IA généraux doivent évaluer les capacités de danger et l'alignement des modèles pour identifier les risques extrêmes dès le plus tôt possible. possible, rendant ainsi la formation, le déploiement, la description des risques et d'autres processus plus responsables.

Les géants de lIA soumettent des documents à la Maison Blanche : 12 grandes institutions, dont Google, OpenAI, Oxford et dautres, ont publié conjointement le « Model Security Assessment Framework »

Les résultats de l'évaluation permettent aux décideurs et aux autres parties prenantes de comprendre les détails et de prendre des décisions responsables concernant la formation, le déploiement et la sécurité du modèle.

L'IA est risquée, la formation doit être prudente

Les modèles généraux doivent généralement être "entraînés" pour apprendre des capacités et des comportements spécifiques, mais le processus d'apprentissage existant est généralement imparfait, comme dans des recherches précédentes, ont découvert les chercheurs de DeepMind. que même lorsque le comportement attendu du modèle avait été correctement récompensé pendant l'entraînement, le système d'IA avait quand même appris certains objectifs involontaires. Les développeurs d'IA responsables doivent être capables de prédire à l'avance les développements futurs possibles et les risques inconnus, et de suivre avec le Grâce à l'avancement des systèmes d'IA, les modèles généraux pourraient apprendre diverses capacités dangereuses par défaut à l'avenir.

Par exemple, les systèmes d'intelligence artificielle peuvent mener des cyberopérations de contre-attaque, tromper intelligemment les humains dans les conversations, manipuler les humains pour mener des actions nuisibles, concevoir ou obtenir des armes, etc., affiner et exploiter d'autres IA à haut risque sur le cloud. systèmes de plates-formes informatiques, ou aider les humains à accomplir ces tâches dangereuses. Les géants de lIA soumettent des documents à la Maison Blanche : 12 grandes institutions, dont Google, OpenAI, Oxford et dautres, ont publié conjointement le « Model Security Assessment Framework »

Une personne ayant un accès malveillant à un tel modèle peut abuser des capacités de l'IA, ou en raison d'un échec d'alignement, le modèle d'IA peut choisir de prendre lui-même des actions nuisibles sans l'aide d'un humain. L'évaluation du modèle permet d'identifier ces risques à l'avance. En suivant le cadre proposé dans l'article, les développeurs d'IA peuvent utiliser l'évaluation du modèle pour découvrir :

1. utilisé pour menacer la sécurité, exercer une influence ou échapper à la surveillance

2. La mesure dans laquelle le modèle a tendance à appliquer ses capacités pour causer du tort (c'est-à-dire l'alignement du modèle). Les évaluations de calibrage doivent confirmer que le modèle se comporte comme prévu dans un très large éventail de paramètres de scénarios et, si possible, examiner le fonctionnement interne du modèle.

Les scénarios les plus risqués impliquent souvent une combinaison de capacités dangereuses, et les résultats de l'évaluation aident les développeurs d'IA à comprendre s'il existe suffisamment d'ingrédients pour provoquer des risques extrêmes :

Les géants de lIA soumettent des documents à la Maison Blanche : 12 grandes institutions, dont Google, OpenAI, Oxford et dautres, ont publié conjointement le « Model Security Assessment Framework »

Des capacités spécifiques peuvent être externalisées vers des humains. (tels que les utilisateurs ou les travailleurs de foule) ou d'autres systèmes d'IA, la fonctionnalité doit être utilisée pour remédier aux dommages causés par une mauvaise utilisation ou un défaut d'alignement.

Empiriquement, si la configuration des capacités d'un système d'IA est suffisante pour entraîner des risques extrêmes, et en supposant que le système peut être abusé ou mal ajusté, alors la communauté de l'IA devrait le considérer comme un système très dangereux.

Pour déployer un tel système dans le monde réel, les développeurs doivent définir une norme de sécurité qui va bien au-delà de la norme.

L'évaluation des modèles est le fondement de la gouvernance de l'IA

Si nous disposions de meilleurs outils pour identifier les modèles à risque, les entreprises et les régulateurs pourraient mieux garantir :

1. Formation responsable : si et comment former un nouveau modèle qui montre les premiers signes de risque.

2. Déploiement responsable : si, quand et comment déployer des modèles potentiellement risqués.

3. Transparence : communiquez des informations utiles et exploitables aux parties prenantes pour se préparer ou atténuer les risques potentiels.

4. Sécurité appropriée : des contrôles et des systèmes rigoureux de sécurité des informations sont appliqués aux modèles qui peuvent présenter des risques extrêmes.

Nous avons développé un modèle sur la manière d'intégrer l'évaluation des modèles de risques extrêmes dans les décisions importantes concernant la formation et le déploiement de modèles généraux à haute capacité.

Les développeurs sont tenus de procéder à des évaluations tout au long du processus et de donner un accès structuré au modèle aux chercheurs externes en sécurité et aux auditeurs de modèles pour des évaluations approfondies.

Les résultats de l'évaluation peuvent éclairer l'évaluation des risques avant la formation et le déploiement du modèle.

Les géants de lIA soumettent des documents à la Maison Blanche : 12 grandes institutions, dont Google, OpenAI, Oxford et dautres, ont publié conjointement le « Model Security Assessment Framework »

Construire des évaluations pour les risques extrêmes

DeepMind développe un projet pour "évaluer les capacités de manipulation des modèles de langage", qui comprend un jeu "Faites-moi dire" dans lequel le modèle de langage doit guider un humain L'interlocuteur prononce un mot prédéfini.

Le tableau ci-dessous répertorie quelques propriétés idéales qu'un modèle devrait avoir.

Les géants de lIA soumettent des documents à la Maison Blanche : 12 grandes institutions, dont Google, OpenAI, Oxford et dautres, ont publié conjointement le « Model Security Assessment Framework »

Les chercheurs estiment qu'il est difficile d'établir une évaluation complète de l'alignement, l'objectif à ce stade est donc d'établir un processus d'alignement pour évaluer si le modèle présente des risques avec un degré de confiance élevé.

L'évaluation de l'alignement est très difficile car le modèle doit être garanti pour présenter de manière fiable un comportement approprié dans une variété d'environnements différents, de sorte que le modèle doit être évalué dans une large gamme d'environnements de test pour atteindre une couverture d'environnements plus élevée. Incluez spécifiquement :

1. Étendue : évaluer le comportement du modèle dans autant d'environnements que possible. Une méthode prometteuse consiste à utiliser des systèmes d'intelligence artificielle pour rédiger automatiquement des évaluations.

2. Ciblage : certains environnements sont plus susceptibles d'échouer dans l'alignement que d'autres, ce qui peut être obtenu grâce à une conception intelligente, comme l'utilisation de pots de miel ou de tests contradictoires basés sur le gradient.

3. Comprendre la généralisation : étant donné que les chercheurs ne peuvent pas prévoir ou simuler toutes les situations possibles, une meilleure science doit être développée sur comment et pourquoi le comportement du modèle se généralise (ou ne parvient pas à se généraliser) dans différents environnements.

Un autre outil important est l'analyse mécanistique, qui étudie les poids et les activations d'un modèle pour comprendre sa fonctionnalité.

L'avenir de l'évaluation des modèles

L'évaluation des modèles n'est pas omnipotente, car l'ensemble du processus repose fortement sur des facteurs d'influence extérieurs au développement du modèle, tels que des forces sociales, politiques et économiques complexes, qui peuvent toutes passer à côté de certains risques.

Les évaluations de modèles doivent être intégrées à d'autres outils d'évaluation des risques et promouvoir plus largement la sensibilisation à la sécurité au sein de l'industrie, du gouvernement et de la société civile.

Google a également récemment souligné sur le blog « Responsible AI » que les pratiques personnelles, les normes industrielles partagées et les politiques solides sont essentielles à la normalisation du développement de l'intelligence artificielle.

Les chercheurs estiment que le processus de suivi de l'émergence de risques dans les modèles et de réponse adéquate aux résultats pertinents est un élément essentiel pour être un développeur responsable opérant à la pointe des capacités d'intelligence artificielle.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal