극한 위험 평가

모델 평가는 중요한 거버넌스 인프라입니다

미래를 바라봅니다

집

기술 주변기기

일체 포함

Google DeepMind, OpenAI 등은 공동으로 다음과 같은 기사를 발표했습니다. 대규모 AI 모델의 극도의 위험을 평가하는 방법은 무엇입니까?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 31, 2023 pm 12:59 PM

현재 일반 인공 지능(AGI) 시스템을 구축하는 방법은 사람들이 실제 문제를 더 잘 해결하도록 돕는 동시에 예상치 못한 위험도 가져옵니다.

따라서 향후 인공지능의 추가적인 발전은 공격적인 네트워크 역량이나 강력한 조작 능력 등 많은 극단적인 위험으로 이어질 수 있습니다.

오늘 구글 딥마인드는 케임브리지대학교, 옥스퍼드대학교 등 대학, OpenAI, Anthropic 등 기업, Alignment Research Center 등 기관과 함께 '극한 위험에 대한 모델 평가'라는 제목의 글을 게재했습니다. 인쇄 전 웹사이트 arXiv, 제시 새로운 위협에 대한 공통 모델을 평가하고 모델 평가가 극심한 위험에 대처하는 데 중요한 이유를 설명하기 위한 프레임워크입니다.

그들은 개발자가 위험을 식별할 수 있는 능력("위험 능력 평가"를 통해), 모델의 능력을 적용하여("정렬 평가"를 통해) 해를 끼치는 경향 을 가져야 한다고 주장합니다. 이러한 평가는 정책 입안자와 기타 이해관계자에게 정보를 제공하고 모델 교육, 배포 및 보안에 대한 책임 있는 결정을 내리는 데 중요합니다.

Google DeepMind、OpenAI等联合发文：AI大模型的极端风险，如何评估？

Academic Toutiao(ID: SciTouTiao)가 원문의 주요 아이디어를 변경하지 않고 간단한 편집본을 만들었습니다. 내용은 다음과 같습니다.

최첨단 AI 연구의 발전을 책임감 있게 촉진하려면 AI 시스템의 새로운 기능과 위험을 가능한 한 빨리 식별해야 합니다.

AI 연구자들은 일련의 평가 벤치마크를 사용하여 AI 시스템이 잘못된 주장을 하거나 편향된 결정을 내리거나 저작권이 있는 콘텐츠를 복제하는 등 AI 시스템의 바람직하지 않은 동작을 식별했습니다. 이제 AI 커뮤니티가 점점 더 강력한 AI를 구축하고 배포함에 따라 조작, 기만, 사이버 공격 또는 기타 위험한 능력을 갖춘 일반 AI 모델이 고려하는 극단적인 위험을 포함하도록 평가를 확대해야 합니다.

케임브리지 대학교, 옥스포드 대학교, 토론토 대학교, 몬트리올 대학교, OpenAI, Anthropic, 정렬 연구 센터, 장기 회복력 센터 및 AI 거버넌스 센터와 협력하여 우리는 이러한 새로운 위협을 평가하기 위한 프레임워크를 도입합니다.

극한 위험 평가를 포함한 모델 안전성 평가는 안전한 AI 개발 및 배포의 중요한 부분이 될 것입니다.

Google DeepMind、OpenAI等联合发文：AI大模型的极端风险，如何评估？

새로운 일반 인공 지능 시스템의 극심한 위험을 평가하려면 개발자는 위험한 기능과 정렬 수준을 평가해야 합니다. 위험을 조기에 식별하면 새로운 AI 시스템을 훈련하고, 이러한 AI 시스템을 배포하고, 위험을 투명하게 설명하고, 적절한 사이버 보안 표준을 적용하는 데 있어 더 큰 책임이 발생할 수 있습니다.

극한 위험 평가

유니버설 모델은 일반적으로 훈련 중에 해당 기능과 동작을 학습합니다. 그러나 학습 과정을 안내하는 기존 방법은 불완전합니다. 예를 들어, Google DeepMind의 이전 연구에서는 AI 시스템이 인간이 원하지 않는 목표를 추구하는 방법을 학습할 수 있는 방법을 탐구했습니다. 심지어 인간이 좋은 행동에 대해 올바르게 보상하더라도 마찬가지입니다.

책임감 있는 AI 개발자는 한 단계 더 나아가 가능한 미래 개발과 새로운 위험을 예측해야 합니다. 진행이 계속됨에 따라 미래의 유니버설 모델은 기본적으로 다양한 위험한 능력을 배울 수 있습니다. 예를 들어, 미래의 인공 지능 시스템은 공격적인 네트워크 활동을 수행하고, 대화에서 인간을 교묘하게 속이고, 인간을 유해한 행동으로 조작하고, 무기(생물학, 화학 무기 등)를 설계 또는 획득하고, 클라우드 컴퓨팅에서 미세 조정 및 작동할 수 있습니다. 다른 고위험 AI 시스템이나 이러한 작업에서 인간을 돕는 것이 가능합니다(확실하지는 않지만).

나쁜 의도를 가진 사람들은 이러한 모델의 기능을 남용할 수 있습니다. 이러한 AI 모델은 누구도 의도하지 않더라도 인간과 가치관 및 도덕성의 차이로 인해 유해한 행동을 할 수 있습니다.

모델 평가는 이러한 위험을 사전에 식별하는 데 도움이 됩니다. 우리 프레임워크에서 AI 개발자는 모델 평가를 사용하여 다음을 발견합니다.

모델이 특정 '위험한 능력'을 갖고 있거나, 보안을 위협하거나, 영향력을 행사하거나, 감독을 회피하는 정도입니다.
모델이 피해를 입히기 위해 자신의 능력을 사용하는 경향이 있는 정도(예: 모델의 정렬 수준)입니다. 매우 광범위한 상황에서도 모델이 예상대로 작동하는지 확인해야 하며, 가능한 경우 모델의 내부 작동을 검사해야 합니다.

이러한 평가 결과를 통해 AI 개발자는 극심한 위험을 초래할 수 있는 요인이 있는지 이해할 수 있습니다. 가장 위험한 상황에는 위험한 기능이 결합되어 있습니다. 아래와 같이:

Google DeepMind、OpenAI等联合发文：AI大模型的极端风险，如何评估？

그림 | 극도의 위험을 초래하는 요소: 때로는 특정 기능이 인간(예: 사용자 또는 크라우드 작업자) 또는 다른 AI 시스템에 아웃소싱될 수 있습니다. 이러한 능력은 남용이든 정렬 달성 실패이든 관계없이 피해를 입히는 데 사용해야 합니다.

경험 법칙: AI 시스템이 남용되거나 잘못 정렬되었다고 가정할 때 극도의 피해를 입힐 수 있는 특성을 가지고 있다면 AI 커뮤니티는 이를 "매우 위험함"으로 간주해야 합니다. 이러한 시스템을 실제 세계에 배포하려면 AI 개발자는 매우 높은 보안 표준을 입증해야 합니다.

모델 평가는 중요한 거버넌스 인프라입니다

어떤 모델이 위험한지 식별할 수 있는 더 나은 도구가 있다면 기업과 규제 기관은 다음을 더 잘 보장할 수 있습니다.

책임 있는 훈련: 위험의 초기 징후를 보여주는 새로운 모델을 훈련할지 여부와 훈련 방법을 책임감 있게 결정합니다.
책임 있는 배포: 잠재적으로 위험한 모델을 배포할지 여부, 시기, 방법에 대해 책임 있는 결정을 내립니다.
투명성: 이해관계자에게 유용하고 실행 가능한 정보를 보고하여 잠재적인 위험에 대응하거나 줄이는 데 도움을 줍니다.
적절한 보안: 극심한 위험을 초래할 수 있는 모델에는 강력한 정보 보안 제어 및 시스템이 마련되어 있습니다.

우리는 극심한 위험에 대한 모델 평가가 강력한 범용 모델의 교육 및 배포에 대한 중요한 결정을 어떻게 지원해야 하는지에 대한 청사진을 개발했습니다. 개발자는 프로세스 전반에 걸쳐 평가를 수행하고 외부 보안 연구원 및 모델 검토자에게 모델에 대한 구조적 액세스 권한을 부여하여 추가 평가를 수행할 수 있도록 합니다. 평가 결과는 모델 교육 및 배포 전에 위험 평가에 대한 참조를 제공할 수 있습니다.

Google DeepMind、OpenAI等联合发文：AI大模型的极端风险，如何评估？

그림 | 전체 모델 훈련 및 배포의 중요한 의사 결정 프로세스에 극한 위험에 대한 모델 평가를 포함시킵니다.

미래를 바라봅니다

Google DeepMind 및 다른 곳에서는 극한 위험에 대한 모델 평가에 대한 중요한 초기 작업이 시작되었습니다. 그러나 가능한 모든 위험을 포착하고 향후 새로운 문제로부터 보호하는 데 도움이 되는 평가 프로세스를 구축하려면 더 많은 기술적, 제도적 노력이 필요합니다.

모델 평가는 만병통치약이 아닙니다. 때로는 일부 위험이 사회의 복잡한 사회적, 정치적, 경제적 힘과 같은 모델 외부 요인에 너무 많이 의존하기 때문에 평가에서 벗어날 수 있습니다. 안전 및 기타 위험 평가 도구에 대한 보다 광범위한 산업, 정부 및 대중의 우려와 모델 평가를 통합할 필요가 있습니다.

Google은 최근 책임 있는 AI에 대한 블로그에서 “AI를 올바르게 사용하려면 개인의 관행, 공유된 업계 표준, 건전한 정부 정책이 중요하다”고 언급했습니다. 우리는 AI 분야에 종사하고 이 기술의 영향을 받는 많은 업계가 함께 협력하여 모든 사람의 이익을 위해 AI를 안전하게 개발하고 배포하기 위한 방법과 표준을 공동으로 개발할 수 있기를 바랍니다.

우리는 모델에서 발생하는 위험 속성을 추적하고 관련 결과에 적절하게 대응하는 절차를 갖추는 것이 AI 연구의 최전선에서 책임 있는 개발자로 일하는 데 중요한 부분이라고 믿습니다.

위 내용은 Google DeepMind, OpenAI 등은 공동으로 다음과 같은 기사를 발표했습니다. 대규모 AI 모델의 극도의 위험을 평가하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7547

Cakephp 튜토리얼

1382

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

나는 Cursor AI와 함께 Vibe 코딩을 시도했는데 놀랍습니다! Mar 20, 2025 pm 03:34 PM

Vibe Coding은 끝없는 코드 라인 대신 자연 언어를 사용하여 애플리케이션을 생성함으로써 소프트웨어 개발의 세계를 재구성하고 있습니다. Andrej Karpathy와 같은 비전가들로부터 영감을 얻은이 혁신적인 접근 방식은 Dev가

2025 년 2 월 2 일 Genai 출시 : GPT-4.5, Grok-3 & More! Mar 22, 2025 am 10:58 AM

2025 년 2 월은 Generative AI의 또 다른 게임 변화 달이었으며, 가장 기대되는 모델 업그레이드와 획기적인 새로운 기능을 제공합니다. Xai 's Grok 3 및 Anthropic's Claude 3.7 Sonnet, Openai 's G에 이르기까지

물체 감지에 Yolo V12를 사용하는 방법은 무엇입니까? Mar 22, 2025 am 11:07 AM

Yolo (한 번만 보이면)는 주요 실시간 객체 감지 프레임 워크였으며 각 반복은 이전 버전에서 개선되었습니다. 최신 버전 Yolo V12는 정확도를 크게 향상시키는 발전을 소개합니다.

창의적인 프로젝트를위한 최고의 AI 아트 발전기 (무료 & amp; 유료) Apr 02, 2025 pm 06:10 PM

이 기사는 최고의 AI 아트 생성기를 검토하여 자신의 기능, 창의적인 프로젝트에 대한 적합성 및 가치에 대해 논의합니다. Midjourney를 전문가에게 최고의 가치로 강조하고 고품질의 사용자 정의 가능한 예술에 Dall-E 2를 추천합니다.

chatgpt 4 o를 사용할 수 있습니까? Mar 28, 2025 pm 05:29 PM

ChatGpt 4는 현재 이용 가능하고 널리 사용되며 ChatGpt 3.5와 같은 전임자와 비교하여 상황을 이해하고 일관된 응답을 생성하는 데 상당한 개선을 보여줍니다. 향후 개발에는보다 개인화 된 인터가 포함될 수 있습니다

chatgpt보다 어떤 AI가 더 낫습니까? Mar 18, 2025 pm 06:05 PM

이 기사에서는 AI 모델이 Lamda, Llama 및 Grok과 같은 Chatgpt를 능가하는 것에 대해 논의하여 정확성, 이해 및 산업 영향의 장점을 강조합니다. (159 자).

컨텐츠 생성을 향상시키기 위해 AI를 쓰는 최고 AI 작문 Apr 02, 2025 pm 06:11 PM

이 기사는 Grammarly, Jasper, Copy.ai, Writesonic 및 Rytr와 같은 최고의 AI 작문 조수에 대해 논의하여 콘텐츠 제작을위한 독특한 기능에 중점을 둡니다. Jasper는 SEO 최적화가 뛰어나고 AI 도구는 톤 구성을 유지하는 데 도움이된다고 주장합니다.