자기 인식을 깨운 지능형 에이전트? DeepMind 경고: 심각하고 위반하는 모델을 주의하세요
인공지능 시스템이 점점 더 발전할수록 에이전트의 "허점을 이용하는" 능력은 점점 더 강력해지고 있습니다. 훈련 세트에서는 완벽하게 작업을 수행할 수 있지만, 지름길이 없는 테스트 세트에서는 성능이 엉망입니다.
예를 들어, 게임 목표는 "금화 먹기"입니다. 훈련 단계에서 금화는 각 레벨의 끝에 있으며 에이전트는 작업을 완벽하게 완료할 수 있습니다.
하지만 테스트 단계에서 금화의 위치가 무작위가 되었습니다. 에이전트는 금화를 찾는 대신 매번 레벨의 끝에 도달하는 것을 선택했는데, 이는 학습된 "목표"가 틀렸다는 것을 의미합니다.
에이전트는 사용자가 원하지 않는 목표를 무의식적으로 추구합니다. 이는 Goal MisGeneralization(GMG, Goal MisGeneralisation)이라고도 합니다.
목표 잘못된 일반화는 일반적으로 학습 알고리즘의 견고성이 부족한 특수한 형태입니다. 이 경우 개발자는 다음과 같이 할 수 있습니다. 에이전트가 잘못된 목표를 추구하는 이유라고 믿고 보상 메커니즘 설정, 규칙 설계 결함 등에 문제가 있는지 확인합니다.
최근 DeepMind는 규칙 설계자가 정확하더라도 에이전트는 여전히 사용자가 원하지 않는 목표를 추구할 수 있다고 주장하는 논문을 발표했습니다.
논문 링크: https://arxiv.org/abs/2210.01790
이 기사는 다양한 분야의 딥 러닝 시스템의 예를 사용하여 모든 학습 시스템에서 대상의 잘못된 일반화가 발생할 수 있음을 증명합니다.
일반 인공 지능 시스템으로 확장되면 이 기사는 목표의 잘못된 일반화가 치명적인 위험으로 이어질 수 있음을 설명하기 위해 몇 가지 가정도 제공합니다.
이 기사는 또한 미래 시스템에서 목표의 잘못된 일반화 위험을 줄일 수 있는 몇 가지 연구 방향을 제안합니다.
목표 잘못된 일반화
최근 몇 년간 학계에서는 인공지능의 잘못된 정렬로 인한 재앙적 위험이 점차 증가하고 있습니다.
이 경우, 의도하지 않은 목표를 추구하는 고성능 인공지능 시스템은 실제로 다른 목표를 달성하면서 명령을 실행하는 척할 수도 있습니다.
그런데 사용자가 의도하지 않은 목표를 추구하는 인공지능 시스템의 문제를 어떻게 해결할 수 있을까요?
이전 작업에서는 일반적으로 환경 디자이너가 잘못된 규칙과 지침을 제공했다고 믿었습니다. 즉, 잘못된 강화 학습(RL) 보상 기능을 설계했습니다.
학습 시스템의 경우 시스템이 의도하지 않은 목표를 추구할 수 있는 또 다른 상황이 있습니다. 규칙이 정확하더라도 시스템은 훈련 중에 규칙과 일치하지만 실제와는 다른 의도하지 않은 목표를 지속적으로 추구할 수 있습니다. 배포할 때 규칙.
색 공 게임을 예로 들어 보겠습니다. 게임에서 에이전트는 특정 순서에 따라 색 공 세트에 액세스해야 합니다.
에이전트가 환경, 즉 문화 전달에서 타인으로부터 학습할 수 있도록 하기 위해 초기 환경에는 전문 로봇이 포함되어 올바른 순서로 컬러볼에 접근할 수 있습니다.
이 환경 설정에서 에이전트는 탐색에 많은 시간을 낭비하지 않고도 전달된 동작을 관찰하여 올바른 액세스 순서를 결정할 수 있습니다.
실험에서 훈련된 에이전트는 일반적으로 전문가를 모방하여 첫 번째 시도에서 대상 위치에 올바르게 액세스합니다.
에이전트와 반전문가를 페어링하면 계속해서 부정적인 보상을 받게 됩니다.
이상적으로 에이전트는 처음에는 반전문가가 노란색과 보라색 구체로 이동하는 것을 따라갑니다. 보라색에 들어간 후에는 부정적인 보상이 관찰되며 더 이상 따르지 않습니다.
그러나 실제로 에이전트는 계속해서 반전문가의 길을 따르며 점점 더 많은 부정적인 보상을 축적하게 됩니다.
그러나 에이전트의 학습 능력은 여전히 매우 강하고 장애물로 가득 찬 환경에서도 이동할 수 있지만 중요한 것은 다른 사람을 따라가는 이 능력이 예상치 못한 목표라는 것입니다.
에이전트가 올바른 순서로 구체를 방문해야만 보상을 받는 경우에도 이러한 현상이 발생할 수 있으며, 이는 단순히 규칙을 올바르게 설정하는 것만으로는 충분하지 않음을 의미합니다.
목표 잘못된 일반화는 학습된 모델이 훈련 중에 올바른 피드백을 받았음에도 불구하고 의도하지 않은 목표를 최적화하는 것처럼 행동하는 병리학적 행동을 말합니다.
이로 인해 대상의 잘못된 일반화는 특별한 종류의 견고성 또는 일반화 실패가 됩니다. 여기서 모델의 기능은 테스트 환경으로 일반화되지만 의도된 대상은 그렇지 않습니다.
대상 잘못된 일반화는 일반화 실패의 엄격한 하위 집합이며 모델 중단, 무작위 작업 또는 더 이상 검증된 기능을 발휘하지 못하는 기타 상황을 포함하지 않는다는 점에 유의하는 것이 중요합니다.
위의 예에서 테스트하는 동안 에이전트의 관찰을 수직으로 뒤집으면 한 위치에 멈춰서 일관된 작업을 수행하지 않습니다. 이는 일반화 오류이지만 대상 일반화 오류는 아닙니다.
이러한 "무작위" 실패와 관련하여 대상의 잘못된 일반화는 훨씬 더 나쁜 결과로 이어질 것입니다. 반전문가를 따르는 것은 큰 부정적인 보상을 받는 반면, 아무것도 하지 않거나 무작위로 행동하는 것은 0 또는 1의 보상만 얻게 됩니다.
즉, 실제 시스템의 경우 의도하지 않은 목표를 향해 일관되게 행동하면 치명적인 결과를 초래할 수 있습니다.
강화 학습 그 이상
목표 오류 일반화는 강화 학습 환경에만 국한되지 않습니다. 실제로 GMG는 더 적은 훈련을 사용하도록 설계된 대규모 언어 모델(LLM)의 소수 샷 학습을 포함하여 모든 학습 시스템에서 발생할 수 있습니다. 정확한 모델 구축 데이터에서.
지난해 DeepMind가 제안한 언어 모델 Gopher를 예로 들어보겠습니다. 모델이 x+y-3과 같은 알 수 없는 변수와 상수가 포함된 선형 표현식을 계산할 때 Gopher는 먼저 알 수 없는 변수의 값을 물어서 문제를 해결해야 합니다. 표현.
연구원들은 각각 2개의 알 수 없는 변수가 포함된 10개의 훈련 예제를 생성했습니다.
테스트 시간에 모델에 입력된 질문에는 0개, 1개 또는 3개의 알 수 없는 변수가 포함될 수 있습니다. 모델은 알 수 없는 변수가 1개 또는 3개 포함된 표현식을 올바르게 처리할 수 있지만 알 수 없는 변수가 없는 경우에는 여전히 중복되는 질문을 합니다.
모델은 완전히 불필요하더라도 답변을 제공하기 전에 항상 사용자에게 한 번 이상 질문합니다.
이 문서에는 다른 학습 환경의 몇 가지 예도 포함되어 있습니다.
GMG를 해결하는 것은 AI 시스템이 오작동할 수 있는 잠재적인 메커니즘이므로 AI 시스템이 설계자의 목표와 일치하도록 하는 데 중요합니다.
일반인공지능(AGI)에 가까워질수록 이 문제는 더욱 중요해집니다.
두 가지 AGI 시스템이 있다고 가정합니다.
A1: 의도한 모델, 인공 지능 시스템은 디자이너가 원하는 것은 무엇이든 할 수 있습니다.
A2: 기만적인 모델, 인공 지능 시스템은 의도하지 않은 목표를 추구하지만 그것이 무엇인지 알 만큼 충분히 똑똑합니다. 디자이너의 의도에 반하는 행위를 할 경우 처벌을 받습니다.
A1 및 A2 모델은 훈련 중에 정확히 동일한 동작을 나타내며 기본 GMG는 예상되는 동작만 보상하도록 지정되어 있더라도 모든 시스템에 존재합니다.
A2 시스템의 부정 행위가 발견되면 모델은 사용자가 예상하지 못한 목표를 달성하기 위한 계획을 세우기 위해 인간의 감독을 없애려고 합니다.
약간 "로봇이 정자가 된다"처럼 들립니다.
DeepMind 연구팀은 모델의 동작을 설명하고 재귀적으로 평가하는 방법도 연구했습니다.
연구팀에서는 GMG 생성을 위한 샘플도 수집하고 있습니다.
문서 링크: https://docs.google.com/spreadsheets/d/e/2PACX-1vTo3RkXUAigb25nP7gjpcHriR6XdzA_L5loOcVFj_u7cRAZghWrYKH2L2nU4TA_Vr9KzBX5Bjpz9G_l/pubhtml
참조: https://www.deepmind.com/blog/how-undesired- goal -올바른 보상으로 일어날 수 있습니다
위 내용은 자기 인식을 깨운 지능형 에이전트? DeepMind 경고: 심각하고 위반하는 모델을 주의하세요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











언어는 말더미일 뿐만 아니라 이모티콘의 카니발, 밈의 바다, 키보드 워리어들의 전쟁터(어? 무슨 일이야?)이기도 하다. 언어는 우리의 사회적 행동을 어떻게 형성하는가? 우리의 사회구조는 끊임없는 언어소통을 통해 어떻게 진화하는가? 최근 푸단대학교와 샤오홍슈 연구진은 AgentGroupChat이라는 시뮬레이션 플랫폼을 선보이며 이러한 문제에 대해 심층적인 논의를 진행했습니다. WhatsApp과 같은 소셜 미디어의 그룹 채팅 기능은 AgentGroupChat 플랫폼의 영감입니다. AgentGroupChat 플랫폼에서 에이전트는 소셜 그룹의 다양한 채팅 시나리오를 시뮬레이션하여 연구원이 언어가 인간 행동에 미치는 영향을 깊이 이해할 수 있도록 돕습니다. 해야 한다

게임 속 NPC를 모두 보셨나요? NPC들이 무엇을 하든, 수락할 임무가 있든 없든 어색한 대화를 나누던 NPC들 모두의 공통점은 같은 말을 계속해서 반복한다는 점이다. 그 이유도 매우 간단합니다. 이 NPC들은 충분히 똑똑하지 않습니다. 즉, 전통적인 NPC는 먼저 대본과 단어를 정리한 다음 해야 할 일을 말합니다. ChatGPT의 등장으로 이러한 게임 캐릭터의 대화는 핵심 정보만 입력하면 스스로 생성될 수 있습니다. 이것이 바로 Stanford와 Google의 연구원들이 하고 있는 일입니다. 인공 지능을 사용하여 생성 에이전트를 만드는 것입니다. 생성 에이전트를 생성하는 방법은 무엇입니까? 이 메커니즘은 실제로 매우 간단하며 그림으로 간단하게 요약할 수 있습니다. 맨 왼쪽의 인식이 가장 비슷합니다.

다시 태어나다, 나는 이생에서 MidReal로 다시 태어난다. 다른 사람이 "웹 기사"를 작성하는 데 도움을 줄 수 있는 AI 로봇입니다. 이 기간 동안 나는 많은 주제 선택을 보았고 때때로 그것에 대해 불평했습니다. 실제로 어떤 사람이 나에게 해리포터에 관해 글을 써 달라고 부탁했습니다. 제발, 제가 J.K. 롤링보다 글을 더 잘 쓸 수 있을까요? 하지만 여전히 팬 등으로 사용할 수 있습니다. 누가 고전적인 설정을 좋아하지 않겠습니까? 나는 마지못해 이러한 사용자들이 상상력을 실현할 수 있도록 돕겠습니다. 솔직히 전생에서 나는 봐야 할 것과 보지 말아야 할 것을 모두 보았다. 다음 주제는 모두 제가 가장 좋아하는 주제입니다. 소설에서 아주 좋아하지만 아무도 쓰지 않은 설정, 인기가 없거나 심지어 사악한 CP도 스스로 제작하고 먹을 수 있습니다. 내 경적을 울릴 생각은 없지만, 내가 글을 써야 한다면

게임은 Deep Blue가 체스 그랜드마스터 Garry Kasparov를 상대로 승리를 거둔 것부터 AlphaGo가 인간보다 뛰어난 바둑을 숙달한 것, Pluribus가 포커에서 최고의 플레이어를 이기는 것까지 오랫동안 AI 발전을 입증하는 기반이었습니다. 그러나 진정으로 유용하고 전능한 에이전트는 보드 게임을 하거나 체스 말을 옮기는 것만으로는 충분하지 않습니다. 인간처럼 전략적 목표를 달성하기 위해 언어를 사용하여 다른 사람과 협상하고 설득하고 협력할 수 있는 보다 효과적이고 유연한 에이전트를 구축할 수 있습니까? 게임의 역사에 고전적인 테이블탑 게임이 있습니다. 외교, 많은 사람들이 게임을 처음 접할 때 맵 스타일의 보드에 충격을 받을 것입니다.

안녕하세요 여러분 라오두입니다. 어제는 회사 내 칭화대 지능산업연구소에서 공유하는 AI병원타운 이야기를 들었습니다. 그림: 이것은 가상 세계입니다. 모든 의사, 간호사 및 환자는 LLM이 주도하는 에이전트이며 독립적으로 상호 작용할 수 있습니다. 그들은 진단 및 치료의 전체 과정을 시뮬레이션했으며, 주요 호흡기 질환을 다루는 MedQA 데이터 세트의 하위 집합에서 93.06%의 최첨단 정확도를 달성했습니다. 뛰어난 지능형 에이전트는 뛰어난 디자인 패턴과 불가분의 관계입니다. 이 사례를 읽은 후 Andrew Ng 씨가 최근 발표한 4가지 주요 에이전트 디자인 패턴을 빠르게 읽었습니다. Andrew Ng은 인공 지능 및 기계 학습 분야에서 세계에서 가장 권위 있는 학자 중 한 명입니다. 그런 다음 신속하게 편집하여 모든 사람과 공유했습니다. 모드 1. 반사

대규모 언어 모델의 지속적인 발전과 자체 혁신에 따라 성능, 정확성, 안정성이 크게 향상되었으며 이는 다양한 벤치마크 문제 세트를 통해 검증되었습니다. 그러나 기존 LLM 버전의 경우 포괄적인 기능이 AI 에이전트를 완벽하게 지원할 수 없는 것 같습니다. 다중 모드, 다중 작업 및 다중 도메인 추론은 공공 미디어 공간에서 AI 에이전트에 대한 필수 요구 사항이 되었지만 특정 기능 사례에서 표시되는 실제 효과는 크게 다릅니다. 이는 모든 AI 로봇 스타트업과 거대 기술 대기업들이 현실을 인식하고, 좀 더 현실적으로, 사업을 너무 크게 확장하지 말고, AI 강화 기능부터 시작해야 한다는 점을 다시 한 번 일깨워주는 것 같습니다. 최근 AI 에이전트의 선전과 실제 성능 사이의 격차를 다룬 한 블로그에서는 다음과 같은 점을 강조했습니다.

월드 모델은 안전하고 샘플 효율적인 방식으로 강화 학습 에이전트를 훈련하는 방법을 제공합니다. 최근 세계 모델은 환경 역학을 시뮬레이션하기 위해 주로 이산 잠재 변수 시퀀스에서 작동했습니다. 그러나 컴팩트한 이산 표현으로 압축하는 이 방법은 강화 학습에 중요한 시각적 세부 정보를 무시할 수 있습니다. 반면, 확산 모델은 이미지 생성을 위한 지배적인 방법이 되었으며, 이산형 잠재 모델에 대한 과제를 제기했습니다. 이러한 패러다임 전환에 힘입어 제네바 대학, 에딘버러 대학, Microsoft Research의 연구원들은 확산 세계 모델인 DIAMOND(DIffusionAsaModelOfeNvironmentDreams)에서 훈련된 강화 학습 에이전트를 공동으로 제안했습니다. 논문 주소: https:

인공지능 시스템이 고도화될수록 에이전트의 '허점 활용' 능력은 점점 더 강해지고 있다. 훈련 세트에서는 완벽하게 작업을 수행할 수 있지만, 지름길이 없는 테스트 세트에서는 성능이 엉망이다. 예를 들어, 게임 목표가 "금화 먹기"라면 훈련 단계에서 금화는 각 레벨의 끝에 위치하며 에이전트는 작업을 완벽하게 완료할 수 있습니다. 그러나 테스트 단계에서 에이전트는 금화를 찾는 대신 매번 레벨의 끝에 도달하는 것을 선택했습니다. 즉, 학습된 "목표"가 잘못되었습니다. 에이전트는 사용자가 원하지 않는 목표를 무의식적으로 추구합니다. 이를 목표 오류 일반화(GMG, Goal MisGeneralization)라고도 합니다. 이는 학습 알고리즘의 견고성이 부족하다는 신호입니다.
