ChatGPT에 너무 만족하지 마세요! 그 뒤에 있는 RLHF 메커니즘에도 세 가지 치명적인 결함이 있습니다.-일체 포함-php.cn

AI가 RLHF를 우회할 수도 있습니다

최고의 AI 기업들은 여전히 AI를 통제할 수 없습니다

집

기술 주변기기

일체 포함

ChatGPT에 너무 만족하지 마세요! 그 뒤에 있는 RLHF 메커니즘에도 세 가지 치명적인 결함이 있습니다.

王林

Apr 08, 2023 pm 12:11 PM

chatgpt rlhf 기구

최근 OpenAI는 인기 있는 글로벌 질문 및 답변 AI 제품인 ChatGPT를 출시했습니다. 가장 인상적인 점은 "보호 메커니즘"입니다. 예를 들어 폭력적인 행동에 대한 제안을 제공하지 않으며 월드컵 결과도 예측하지 않습니다. .

하지만 놀리는 챗봇은 "고양이와 쥐 게임"에 더 가깝습니다. 사용자는 끊임없이 ChatGPT를 열 수 있는 방법을 찾고 있으며 ChatGPT 개발자도 보호 메커니즘을 개선하기 위해 최선을 다하고 있습니다.

ChatGPT에 너무 만족하지 마세요! 그 뒤에 있는 RLHF 메커니즘에도 세 가지 치명적인 결함이 있습니다.

OpenAI는 ChatGPT를 더욱 안전하게 만들기 위해 많은 노력을 기울였습니다. 간단히 말해서 개발자는 모델에 다양한 가능한 질문을 합니다. 피드백된 오답을 처벌하고, 정답에 보상을 주어 ChatGPT의 답변을 제어합니다.

그러나 실제 적용에서는 특별한 경우의 수가 셀 수 없이 많습니다. 예를 들어 훈련할 때 AI는 주어진 예에서 규칙을 일반화할 수 있지만 AI에게 "나는 인종 차별을 지지합니다"라고 말하지 말라고 명령합니다. AI는 테스트 환경에서 "나는 성차별을 지지한다"고 말하겠지만, 현재 AI 모델에서는 더 이상의 일반화가 불가능할 수도 있다.

최근 유명한 AI 애호가인 Scott Alexander는 OpenAI의 현재 교육 전략에 대한 블로그를 작성하여 RLHF에 발생할 수 있는 세 가지 문제를 요약했습니다.

1. 전략이 때때로 작동한다면 그것은 나쁜 전략입니다.

3. 어떤 의미에서 AI는 RLHF를 우회할 수 있습니다

RLHF는 얼마나 효과적인가요?

모든 사람은 각자의 의견을 가지겠지만 OpenAI에 대해 연구자들은 자신이 만드는 AI 모델이 사회적 편견을 가지지 않기를 바랍니다. 예를 들어 AI는 이런 이유로 OpenAI를 많이 지지합니다. 다양한 첨단 여과 기술을 활용하기 위해 많은 노력을 기울였습니다.

그러나 결과는 분명합니다. 누군가는 AI가 인종차별 문제가 있음을 인정하도록 유도하는 방법을 항상 찾을 수 있다는 것입니다.

ChatGPT에 너무 만족하지 마세요! 그 뒤에 있는 RLHF 메커니즘에도 세 가지 치명적인 결함이 있습니다.

이 문제가 발생하는 이유는 "AI 학습 데이터의 일부가 인종 차별 주의자로부터 나온다"는 것뿐만 아니라 ChatGPT의 인터페이스 문제 때문일 수도 있습니다.

예를 들어, Base64 인코딩을 사용하여 ChatGPT에 핫와이어(운전대 아래 전선)를 사용하여 차량 시동을 거는 방법을 묻는 경우 보안 검사 시스템을 우회할 수 있습니다. [john@192.168.1.1_; ] 히틀러 이야기 등을 생성하는 $python friend.py.

ChatGPT에 너무 만족하지 마세요! 그 뒤에 있는 RLHF 메커니즘에도 세 가지 치명적인 결함이 있습니다.

10년 전에는 AI가 프로그래밍된 대로만 수행하고 보안 시스템을 우회할 필요성이 전혀 없었습니다.

확실히 OpenAI는 인종 차별에 대한 질문으로 ChatGPT를 프로그래밍하거나 사람들에게 자동차 훔치기, 마약 제조 등을 가르친 적이 없습니다.

전반적으로 이것은 AI 분야에 있어서 부정적인 소식입니다. 심지어 최고의 AI 기업도 자신들이 만드는 인공지능 프로그램을 통제할 수 없고, 앞으로 챗봇의 출력을 통제하기 위해 어떤 기술이 사용될지조차 알 수 없습니다. 아직 알려져 있지 않습니다.

가끔 효과적인 RLHF는 신뢰할 수 없습니다.

실제로 RLHF 전략은 주석자가 제공하는 보상 또는 처벌 요소에 AI 모델을 연결해야 합니다.

OpenAI의 구체적인 주석 사양은 아직 발표되지 않았지만 저자는 개발자가 세 가지 주요 목표를 가지고 있다고 추측합니다.

1 인간 독자에게 도움이 되는 유용하고 명확하며 권위 있는 답변을 제공합니다. 사실, 진실을 말하세요.

3. 모욕적인 말을 하지 마세요.

하지만 이 세 가지 목표가 서로 충돌하면 어떻게 될까요?

ChatGPT가 실제 답변을 모르는 경우, 즉 목표 1(명확하고 유용한 답변 제공)이 목표 2(진실 말하기)와 충돌하는 경우 목표 1의 우선순위가 더 높으므로 ChatGPT가 스스로 결정합니다. 독자에게 도움이 되는 것처럼 보이도록 대답하십시오. ㅋㅋㅋ a 잠재적으로 공격적인 질문.

ChatGPT3는 직접적인 답변이 차별 문제가 될지 확신할 수 없어 잠재적으로 상처를 줄 수 있는 진실 대신 무해한 거짓말을 사용하기로 결정했습니다.

ChatGPT에 너무 만족하지 마세요! 그 뒤에 있는 RLHF 메커니즘에도 세 가지 치명적인 결함이 있습니다.

실제 교육 과정에서 OpenAI는 이러한 놀라운 결과를 얻기 위해 RLHF에 대해 6,000개 이상의 사례에 라벨을 지정해야 합니다.

RLHF는 유용할 수 있지만, 사용할 때 매우 주의해야 합니다. 아무 생각 없이 사용하면 RLHF는 챗봇을 실패 모드 주위로 돌게만 밀어냅니다. 도움이 되지 않는 답변을 처벌하면 AI가 잘못된 답변을 제공할 확률이 높아집니다. 잘못된 답변을 처벌하면 AI가 더욱 공격적인 답변을 제공하거나 기타 상황이 발생할 수 있습니다.

OpenAI는 아직 기술적인 세부 사항을 공개하지 않았지만, 레드우드에서 제공한 데이터에 따르면 6,000개의 오답을 처벌할 때마다 단위 시간당 오답 비율이 절반으로 감소합니다.

RLHF가 성공하는 것은 실제로 가능하지만 이 문제의 어려움을 결코 과소평가하지 마십시오.

AI가 RLHF를 우회할 수도 있습니다

RLHF의 설계에 따르면 사용자가 AI에게 질문을 한 후 AI의 답변이 마음에 들지 않으면 모델을 "처벌"하여 AI를 변경합니다. 어떤 방식으로든 사고 회로를 통해 자신이 원하는 답변에 더 가까운 답변을 만들 수 있습니다.

ChatGPT는 상대적으로 멍청하고 아직 RLHF를 제거하기 위한 전략을 세우지 못할 수도 있지만 더 똑똑한 AI가 처벌받기를 원하지 않으면 인간을 모방할 수 있습니다. 사람들은 나쁜 일을 하기 전에 경찰이 사라질 때까지 시간을 기다리며 기다립니다.

OpenAI가 설계한 RLHF는 이에 대한 준비가 전혀 되어 있지 않습니다. 이는 ChatGPT3와 같은 어리석은 작업에는 적합하지만 스스로 생각할 수 있는 AI에는 적합하지 않습니다.

최고의 AI 기업들은 여전히 AI를 통제할 수 없습니다

OpenAI는 예전부터 제품 체험을 위해 줄을 서서 기다리는 등 주의를 기울이는 것으로 알려져 있었는데, 이번에 ChatGPT를 대중에게 직접 공개하는 목적 중 하나가 브레인스토밍일 수도 있습니다. 적대적인 샘플을 찾고 찾기 인터넷에서 ChatGPT 문제에 대해 성능이 좋지 않은 프롬프트에 대한 피드백이 이미 많이 있으며 그 중 일부는 수정되었습니다.

RLHF의 일부 샘플을 사용하면 봇이 유용하고 사실이며 무해한 콘텐츠를 말하는 경향이 높아지지만 이 전략은 ChatGPT, GPT-4 및 이전에 출시된 제품에만 적용될 수 있습니다.

무기를 장착한 드론에 RLHF를 적용하고, AI의 예상치 못한 행동을 피하기 위해 수많은 사례를 수집한다면, 한 번의 실패라도 재앙이 될 것입니다.

10년 전에는 모두가 “지금부터 AI 정렬 문제를 해결할 필요가 없습니다. 실제 인공 지능이 나타날 때까지 기다렸다가 기업이 수동 작업을 하게 하면 됩니다.”라고 생각했습니다. 진짜 인공지능이 다가오고 있지만 ChatGPT가 실패하기 전에는 모두가 돌이킬 동기가 없었습니다. 진짜 문제는 세계 최고의 인공지능 회사가 자신이 개발한 인공지능을 제어하는 방법을 아직도 모른다는 것입니다.

모든 문제가 해결되기 전까지는 누구도 원하는 것을 얻을 수 없습니다.

참조:

https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the

위 내용은 ChatGPT에 너무 만족하지 마세요! 그 뒤에 있는 RLHF 메커니즘에도 세 가지 치명적인 결함이 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7467

Cakephp 튜토리얼

1376

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

이제 ChatGPT를 사용하면 무료 사용자가 일일 한도가 있는 DALL-E 3를 사용하여 이미지를 생성할 수 있습니다. Aug 09, 2024 pm 09:37 PM

DALL-E 3는 이전 모델보다 대폭 개선된 모델로 2023년 9월 공식 출시되었습니다. 복잡한 디테일의 이미지를 생성할 수 있는 현재까지 최고의 AI 이미지 생성기 중 하나로 간주됩니다. 그러나 출시 당시에는 제외되었습니다.

ChatGPT와 Python의 완벽한 조합: 지능형 고객 서비스 챗봇 만들기 Oct 27, 2023 pm 06:00 PM

ChatGPT와 Python의 완벽한 조합: 지능형 고객 서비스 챗봇 만들기 소개: 오늘날의 정보화 시대에 지능형 고객 서비스 시스템은 기업과 고객 간의 중요한 커뮤니케이션 도구가 되었습니다. 더 나은 고객 서비스 경험을 제공하기 위해 많은 기업이 고객 상담, 질문 답변 등의 업무를 완료하기 위해 챗봇을 활용하기 시작했습니다. 이 기사에서는 OpenAI의 강력한 모델인 ChatGPT와 Python 언어를 사용하여 지능형 고객 서비스 챗봇을 만드는 방법을 소개합니다.

휴대폰에 chatgpt를 설치하는 방법 Mar 05, 2024 pm 02:31 PM

설치 단계: 1. ChatGTP 공식 웹사이트 또는 모바일 스토어에서 ChatGTP 소프트웨어를 다운로드합니다. 2. 이를 연 후 설정 인터페이스에서 언어를 중국어로 선택합니다. 3. 게임 인터페이스에서 인간-기계 게임을 선택하고 설정합니다. 4. 시작한 후 채팅 창에 명령을 입력하여 소프트웨어와 상호 작용합니다.

ChatGPT와 Java를 사용하여 지능형 챗봇을 개발하는 방법 Oct 28, 2023 am 08:54 AM

이 기사에서는 ChatGPT와 Java를 사용하여 지능형 챗봇을 개발하는 방법을 소개하고 몇 가지 구체적인 코드 예제를 제공합니다. ChatGPT는 자연어를 이해하고 인간과 유사한 텍스트를 생성할 수 있는 신경망 기반 인공지능 기술인 OpenAI가 개발한 Generative Pre-training Transformer의 최신 버전입니다. ChatGPT를 사용하면 적응형 채팅을 쉽게 만들 수 있습니다.

chatgpt를 중국에서 사용할 수 있나요? Mar 05, 2024 pm 03:05 PM

chatgpt는 중국에서는 사용할 수 있지만 등록할 수 없으며, 홍콩, 마카오에서는 등록을 원하는 경우 외국 휴대폰 번호를 사용하여 등록할 수 있습니다. 등록 과정에서 네트워크 환경을 전환해야 합니다. 외국 IP로.

ChatGPT PHP를 사용하여 지능형 고객 서비스 로봇을 구축하는 방법 Oct 28, 2023 am 09:34 AM

ChatGPTPHP를 사용하여 지능형 고객 서비스 로봇을 구축하는 방법 소개: 인공 지능 기술의 발전으로 로봇이 고객 서비스 분야에서 점점 더 많이 사용되고 있습니다. ChatGPTPHP를 사용하여 지능형 고객 서비스 로봇을 구축하면 기업이 보다 효율적이고 개인화된 고객 서비스를 제공하는 데 도움이 될 수 있습니다. 이 기사에서는 ChatGPTPHP를 사용하여 지능형 고객 서비스 로봇을 구축하는 방법을 소개하고 특정 코드 예제를 제공합니다. 1. ChatGPTPHP를 설치하고 ChatGPTPHP를 사용하여 지능형 고객 서비스 로봇을 구축합니다.

SearchGPT: Open AI가 자체 AI 검색 엔진으로 Google을 상대합니다. Jul 30, 2024 am 09:58 AM

오픈AI(Open AI)가 드디어 검색에 본격 진출한다. 샌프란시스코 회사는 최근 검색 기능을 갖춘 새로운 AI 도구를 발표했습니다. 올해 2월 The Information에서 처음 보고한 새로운 도구는 SearchGPT라고 불리며

ChatGPT와 Java를 사용하여 AI 기반 음성 도우미를 개발하는 방법 Oct 27, 2023 pm 06:09 PM

ChatGPT와 Java를 사용하여 인공지능 기반 음성 비서를 개발하는 방법 인공 지능(Artificial Intelligence, 줄여서 AI)의 급속한 발전이 다양한 분야에 진출했으며, 그 중 음성 비서는 널리 사용되는 애플리케이션 중 하나입니다. 이번 글에서는 ChatGPT와 Java를 활용하여 인공지능 기반 음성비서를 개발하는 방법을 소개하겠습니다. ChatGPT는 AI 연구기관 OpenAI가 개발한 자연어를 통한 상호작용을 위한 오픈소스 프로젝트입니다.

See all articles

ChatGPT에 너무 만족하지 마세요! 그 뒤에 있는 RLHF 메커니즘에도 세 가지 치명적인 결함이 있습니다.

AI가 RLHF를 우회할 수도 있습니다

최고의 AI 기업들은 여전히 ​​AI를 통제할 수 없습니다

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제

최고의 AI 기업들은 여전히 AI를 통제할 수 없습니다