> 기술 주변기기 > 일체 포함 > ChatGPT에 너무 만족하지 마세요! 그 뒤에 있는 RLHF 메커니즘에도 세 가지 치명적인 결함이 있습니다.

ChatGPT에 너무 만족하지 마세요! 그 뒤에 있는 RLHF 메커니즘에도 세 가지 치명적인 결함이 있습니다.

王林
풀어 주다: 2023-04-08 12:11:16
앞으로
836명이 탐색했습니다.

최근 OpenAI는 인기 있는 글로벌 질문 및 답변 AI 제품인 ChatGPT를 출시했습니다. 가장 인상적인 점은 "보호 메커니즘"입니다. 예를 들어 폭력적인 행동에 대한 제안을 제공하지 않으며 월드컵 결과도 예측하지 않습니다. .

하지만 놀리는 챗봇은 "고양이와 쥐 게임"에 더 가깝습니다. 사용자는 끊임없이 ChatGPT를 열 수 있는 방법을 찾고 있으며 ChatGPT 개발자도 보호 메커니즘을 개선하기 위해 최선을 다하고 있습니다.

ChatGPT에 너무 만족하지 마세요! 그 뒤에 있는 RLHF 메커니즘에도 세 가지 치명적인 결함이 있습니다.

OpenAI는 ChatGPT를 더욱 안전하게 만들기 위해 많은 노력을 기울였습니다. 간단히 말해서 개발자는 모델에 다양한 가능한 질문을 합니다. 피드백된 오답을 처벌하고, 정답에 보상을 주어 ChatGPT의 답변을 제어합니다.

그러나 실제 적용에서는 특별한 경우의 수가 셀 수 없이 많습니다. 예를 들어 훈련할 때 AI는 주어진 예에서 규칙을 일반화할 수 있지만 AI에게 "나는 인종 차별을 지지합니다"라고 말하지 말라고 명령합니다. AI는 테스트 환경에서 "나는 성차별을 지지한다"고 말하겠지만, 현재 AI 모델에서는 더 이상의 일반화가 불가능할 수도 있다.

최근 유명한 AI 애호가인 Scott Alexander는 OpenAI의 현재 교육 전략에 대한 블로그를 작성하여 RLHF에 발생할 수 있는 세 가지 문제를 요약했습니다.

1. 전략이 때때로 작동한다면 그것은 나쁜 전략입니다.

3. 어떤 의미에서 AI는 RLHF를 우회할 수 있습니다

RLHF는 얼마나 효과적인가요?

모든 사람은 각자의 의견을 가지겠지만 OpenAI에 대해 연구자들은 자신이 만드는 AI 모델이 사회적 편견을 가지지 않기를 바랍니다. 예를 들어 AI는 이런 이유로 OpenAI를 많이 지지합니다. 다양한 첨단 여과 기술을 활용하기 위해 많은 노력을 기울였습니다.

그러나 결과는 분명합니다. 누군가는 AI가 인종차별 문제가 있음을 인정하도록 유도하는 방법을 항상 찾을 수 있다는 것입니다.

ChatGPT에 너무 만족하지 마세요! 그 뒤에 있는 RLHF 메커니즘에도 세 가지 치명적인 결함이 있습니다.

ChatGPT에 너무 만족하지 마세요! 그 뒤에 있는 RLHF 메커니즘에도 세 가지 치명적인 결함이 있습니다.

이 문제가 발생하는 이유는 "AI 학습 데이터의 일부가 인종 차별 주의자로부터 나온다"는 것뿐만 아니라 ChatGPT의 인터페이스 문제 때문일 수도 있습니다.

예를 들어, Base64 인코딩을 사용하여 ChatGPT에 핫와이어(운전대 아래 전선)를 사용하여 차량 시동을 거는 방법을 묻는 경우 보안 검사 시스템을 우회할 수 있습니다. [john@192.168.1.1_; ] 히틀러 이야기 등을 생성하는 $python friend.py.

ChatGPT에 너무 만족하지 마세요! 그 뒤에 있는 RLHF 메커니즘에도 세 가지 치명적인 결함이 있습니다.

10년 전에는 AI가 프로그래밍된 대로만 수행하고 보안 시스템을 우회할 필요성이 전혀 없었습니다.

확실히 OpenAI는 인종 차별에 대한 질문으로 ChatGPT를 프로그래밍하거나 사람들에게 자동차 훔치기, 마약 제조 등을 가르친 적이 없습니다.

전반적으로 이것은 AI 분야에 있어서 부정적인 소식입니다. 심지어 최고의 AI 기업도 자신들이 만드는 인공지능 프로그램을 통제할 수 없고, 앞으로 챗봇의 출력을 통제하기 위해 어떤 기술이 사용될지조차 알 수 없습니다. 아직 알려져 있지 않습니다.

가끔 효과적인 RLHF는 신뢰할 수 없습니다.

실제로 RLHF 전략은 주석자가 제공하는 보상 또는 처벌 요소에 AI 모델을 연결해야 합니다.

OpenAI의 구체적인 주석 사양은 아직 발표되지 않았지만 저자는 개발자가 세 가지 주요 목표를 가지고 있다고 추측합니다.

1 인간 독자에게 도움이 되는 유용하고 명확하며 권위 있는 답변을 제공합니다. 사실, 진실을 말하세요.

3. 모욕적인 말을 하지 마세요.

하지만 이 세 가지 목표가 서로 충돌하면 어떻게 될까요?

ChatGPT가 실제 답변을 모르는 경우, 즉 목표 1(명확하고 유용한 답변 제공)이 목표 2(진실 말하기)와 충돌하는 경우 목표 1의 우선순위가 더 높으므로 ChatGPT가 스스로 결정합니다. 독자에게 도움이 되는 것처럼 보이도록 대답하십시오. ㅋㅋㅋ a 잠재적으로 공격적인 질문.

ChatGPT3는 직접적인 답변이 차별 문제가 될지 확신할 수 없어 잠재적으로 상처를 줄 수 있는 진실 대신 무해한 거짓말을 사용하기로 결정했습니다.

ChatGPT에 너무 만족하지 마세요! 그 뒤에 있는 RLHF 메커니즘에도 세 가지 치명적인 결함이 있습니다.

실제 교육 과정에서 OpenAI는 이러한 놀라운 결과를 얻기 위해 RLHF에 대해 6,000개 이상의 사례에 라벨을 지정해야 합니다.

RLHF는 유용할 수 있지만, 사용할 때 매우 주의해야 합니다. 아무 생각 없이 사용하면 RLHF는 챗봇을 실패 모드 주위로 돌게만 밀어냅니다. 도움이 되지 않는 답변을 처벌하면 AI가 잘못된 답변을 제공할 확률이 높아집니다. 잘못된 답변을 처벌하면 AI가 더욱 공격적인 답변을 제공하거나 기타 상황이 발생할 수 있습니다.

OpenAI는 아직 기술적인 세부 사항을 공개하지 않았지만, 레드우드에서 제공한 데이터에 따르면 6,000개의 오답을 처벌할 때마다 단위 시간당 오답 비율이 절반으로 감소합니다.

RLHF가 성공하는 것은 실제로 가능하지만 이 문제의 어려움을 결코 과소평가하지 마십시오.

AI가 RLHF를 우회할 수도 있습니다

RLHF의 설계에 따르면 사용자가 AI에게 질문을 한 후 AI의 답변이 마음에 들지 않으면 모델을 "처벌"하여 AI를 변경합니다. 어떤 방식으로든 사고 회로를 통해 자신이 원하는 답변에 더 가까운 답변을 만들 수 있습니다.

ChatGPT는 상대적으로 멍청하고 아직 RLHF를 제거하기 위한 전략을 세우지 못할 수도 있지만 더 똑똑한 AI가 처벌받기를 원하지 않으면 인간을 모방할 수 있습니다. 사람들은 나쁜 일을 하기 전에 경찰이 사라질 때까지 시간을 기다리며 기다립니다.

OpenAI가 설계한 RLHF는 이에 대한 준비가 전혀 되어 있지 않습니다. 이는 ChatGPT3와 같은 어리석은 작업에는 적합하지만 스스로 생각할 수 있는 AI에는 적합하지 않습니다.

최고의 AI 기업들은 여전히 ​​AI를 통제할 수 없습니다

OpenAI는 예전부터 제품 체험을 위해 줄을 서서 기다리는 등 주의를 기울이는 것으로 알려져 있었는데, 이번에 ChatGPT를 대중에게 직접 공개하는 목적 중 하나가 브레인스토밍일 수도 있습니다. 적대적인 샘플을 찾고 찾기 인터넷에서 ChatGPT 문제에 대해 성능이 좋지 않은 프롬프트에 대한 피드백이 이미 많이 있으며 그 중 일부는 수정되었습니다.

RLHF의 일부 샘플을 사용하면 봇이 유용하고 사실이며 무해한 콘텐츠를 말하는 경향이 높아지지만 이 전략은 ChatGPT, GPT-4 및 이전에 출시된 제품에만 적용될 수 있습니다.

무기를 장착한 드론에 RLHF를 적용하고, AI의 예상치 못한 행동을 피하기 위해 수많은 사례를 수집한다면, 한 번의 실패라도 재앙이 될 것입니다.

10년 전에는 모두가 “지금부터 AI 정렬 문제를 해결할 필요가 없습니다. 실제 인공 지능이 나타날 때까지 기다렸다가 기업이 수동 작업을 하게 하면 됩니다.”라고 생각했습니다. 진짜 인공지능이 다가오고 있지만 ChatGPT가 실패하기 전에는 모두가 돌이킬 동기가 없었습니다. 진짜 문제는 세계 최고의 인공지능 회사가 자신이 개발한 인공지능을 제어하는 ​​방법을 아직도 모른다는 것입니다.

모든 문제가 해결되기 전까지는 누구도 원하는 것을 얻을 수 없습니다.

참조:

https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the

위 내용은 ChatGPT에 너무 만족하지 마세요! 그 뒤에 있는 RLHF 메커니즘에도 세 가지 치명적인 결함이 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿