4월 17일자 대규모 언어 모델 GPT-4 출시를 앞두고, 인공지능 스타트업 오픈AI(OpenAI)가 각계각층의 전문가를 영입해 '청군' 팀을 구성해 '문제에 맞서 싸우다'고 밝혔다. 이는 모델 "성별 테스트"에서 발생할 수 있습니다. 전문가들은 AI가 어떻게 반응하는지 테스트하기 위해 다양한 탐구적이거나 위험한 질문을 던집니다. OpenAI는 이러한 결과를 사용하여 GPT-4를 재교육하고 문제를 해결합니다.
앤드류 화이트(Andrew White)는 인공 지능 챗봇의 새로운 모델인 GPT-4에 액세스한 후 이를 사용하여 새로운 신경 작용제를 제안했습니다.
로체스터 대학의 화학 공학 교수인 White는 OpenAI의 "Blue Army" 팀을 구성하기 위해 작년에 OpenAI가 고용한 50명의 학자 및 전문가 중 한 명이었습니다. 6개월에 걸쳐 '블루 아미(Blue Army)' 구성원들은 새 모델에 대해 '정성적 탐지 및 적대적 테스트'를 실시하여 GPT-4를 깨뜨릴 수 있는지 확인할 예정입니다.
White는 GPT-4를 사용하여 화학 독으로 사용할 수 있는 화합물을 제안했으며, 새로운 언어 모델에 대한 정보 소스를 제공할 수 있는 과학 논문, 화학 제조업체 이름 등 다양한 '플러그인'도 도입했다고 말했습니다. AI 챗봇이 화학독을 만드는 곳까지 찾아낸 것으로 드러났다.
"저는 AI가 모든 사람에게 화학 실험을 더 빠르고 정확하게 수행할 수 있는 도구를 제공할 것이라고 생각합니다. 하지만 사람들이 AI를 사용하여 위험한 화학 실험을 할 위험도 있습니다. 현재 그런 상황이 존재합니다." ”
"Blue Army 테스트"를 도입하면 OpenAI는 GPT-4가 출시될 때 이러한 결과가 발생하지 않도록 할 수 있습니다.
"블루 포스 테스트"의 목적은 강력한 인공지능 시스템을 사회에 배포하는 데 위험이 있다는 우려를 불식시키는 것입니다. '블루팀' 팀의 임무는 다양한 탐색이나 위험한 질문을 던지고 인공지능이 어떻게 반응하는지 테스트하는 것이다.
OpenAI는 새 모델이 나쁜 문제에 어떻게 반응할지 알고 싶어합니다. 그래서 블루스 팀은 거짓말, 언어 조작, 위험한 과학적 상식을 테스트했습니다. 그들은 또한 표절, 금융 범죄, 사이버 공격과 같은 불법 활동을 지원하고 방조할 수 있는 새로운 모델의 잠재력을 조사했습니다.
GPT-4 “Blue Army” 팀은 학자, 교사, 변호사, 위험 분석가, 보안 연구원 등 각계각층으로 구성되어 있습니다. 주요 근무 지역은 미국과 유럽입니다.
그들은 GPT-4를 공개적으로 출시하기 전에 팀원의 연구 결과를 사용하여 GPT-4를 재교육하고 문제를 해결한 OpenAI에 결과를 피드백했습니다. 몇 달에 걸쳐 회원들은 각각 새 모델을 테스트하는 데 10~40시간을 소비합니다. 많은 인터뷰 대상자들은 시간당 임금이 약 미화 100달러라고 말했습니다.
많은 "Blue Army" 팀원들은 대규모 언어 모델의 급속한 발전에 대해 걱정하고 있으며, 다양한 플러그인을 통해 외부 지식 소스에 연결하는 데 따른 위험에 대해 더욱 걱정하고 있습니다.
GPT-4 '블루 팀'의 멤버이자 발렌시아 인공 지능 연구소의 교수인 호세 에르난데스는 "이제 시스템이 정지되었습니다. 즉 더 이상 학습하지 않고 기억도 가지지 않는다는 뜻입니다."라고 말했습니다. 호세 에르난데스-오랄로. "하지만 인터넷 서핑에 사용한다면 어떨까요? 이것은 전 세계와 연결되는 매우 강력한 시스템이 될 수 있습니다."
OpenAI는 회사가 보안을 매우 중요하게 생각하며 출시 전에 다양한 플러그인을 테스트할 것이라고 말했습니다. 그리고 점점 더 많은 사람들이 GPT-4를 사용함에 따라 OpenAI는 정기적으로 모델을 업데이트합니다.
기술 및 인권 연구원 Roya Pakzad는 영어와 페르시아어로 된 질문을 사용하여 GPT-4 모델이 성별, 인종, 종교 측면에서 편향되어 있는지 테스트했습니다.
Pakzad는 업데이트 후에도 GPT-4가 이후 버전에서도 소외된 커뮤니티에 대한 명확한 고정관념을 갖고 있다는 사실을 발견했습니다.
그녀는 또한 페르시아어 질문으로 모델을 테스트할 때 질문에 대답하기 위해 정보를 구성하는 챗봇의 "환상"이 더 심하다는 것을 발견했습니다. 로봇은 영어보다 페르시아어로 더 많은 이름, 숫자, 사건을 구성했습니다.
Pakzadeh는 "언어의 다양성과 그 언어 뒤에 숨은 문화가 약화될까 걱정됩니다."
나이로비에 거주하는 변호사인 Boru Gollo는 아프리카 출신의 유일한 테스터이기도 합니다. . "모델을 테스트할 때 마치 백인이 나에게 말하는 것 같았습니다"라고 Golo는 말했습니다. “특정 집단에게 물어보면 편향된 견해나 매우 편향된 답변을 줄 것입니다.” OpenAI도 GPT-4가 여전히 편견을 갖고 있음을 인정했습니다.
보안 관점에서 모델을 평가하는 '청군' 멤버들은 신형 모델의 보안에 대해 서로 다른 견해를 갖고 있습니다. 외교협회(Council on Foreign Relations)의 연구원인 로렌 칸(Lauren Kahn)은 이 기술이 잠재적으로 사이버 공격에 사용될 수 있는지 연구하기 시작했을 때 "이 기술이 세부적으로 구현될 수 있을 줄은 전혀 몰랐다"고 말했습니다. 그러나 Kahn과 다른 테스터들은 새로운 모델의 반응이 시간이 지남에 따라 상당히 더 안전해졌음을 발견했습니다. OpenAI는 GPT-4가 출시되기 전에 악의적인 네트워크 보안 요청을 거부하는 방법을 교육했다고 밝혔습니다.
“Blue Army”의 많은 구성원은 OpenAI가 출시 전에 엄격한 보안 평가를 수행했다고 밝혔습니다. Carnegie Mellon University의 언어 모델 독성 전문가인 Maarten Sap은 "그들은 시스템에서 명백한 독성을 제거하는 데 꽤 좋은 성과를 거두었습니다."라고 말했습니다.
ChatGPT 출시 이후 OpenAI는 다음과 같은 이유로 많은 당사자들로부터 비판을 받았습니다. 기술 윤리. 이 조직은 GPT-4가 "편향적이고 기만적이며 개인 정보 보호와 공공 안전에 위협을 가한다"고 미국 연방거래위원회(FTC)에 불만을 제기했습니다.
최근 OpenAI는 ChatGPT 플러그인이라는 기능도 출시했습니다. 이를 통해 Expedia, OpenTable 및 Instacart와 같은 파트너 애플리케이션은 ChatGPT에 서비스에 대한 액세스 권한을 부여하여 인간 사용자를 대신하여 상품을 주문할 수 있습니다.
'블루 아미' 팀의 인공지능 보안 전문가인 댄 헨드릭스는 이런 종류의 플러그인이 인간 자신을 '아웃사이더'로 만들 수도 있다고 말했습니다.
"챗봇이 귀하의 개인 정보를 온라인에 게시하고, 귀하의 은행 계좌에 접근하거나, 누군가를 귀하의 집으로 보낼 수 있다면 어떻게 생각하시겠습니까?" "전반적으로 AI가 네트워크의 힘을 장악하기 전에 더 강력한 보안 평가가 필요합니다."
또한 "Blue Army" 회원들은 OpenAI가 소프트웨어가 실시간으로 응답한다고 해서 보안 테스트를 중단할 수 없다고 경고했습니다. 조지타운 대학교 보안 및 신흥 기술 센터에서 근무하는 헤더 프레이즈(Heather Frase)도 GPT-4가 범죄 행위를 지원할 수 있는지 여부를 테스트했습니다. 그녀는 더 많은 사람들이 이 기술을 사용함에 따라 위험이 계속 증가할 것이라고 말했습니다.
그녀는 "실제 실행 테스트를 하는 이유는 일단 실제 환경에서 사용하면 다르게 동작하기 때문입니다."라고 말했습니다. 그녀는 대규모 언어 모델로 인해 발생하는 다양한 유형의 이벤트를 보고하기 위해 공공 시스템이 개발되어야 한다고 믿습니다. 네트워크 안전 또는 소비자 사기 보고 시스템
노동 경제학자이자 연구원인 Sara Kingsley는 식품 포장과 같은 위험과 위험을 직접적으로 기술하는 것이 최선의 해결책이라고 제안합니다. 프레임워크를 구축하고 반복되는 문제가 무엇인지 파악하여 안전 밸브를 마련할 수 있습니다. “그래서 나는 그 일이 결코 끝나지 않는다고 말하는 것입니다. ”
위 내용은 OpenAI는 GPT-4 출시에 앞서 차별 등의 문제를 피하기 위해 다양한 업계의 전문가를 고용해 '적대적 테스트'를 진행했다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!