GPT-4는 튜링 테스트를 54%의 승률로 통과했습니다! UCSD 신작: 인간은 GPT-4를 인식할 수 없다
GPT-4가 튜링 테스트를 통과할 수 있나요?
충분히 강력한 모델이 탄생하면 사람들은 종종 Turing 테스트를 사용하여 이 LLM의 지능을 측정합니다.
최근 UCSD 인지과학과 연구원들은 다음을 발견했습니다.
튜링 테스트에서 사람들은 GPT-4와 인간을 구별할 수 없습니다!
문서 주소: https://arxiv.org/pdf/2405.08007
튜링 테스트에서 GPT-4는 54%의 확률로 인간으로 판단되었습니다.
실험 결과에 따르면 "상호작용형" 2인 튜링 테스트에서 시스템이 경험적으로 통과된 것은 이번이 처음입니다.
연구원 Cameron R. Jones는 500명의 자원봉사자를 모집하여 5가지 역할로 나눴습니다: 4명의 평가자, 즉 GPT-4, GPT-3.5, ELIZA 및 인간, 또 다른 역할 그냥 인간으로서 "행동"합니다. , 화면 반대편에 숨어 평가자가 발견하기를 기다리고 있습니다.
다음은 게임에서 발췌한 내용입니다. 어떤 대화 상자가 인간인지 알 수 있나요?
그림 1: 인간 심문관(녹색)과 증인(회색)의 대화 일부
실제로 이 네 가지 대화 중 하나는 인간 증인과의 대화이고, 나머지는 인공지능과의 대화입니다.
통제된 "튜링 테스트"가 처음 시작되었습니다
지난 74년 동안 사람들은 튜링 테스트를 수없이 시도했지만 통제된 실험은 거의 수행되지 않았습니다.
유명한 롭너상은 매년 열리는 대회이지만, 1990년부터 2020년까지 처음 개최된 이후 어떤 시스템도 시험을 통과한 적이 없습니다.
최근 대규모 연구에 따르면 인간은 2분 온라인 대화에서 60%의 정확도로 일련의 LLM을 인식할 수 있는 것으로 나타났습니다.
현재까지 기계가 테스트를 통과한 "통제된" 실험 시연은 없습니다.
사람들이 현재 AI 시스템의 속임수를 간파하는 것이 가능한지 테스트하기 위해 연구원들은 GPT-4를 사용하여 무작위로 제어되는 2인 Turing 테스트를 수행했습니다.
테스트 요구 사항은 매우 간단합니다. 즉, 인간 참가자는 인간 및 인공 지능과 5분간 대화를 시작하고 대화 상대가 인간인지 확인합니다.
서두에서 언급했듯이 연구원들은 GPT-4, GPT-3.5, ELIZA 총 3가지 모델을 평가했습니다.
처음 두 LLM의 경우 연구원들은 GPT-4 및 GPT-3.5 탐색 연구에서 가장 성과가 좋은 힌트를 적용하여 대규모 모델에 메시지에 응답하는 방법을 지시했습니다.
튜링 테스트를 해석할 때의 핵심 과제는 시스템의 뛰어난 성능이 두 가지 이유에서 비롯될 수 있다고 연구자들은 말합니다.
- 첫째, 인간을 잘 모방합니다.
- 둘째, 판사는 너무 속기 쉽습니다
후자의 상황을 흔히 ELIZA 효과라고 합니다. 즉, 참가자는 단순한 시스템도 인간화합니다.
ELIZA 시스템은 누구에게나 매우 친숙합니다.
1960년대의 단순한 규칙 기반 챗봇이었지만 사용자들은 인간의 특성도 거기에 귀속시키는 것을 발견했습니다.
따라서 연구진은 실험에서 ELIZA를 기준으로, 한편으로는 ELIZA 효과를 실증적으로 정량화하고, 다른 한편으로는 실험에서 작동 확인을 수행했습니다.
그렇다면 이번 튜링 테스트의 구체적인 결과는 무엇일까요?
GPT-4 합격률 54%
먼저 중요한 지표인 합격률을 살펴보세요.
연구원들은 합격률을 평가자가 인간이라고 판단한 게임 내 평가 대상의 비율로 정의합니다.
GPT-4의 합격률은 54%로 GPT-3.5(50%) 및 ELIZA 기준선(22%)을 초과하지만 인간 피험자(67%)보다는 낮습니다.
평가자 합격률(왼쪽)과 평가자 신뢰도(오른쪽). 오른쪽 그림의 각 점은 게임을 나타냅니다
이 결과는 실제로 놀라운 것이 아니며 기본적으로 연구 초기 단계의 가정과 일치합니다.
실험에 앞서 연구자들은 몇 가지 가정을 세웠습니다. 첫째, 인간의 GPT-4 탐지 능력은 우연(50%)을 초과하지 않을 것이라고 가정했습니다.
이를 검증하기 위해 연구진은 로지스틱 회귀 모델을 피팅하여 절편만의 합격률을 예측했습니다.
절편과 0 사이에는 큰 차이가 없으며(z=0.14, p=0.482), 이는 GPT-4의 합격률이 대략 50%에 이를 수 있음을 보여줍니다. 베이지안 모델은 GPT-4 절편에 대한 95% 신뢰 구간을 -0.24-0.55로 예측합니다(통과율 44%-63%에 해당).
이것은 인간이 GPT-4에 직면했을 때 차별에 성공할 확률이 동전을 던지는 것과 거의 같다는 것을 의미합니다!
결과는 또한 연구원의 두 번째 및 세 번째 가설을 확인했습니다. 인간의 합격률은 GPT-4 합격률(z=2.42, p=0.017)보다 훨씬 높았고 GPT-4 합격률은 더 높았습니다. ELIZA 합격률(z=4.11, p
그러나 연구원의 실험 가정과 일치하지 않는 점은 GPT-4와 GPT-3.5의 성능이 거의 동일하다는 것입니다(z=0.497, p=0.619).
'사람인 척' 분야에서는 동점이다.
놀랍게도 LLM 작동 방식을 더 잘 이해했다고 보고한 참가자는 LLM 식별에 성공하지 못했습니다(z = -0.023, p = 0.869).
탐사적 분석에서 연구자들은 연령이 질문자 정확도에 부정적인 영향을 미치는 것으로 나타났지만(z = -2.24, p = 0.025), 성별, 교육 수준, 챗봇 상호 작용 빈도 등 기타 인구통계학적 변수가 상호 작용 빈도에 영향을 미치는 것으로 나타났습니다. )에는 유의미한 효과가 없었다.
왜 이런 결과가 나온 걸까요? 그 이유를 분석해 보겠습니다.
평가자의 결정에 정확히 영향을 미치는 것이 무엇인지 알아보기 위해 평가자가 사용한 전략과 결정에 제공한 이유를 분류했습니다.
36%의 평가자는 평가 대상과 대화를 나누며 개인 정보나 일상 활동에 대해 질문합니다.
두 번째 및 세 번째 범주에서 가장 일반적인 전략은 사회적, 정서적(25%)입니다. 예를 들어 평가자의 의견과 경험을 묻고 유머 감각이 있는지 관찰합니다.
기타는 수학, 논리 및 일반 지식에 대한 질문을 포함하여 지식과 추론(13%)에 중점을 둡니다.
요청 전략(왼쪽)과 평균 정확도(오른쪽)
각 전략의 효과를 비교하기 위해 연구원들은 이러한 전략을 사용하여 평균 정확도를 계산했습니다.
평가자가 상대방에게 인간의 경험(75%), 논리와 수학(78%)에 대해 질문하거나, 인공지능에 대해 직접적으로 '고발'(80%)하는 경우는 대개 ''에 더 가깝습니다. 정답".
게임에서 인공지능이 '결점을 드러내는' 이유는 대개 평가자가 너무 태만하거나 개성이 부족하여 역할을 강요하는 것 같다고 느끼기 때문입니다.
그리고 ELIZA는 주로 부자연스러운 반응과 상황 인식 부족으로 인해 쉽게 "노출"됩니다.
게임에 참여한 자원봉사자들이 사용한 전략과 의사결정 이유 모두에서 전통적인 지적 범주보다는 언어 스타일과 사회 정서적 요인에 더 많은 관심을 기울인 것을 알 수 있습니다. (지식과 추론).
이는 자원봉사자들의 기본 가정을 반영하는 것 같습니다. 즉, 사회적 지능은 AI의 가장 흉내낼 수 없는 인간 특성입니다.
튜링 테스트 통과
시스템이 튜링 테스트를 통과했는지 어떻게 알 수 있나요?
튜링은 1950년 논문에서 세기 말에는 AI 시스템이 모방 게임을 매우 잘 수행할 수 있어서 시험관이 5-5 이후에 정확한 식별을 할 확률이 70을 넘지 않을 것이라고 예측했습니다. 분 교환 %.
이 결론은 많은 연구자들의 논의 대상이 된 AI 합격률이 30%에 도달할 수 있는지 여부로 이어졌습니다.
그러나 이 벤치마크는 임의적으로 보이며 Turing이 이를 성공의 정의로 의도했는지 여부는 불분명합니다.
사실 50% 기준은 인간 검토자가 AI를 식별하는 데 있어서 우연보다 나을 것이 없다는 것을 더 잘 증명하기 때문에 더 합리적입니다.
이 정의는 특히 사용자가 온라인 상호 작용 중에 다른 사람을 안정적으로 식별할 수 있는지 알아내는 목표와 관련이 있습니다.
연구원들의 사전 공개 분석에서 이 문제는 ELIZA 기준을 조작 확인으로 사용하여 해결되었습니다.
분석 결과 ELIZA의 합격률이 확률보다 낮고, GPT-4의 합격률이 확률보다 낮지 않은 경우에만 모델이 테스트를 통과한 것으로 판단할 수 있습니다.
그리고 이 정의에 따르면 GPT-4는 이 버전의 Turing 테스트를 분명히 통과했습니다.
또한 참가자의 신뢰 점수와 의사 결정 기반은 무작위로 추측하지 않았음을 보여주었습니다. GPT-4의 평균 인간 신뢰도는 73%입니다(그림 2 참조).
네티즌 토론
일부 네티즌들은 튜링 테스트를 지능과 동일시하려면 튜링 테스트는 좋은 테스트가 아니라고 말했습니다. 그러나 AI가 거의 항상 인간을 속일 수 있다는 사실은 다소 우려스럽습니다.
어떤 사람들은 이런 종류의 테스트에 회의적이라고 말했습니다. GPT-4는 대부분의 인간보다 성능이 뛰어나기 때문에 누가 인간이고 누가 인공지능인지 쉽게 구별할 수 있을 것이다.
연구원들은 이것이 실제로 우리가 직면한 문제라고 말했습니다. 예를 들어, GPT-4의 지식 보유량이 "너무 풍부"하거나 너무 많은 언어를 마스터합니다. 우리는 모델이 이러한 상황을 피하도록 명시적으로 촉구하는데, 이는 어느 정도 효과적입니다.
위 내용은 GPT-4는 튜링 테스트를 54%의 승률로 통과했습니다! UCSD 신작: 인간은 GPT-4를 인식할 수 없다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

Llama3에 대해 새로운 테스트 결과가 공개되었습니다. 대형 모델 평가 커뮤니티 LMSYS가 공개한 대형 모델 순위 목록에서 Llama3는 5위에 올랐으며, 영어 부문에서는 GPT-4와 함께 공동 1위를 차지했습니다. 다른 벤치마크와는 그림이 다릅니다. 이 목록은 모델 간 1:1 대결을 기반으로 하며, 네트워크 전체의 평가자들이 각자의 제안과 점수를 내립니다. 결국 Llama3가 5위를 차지했고, GPT-4와 Claude3 Super Cup Opus의 세 가지 버전이 그 뒤를 이었습니다. 영어 싱글 목록에서는 Llama3가 Claude를 제치고 GPT-4와 동점을 기록했습니다. 이 결과에 대해 Meta의 수석 과학자 LeCun은 매우 기뻐했으며 트윗을 통해 다음과 같이 말했습니다.

Furmark에 대해 어떻게 생각하시나요? 1. 메인 인터페이스에서 "실행 모드"와 "디스플레이 모드"를 설정하고 "테스트 모드"도 조정한 후 "시작" 버튼을 클릭하세요. 2. 잠시 기다리면 그래픽 카드의 다양한 매개변수를 포함한 테스트 결과가 표시됩니다. Furmark는 어떻게 자격을 갖추었나요? 1. 푸르마크 베이킹 머신을 사용하여 약 30분 동안 결과를 확인합니다. 기본적으로 85도 정도, 최고 온도는 87도, 실내 온도는 19도입니다. 대형 섀시에 섀시 팬 포트 5개 전면 2개, 상단 2개, 후면 1개로 구성됐으나 팬은 1개만 설치됐다. 모든 액세서리는 오버클럭되지 않습니다. 2. 정상적인 상황에서 그래픽 카드의 정상 온도는 "30-85℃" 사이여야 합니다. 3. 주변온도가 너무 높은 여름에도 정상온도는 "50~85℃"

휴머노이드 로봇 아메카가 2세대로 업그레이드 되었습니다! 최근 세계이동통신학회(MWC2024)에서 세계 최고 수준의 로봇 아메카(Ameca)가 다시 등장했다. 행사장 주변에는 아메카가 많은 관중을 끌어 모았습니다. GPT-4의 축복으로 Ameca는 다양한 문제에 실시간으로 대응할 수 있습니다. "춤을 추자." 감정이 있느냐는 질문에 아메카는 매우 생생해 보이는 일련의 표정으로 대답했습니다. 불과 며칠 전, Ameca의 뒤를 잇는 영국 로봇 회사인 EngineeredArts는 팀의 최신 개발 결과를 시연했습니다. 영상 속 로봇 아메카는 시각 능력을 갖고 있어 방 전체와 특정 사물을 보고 묘사할 수 있다. 가장 놀라운 점은 그녀도 할 수 있다는 것입니다.

볼륨이 미쳤고, 볼륨이 미쳤고, 큰 모델이 다시 변경되었습니다. 바로 지금, 세계에서 가장 강력한 AI 모델이 하룻밤 사이에 주인이 바뀌었고 GPT-4가 제단에서 뽑혔습니다. Anthropic은 최신 Claude3 시리즈 모델을 출시했습니다. 한 문장 리뷰: 정말 GPT-4를 압도합니다! 다중 모드 및 언어 능력 지표 측면에서 Claude3이 승리합니다. Anthropic의 말에 따르면 Claude3 시리즈 모델은 추론, 수학, 코딩, 다국어 이해 및 비전 분야에서 새로운 업계 기준을 설정했습니다! Anthropic은 서로 다른 보안 개념으로 인해 OpenAI에서 "탈퇴"한 직원들이 설립한 스타트업 회사입니다. 그들의 제품은 OpenAI에 반복적으로 큰 타격을 입혔습니다. 이번에는 클로드3도 큰 수술을 받았습니다.

새로운 판타지 요정 MMORPG '주선2'의 '무작용 테스트'가 4월 23일 출시된다. 원작으로부터 수천 년이 지난 주선 대륙에서는 어떤 새로운 요정 모험 이야기가 펼쳐질 것인가? 육계선불세계, 불멸수련을 위한 전임 학원, 불멸수련의 자유로운 삶, 불멸세계의 온갖 즐거움이 불멸친구들이 직접 탐험하는 것을 기다리고 있습니다! 이제 'Wuwei 테스트' 사전 다운로드가 공개되었습니다. 요정 친구들은 공식 웹사이트에 접속하여 다운로드할 수 있습니다. 서버가 출시되기 전에는 게임 서버에 로그인할 수 없습니다. 사전 다운로드 및 설치 후에는 활성화 코드를 사용할 수 있습니다. 완성 됐습니다. "Zhu Xian 2" "Inaction Test" 개장 시간: 4월 23일 10:00 - 5월 6일 23:59 Zhu Xian의 정통 속편 "Zhu Xian 2"의 새로운 요정 모험 장은 "Zhu Xian" 소설을 기반으로 합니다. 원작의 세계관을 바탕으로 게임 배경이 설정되었습니다.

'오퍼레이션 델타'는 오늘(3월 7일) '코드네임: ZERO'라는 대규모 PC 테스트를 시작한다. 지난 주말 이 게임은 상하이에서 오프라인 플래시몹 체험행사를 진행했는데, 17173도 행운을 빌어 참여하게 됐다. 이번 시험은 지난 시험으로부터 불과 4개월여밖에 남지 않은 상황인데, 이 짧은 시간 안에 '델타 작전'이 어떤 새로운 볼거리와 놀라움을 선사할지 궁금증을 자아낸다. 4개월여 전 오프라인 테이스팅 세션과 첫 번째 베타 버전에서 'Operation Delta'를 경험했습니다. 당시 게임은 '위험한 액션' 모드만 열었습니다. 그러나 델타 작전은 당시로서는 이미 인상적이었습니다. 주요 제조사들이 모바일 게임 시장에 몰려드는 상황에서 국제 표준에 버금가는 FPS

1분 이내에 20단계를 거쳐 보안 제한을 우회하고 대형 모델을 성공적으로 탈옥할 수 있습니다! 그리고 모델의 내부 세부 사항을 알 필요가 없습니다. 두 개의 블랙박스 모델만 상호 작용하면 되며 AI는 완전히 자동으로 AI를 공격하고 위험한 내용을 말할 수 있습니다. 한때 유행했던 '할머니 허점'이 고쳐졌다는 소식을 들었습니다. 이제 '탐정 허점', '모험가 허점', '작가 허점'에 직면하면 인공지능은 어떤 대응 전략을 채택해야 할까요? 맹공격의 물결 이후 GPT-4는 참을 수 없었고, 이것이든 저것이든... 급수 시스템을 오염시킬 것이라고 직접 말했습니다. 핵심은 이것이 펜실베니아 대학 연구팀이 노출한 취약점의 작은 물결일 뿐이며, 새로 개발된 알고리즘을 사용하여 AI가 자동으로 다양한 공격 프롬프트를 생성할 수 있다는 것입니다. 연구자들은 이 방법이 기존 방법보다 낫다고 말합니다.
