목차
문제 1: 훈련 데이터 오염
AI 모델이 직업에 미치는 영향을 평가하는 더 좋은 방법이 있습니다
결론
기술 주변기기 일체 포함 GPT-4는 전혀 프로그래밍할 수 없나요? 누군가 보여줬어

GPT-4는 전혀 프로그래밍할 수 없나요? 누군가 보여줬어

Apr 07, 2023 pm 02:42 PM
프로그램 제작자 ai

OpenAI가 GPT-4를 출시한 이후 '인간 노동을 대체하는 AI'에 대한 논의가 점점 더 치열해지고 있습니다. 이 모델의 강력한 기능과 잠재적인 사회적 영향은 많은 사람들의 우려를 불러일으켰습니다. Musk, Bengio 및 기타 사람들은 모든 AI 기관에 최소 6개월 동안 AI 모델 교육을 중단할 것을 요청하는 공개 서한을 작성하기도 했습니다. .

하지만 한편으로는 GPT-4의 성능에 대한 의구심도 속속 높아지고 있습니다. 며칠 전 Turing Award 수상자 Yann LeCun은 토론에서 GPT 계열이 채택한 자동 회귀 경로에 자연스러운 결함이 있으며 계속해서 앞으로 나아갈 미래가 없다는 점을 직접 지적했습니다.

동시에 일부 연구원과 실무자들은 GPT-4가 OpenAI가 보여준 것만큼 강력하지 않을 수 있다고 말했습니다. 특히 프로그래밍에서는 GPT-4가 OpenAI가 모델을 테스트하는 데 사용하는 이전 질문만 기억할 수도 있습니다. 프로그래밍 능력 질문은 다음과 같습니다. 이는 훈련 세트에 이미 존재하며 이는 기계 학습의 기본 규칙을 위반합니다. 또한, 각종 시험에서 GPT-4 순위를 보고 AI가 일부 직업을 대체할 것이라고 판단하는 것은 엄밀하지 않다는 지적도 있다.

최근 블로그에서는 위의 아이디어를 자세히 설명했습니다.

문제 1: 훈련 데이터 오염

GPT-4의 프로그래밍 능력을 벤치마킹하기 위해 OpenAI는 프로그래밍 대회 웹사이트 Codeforces의 질문을 사용하여 이를 평가했습니다. 놀랍게도 GPT-4는 2021년 이전 문제를 10/10, 최근 쉬운 수업 문제를 0/10 해결했습니다. 아시다시피 GPT-4의 학습 데이터 마감일은 2021년 9월입니다. 이는 모델이 훈련 세트의 솔루션을 기억할 수 있거나 적어도 부분적으로 기억할 수 있다는 강력한 표시입니다. 이는 기억하지 못하는 부분을 채우기에 충분합니다.

GPT-4는 전혀 프로그래밍할 수 없나요? 누군가 보여줬어

출처: https://twitter.com/cHHillee/status/1635790330854526981

이 가설을 더욱 입증하기 위해 블로거 Arvind Narayanan과 Sayash Kapoor는 2021년 서로 다른 시기에 Codeforces 문제에 대한 GPT-4를 분석했습니다. 테스트한 결과 다음과 같은 사실이 발견되었습니다. 9월 5일 이전에는 간단한 범주의 문제를 해결할 수 있지만 9월 12일 이후에는 문제를 해결할 수 없습니다.

저자들은 실제로 GPT-4가 훈련 세트의 질문을 기억했다는 것을 명확하게 보여줄 수 있다고 말합니다. Codeforces 질문의 제목이 프롬프트에 추가되면 GPT-4의 답변에는 다음 링크가 포함됩니다. 문제가 발생한 링크와 정확히 일치합니다(라운드 번호는 거의 정확합니다. 일회성입니다). 당시 GPT-4는 인터넷에 연결되어 있지 않았기 때문에 메모리가 유일한 설명이라는 점에 유의하세요.

GPT-4는 전혀 프로그래밍할 수 없나요? 누군가 보여줬어

GPT-4는 교육 마감일 전에 Codeforces 질문을 기억합니다.

OpenAI가 최신 문제를 사용하기 때문에 논문의 Codeforces 결과는 이에 영향을 받지 않습니다(물론 GPT-4의 성능은 좋지 않습니다). 프로그래밍 이외의 벤치마크의 경우 작성자는 문제를 기간별로 구분하는 명확한 방법을 알지 못하므로 OpenAI가 오염을 피할 가능성이 없다고 생각합니다. 그러나 마찬가지로 그들은 다른 날에 성능이 어떻게 변했는지 테스트하기 위한 실험을 수행할 수 없었습니다.

그러나 그들은 여전히 ​​숨길 수 없는 징후를 찾을 수 있습니다. 기억의 또 다른 징후: GPT는 질문의 표현에 매우 민감합니다. Melanie Mitchell은 MBA 시험 문제의 예를 제시했습니다. 그녀는 이 예의 일부 세부 사항을 변경했습니다. 이 변경 사항은 누구도 속일 수 없었지만 ChatGPT(GPT-3.5 실행)는 성공적으로 속였습니다. 이 라인에 따른 보다 자세한 실험은 가치가 있을 것입니다.

OpenAI의 투명성 부족으로 인해 저자는 오염 질문에 확실하게 답할 수 없습니다. 그러나 확실한 것은 오염 감지에 대한 OpenAI의 접근 방식이 피상적이고 엉성하다는 것입니다.

부분 문자열 일치를 사용하여 평가 데이터 세트와 사전 훈련 데이터 간의 교차 오염을 측정합니다. 평가 및 학습 데이터 모두 공백과 기호를 모두 제거하고 문자(숫자 포함)만 남겨 처리됩니다. 각 평가 인스턴스에 대해 50자 하위 문자열 3개를 무작위로 선택합니다(50자 미만인 경우 전체 인스턴스가 사용됩니다). 세 개의 샘플링된 평가 하위 문자열 중 하나라도 처리된 훈련 예시의 하위 문자열인 경우 일치가 식별됩니다. 그러면 오염된 예제 목록이 생성됩니다. 오염되지 않은 점수를 얻기 위해 이를 폐기하고 다시 실행합니다.

이것은 취약한 접근 방식입니다. 훈련 세트에 테스트 문제가 나타나지만 이름과 번호가 변경되면 감지되지 않습니다. 매립 거리와 같이 덜 부서지기 쉬운 방법을 쉽게 사용할 수 있습니다.

OpenAI가 거리 기반 방법을 사용한다면 얼마나 유사하면 너무 유사합니까? 이 질문에는 객관적인 답변이 없습니다. 따라서 객관식 표준화 시험 성적처럼 겉으로는 단순해 보이는 것에도 주관적인 결정이 내포되어 있습니다.

그러나 OpenAI가 이러한 시험을 통해 무엇을 측정하려고 하는지 물어보면 명확하게 알 수 있습니다. 언어 모델이 실제 작업에서 어떻게 수행될지 예측하는 것이 목표라면 문제가 있습니다. 어떤 의미에서 두 개의 변호사 시험 또는 건강 검진 문제는 제한된 공간에서 그려지기 때문에 실제 전문가가 직면하는 두 가지 유사한 작업보다 더 유사합니다. 따라서 훈련 코퍼스에 시험 문제를 포함하면 실제 세계에서 모델의 유용성에 대한 추정치가 부풀려질 위험이 있습니다.

실제 유용성의 관점에서 이 질문을 설명하면 또 다른 더 깊은 문제(질문 2)가 강조됩니다.

질문 2: 전문 시험은 인간과 로봇의 능력을 비교하는 효과적인 방법이 아닙니다.

기억은 스펙트럼입니다. 언어 모델이 훈련 세트에서 정확한 질문을 보지 못하더라도 훈련 코퍼스의 크기 때문에 필연적으로 매우 가까운 예를 보게 됩니다. 이는 보다 피상적인 수준의 추론으로 탈출할 수 있음을 의미합니다. 따라서 벤치마크 결과는 언어 모델이 인간 응시자에게 요구되는 심층적 추론 기술을 습득한 후 이러한 기술을 실제 세계에 적용한다는 증거를 제공하지 않습니다.

일부 실제 작업에서는 얕은 추론만으로도 충분할 수 있지만 항상 그런 것은 아닙니다. 세상은 끊임없이 변화하고 있기 때문에 로봇에게 새로운 기술이나 새로운 사법 결정의 법적 영향을 분석하도록 요청하면 얻을 수 있는 것이 거의 없습니다. 요약하자면, Emily Bender가 지적했듯이 인간을 위해 설계된 테스트는 로봇에 적용할 때 구성 타당성이 부족합니다.

GPT-4는 전혀 프로그래밍할 수 없나요? 누군가 보여줬어

그 외에도 전문 시험, 특히 변호사 시험은 주제 지식을 지나치게 강조하고 표준화된 컴퓨터 기반 관리에서 측정하기 어려운 실제 기술을 과소평가합니다. 즉, 이러한 시험은 잘못된 것을 강조할 뿐만 아니라 언어 모델이 잘하는 것을 지나치게 강조합니다.

AI 분야에서는 다양한 모델을 비교하기 위해 벤치마크가 과도하게 사용됩니다. 이러한 벤치마크는 다차원 평가를 단일 숫자로 압축한다는 비판을 받아왔습니다. 인간과 로봇을 비교하는 데 사용하면 결과는 잘못된 정보입니다. 불행하게도 OpenAI는 GPT-4 평가에서 이러한 유형의 테스트를 많이 사용하기로 결정했으며 오염 문제를 해결하기 위한 적절한 시도를 하지 않았습니다.

AI 모델이 직업에 미치는 영향을 평가하는 더 좋은 방법이 있습니다

사람들은 업무 중에 인터넷에 접속할 수 있지만 표준화된 테스트 중에는 인터넷에 접속할 수 없습니다. 따라서 언어 모델이 인터넷에 접근할 수 있는 전문가만큼 수행할 수 있다면 이는 실제 수행에 대한 더 나은 테스트가 될 것입니다.

하지만 이것은 여전히 ​​잘못된 질문입니다. 독립형 벤치마크를 사용하는 대신 언어 모델이 전문가가 수행해야 하는 모든 실제 작업을 얼마나 잘 수행할 수 있는지 측정해야 할 수도 있습니다. 예를 들어, 학계에서는 우리가 익숙하지 않은 분야의 논문을 자주 접하는데, 이는 전문적인 용어로 가득 차 있으며, ChatGPT가 그러한 논문을 보다 이해하기 쉽게 정확하게 요약할 수 있다면 유용할 것입니다. 일부는 동료 검토를 위해 이러한 도구를 테스트하기도 했습니다. 그러나 이 시나리오에서도 테스트에 사용된 질문이 훈련 세트에 포함되지 않았는지 확인하기가 어렵습니다.

ChatGPT가 전문가를 대체할 수 있다는 생각은 아직 무리입니다. 1950년 인구조사에서는 자동화로 인해 270개의 일자리 중 단 1개의 일자리, 즉 엘리베이터 운전사가 제거되었습니다. 지금 우리가 평가해야 할 것은 AI 도구를 사용하여 업무 수행을 돕는 전문가입니다. 두 가지 초기 연구가 유망합니다. 하나는 GitHub의 프로그래밍 부조종사에 관한 것이고 다른 하나는 ChatGPT의 글쓰기 지원에 관한 것입니다.

이 단계에서는 도구가 너무 새롭기 때문에 올바른 정량적 질문이 무엇인지조차 모르기 때문에 정량적 연구보다 질적 연구가 더 필요합니다. 예를 들어 Microsoft의 Scott Guthrie는 GitHub Copilot 사용자가 검사한 코드의 40%가 AI로 생성되었으며 수정되지 않은 놀라운 수치를 보고합니다. 그러나 모든 프로그래머는 코드의 상당 부분이 특히 엔터프라이즈 애플리케이션에서 자주 복사하여 붙여넣을 수 있는 템플릿과 기타 일상적인 논리로 구성되어 있다고 말할 것입니다. 이것이 Copilot이 자동화한 것이라면 생산성 향상은 미미할 것입니다.

분명히 말씀드리자면 Copilot이 쓸모없다고 말하는 것이 아니라, 전문가가 AI를 사용하는 방식에 대한 질적인 이해가 없으면 기존 지표가 의미가 없다는 것입니다. 게다가 AI 지원 코딩의 주요 이점은 생산성 향상이 아닐 수도 있습니다.

결론

아래 이미지는 기사를 요약하고 OpenAI 보고서 종류의 측정 지표에서 벗어나려는 이유와 방법을 설명합니다.

GPT-4는 전혀 프로그래밍할 수 없나요? 누군가 보여줬어

GPT-4는 정말 흥미롭습니다. 자동화를 통해 간단하고 위험이 적지만 힘든 작업을 수행하는 등 다양한 방법으로 전문가의 고충을 해결할 수 있습니다. 지금은 이러한 이점을 실현하고 언어 모델의 많은 위험을 완화하는 데 집중하는 것이 더 나을 것입니다.

위 내용은 GPT-4는 전혀 프로그래밍할 수 없나요? 누군가 보여줬어의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. 크로스 플레이가 있습니까?
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Centos Shutdown 명령 줄 Centos Shutdown 명령 줄 Apr 14, 2025 pm 09:12 PM

CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

Centos HDFS 구성을 확인하는 방법 Centos HDFS 구성을 확인하는 방법 Apr 14, 2025 pm 07:21 PM

CentOS 시스템에서 HDFS 구성 확인에 대한 완전한 안내서이 기사에서는 CentOS 시스템에서 HDF의 구성 및 실행 상태를 효과적으로 확인하는 방법을 안내합니다. 다음 단계는 HDF의 설정 및 작동을 완전히 이해하는 데 도움이됩니다. Hadoop 환경 변수 확인 : 먼저 Hadoop 환경 변수가 올바르게 설정되어 있는지 확인하십시오. 터미널에서 다음 명령을 실행하여 Hadoop이 올바르게 설치되고 구성되었는지 확인하십시오. Hadoopversion Check HDFS 구성 파일 : HDFS의 Core 구성 파일은/etc/hadoop/conf/directory에 있으며 Core-Site.xml 및 HDFS-Site.xml이 중요합니다. 사용

Centos에서 Gitlab의 백업 방법은 무엇입니까? Centos에서 Gitlab의 백업 방법은 무엇입니까? Apr 14, 2025 pm 05:33 PM

CentOS 시스템 하에서 Gitlab의 백업 및 복구 정책 데이터 보안 및 복구 가능성을 보장하기 위해 CentOS의 Gitlab은 다양한 백업 방법을 제공합니다. 이 기사는 완전한 GITLAB 백업 및 복구 전략을 설정하는 데 도움이되는 몇 가지 일반적인 백업 방법, 구성 매개 변수 및 복구 프로세스를 자세히 소개합니다. 1. 수동 백업 gitlab-rakegitlab : 백업 : 명령을 작성하여 수동 백업을 실행하십시오. 이 명령은 gitlab 저장소, 데이터베이스, 사용자, 사용자 그룹, 키 및 권한과 같은 주요 정보를 백업합니다. 기본 백업 파일은/var/opt/gitlab/backups 디렉토리에 저장됩니다. /etc /gitlab을 수정할 수 있습니다

Centos에서 Pytorch에 대한 GPU 지원은 어떻습니까? Centos에서 Pytorch에 대한 GPU 지원은 어떻습니까? Apr 14, 2025 pm 06:48 PM

CentOS 시스템에서 Pytorch GPU 가속도를 활성화하려면 Cuda, Cudnn 및 GPU 버전의 Pytorch를 설치해야합니다. 다음 단계는 프로세스를 안내합니다. CUDA 및 CUDNN 설치 CUDA 버전 호환성 결정 : NVIDIA-SMI 명령을 사용하여 NVIDIA 그래픽 카드에서 지원하는 CUDA 버전을보십시오. 예를 들어, MX450 그래픽 카드는 CUDA11.1 이상을 지원할 수 있습니다. Cudatoolkit 다운로드 및 설치 : NVIDIACUDATOOLKIT의 공식 웹 사이트를 방문하여 그래픽 카드에서 지원하는 가장 높은 CUDA 버전에 따라 해당 버전을 다운로드하여 설치하십시오. CUDNN 라이브러리 설치 :

Docker 원리에 대한 자세한 설명 Docker 원리에 대한 자세한 설명 Apr 14, 2025 pm 11:57 PM

Docker는 Linux 커널 기능을 사용하여 효율적이고 고립 된 응용 프로그램 실행 환경을 제공합니다. 작동 원리는 다음과 같습니다. 1. 거울은 읽기 전용 템플릿으로 사용되며, 여기에는 응용 프로그램을 실행하는 데 필요한 모든 것을 포함합니다. 2. Union 파일 시스템 (Unionfs)은 여러 파일 시스템을 스택하고 차이점 만 저장하고 공간을 절약하고 속도를 높입니다. 3. 데몬은 거울과 컨테이너를 관리하고 클라이언트는 상호 작용을 위해 사용합니다. 4. 네임 스페이스 및 CGroup은 컨테이너 격리 및 자원 제한을 구현합니다. 5. 다중 네트워크 모드는 컨테이너 상호 연결을 지원합니다. 이러한 핵심 개념을 이해 함으로써만 Docker를 더 잘 활용할 수 있습니다.

Centos 설치 MySQL Centos 설치 MySQL Apr 14, 2025 pm 08:09 PM

Centos에 MySQL을 설치하려면 다음 단계가 필요합니다. 적절한 MySQL Yum 소스 추가. mysql 서버를 설치하려면 yum install mysql-server 명령을 실행하십시오. mysql_secure_installation 명령을 사용하여 루트 사용자 비밀번호 설정과 같은 보안 설정을 작성하십시오. 필요에 따라 MySQL 구성 파일을 사용자 정의하십시오. MySQL 매개 변수를 조정하고 성능을 위해 데이터베이스를 최적화하십시오.

Centos에서 Gitlab 로그를 보는 방법 Centos에서 Gitlab 로그를 보는 방법 Apr 14, 2025 pm 06:18 PM

Centos 시스템에서 Gitlab 로그를보기위한 완전한 안내서이 기사에서는 메인 로그, 예외 로그 및 기타 관련 로그를 포함한 CentOS 시스템에서 다양한 Gitlab 로그를 보는 방법을 안내합니다. 로그 파일 경로는 Gitlab 버전 및 설치 방법에 따라 다를 수 있습니다. 다음 경로가 존재하지 않으면 GitLab 설치 디렉토리 및 구성 파일을 확인하십시오. 1. 기본 gitlab 로그보기 다음 명령을 사용하여 Gitlabrails 응용 프로그램의 기본 로그 파일을 보려면 다음 명령 : 명령 : sudocat/var/log/gitlab/gitlab-rails/production.log이 명령은 제품을 표시합니다.

Centos에서 Pytorch의 분산 교육을 운영하는 방법 Centos에서 Pytorch의 분산 교육을 운영하는 방법 Apr 14, 2025 pm 06:36 PM

CentOS 시스템에 대한 Pytorch 분산 교육에는 다음 단계가 필요합니다. Pytorch 설치 : 전제는 Python과 PIP가 CentOS 시스템에 설치된다는 것입니다. CUDA 버전에 따라 Pytorch 공식 웹 사이트에서 적절한 설치 명령을 받으십시오. CPU 전용 교육의 경우 다음 명령을 사용할 수 있습니다. PipinStalltorchtorchvisiontorchaudio GPU 지원이 필요한 경우 CUDA 및 CUDNN의 해당 버전이 설치되어 있는지 확인하고 해당 PyTorch 버전을 설치하려면 설치하십시오. 분산 환경 구성 : 분산 교육에는 일반적으로 여러 기계 또는 단일 기계 다중 GPU가 필요합니다. 장소

See all articles