목차
논문 소개
기술 주변기기 일체 포함 GPT-4와의 전면전에서 13B 모델이 유리할까요? 그 뒤에 특이한 상황이 있습니까?

GPT-4와의 전면전에서 13B 모델이 유리할까요? 그 뒤에 특이한 상황이 있습니까?

Nov 18, 2023 am 11:39 AM
ai 모델

13B 매개변수를 가진 모델이 실제로 상위 GPT-4를 이길 수 있을까요? 아래 그림과 같이 결과의 타당성을 확인하기 위해 이번 테스트도 OpenAI의 데이터 노이즈 제거 방식을 따랐으며 데이터 오염의 증거는 발견되지 않았습니다

GPT-4와의 전면전에서 13B 모델이 유리할까요? 그 뒤에 특이한 상황이 있습니까?

그림의 모델을 관찰하면 "rephraser"라는 단어가 포함되어 있으면 모델의 성능이 상대적으로 높다는 것을 알았습니다

이것의 비결은 무엇인가요? 데이터가 오염된 것으로 밝혀졌습니다. 즉, 훈련 세트에서 테스트 세트 정보가 유출되었는데, 이러한 오염을 감지하기가 쉽지 않습니다. 이 문제의 중요성에도 불구하고 오염을 이해하고 감지하는 것은 여전히 ​​열려 있고 어려운 과제입니다.

이 단계에서 가장 일반적으로 사용되는 오염 제거 방법은 n-gram 중첩 및 임베딩 유사성 검색입니다. N-gram 중첩은 문자열 일치를 사용하여 오염을 감지하며 GPT-4, PaLM과 같은 모델에서 일반적으로 사용됩니다. Llama-2 방법; 임베딩 유사성 검색은 사전 훈련된 모델(예: BERT)의 임베딩을 사용하여 유사하고 잠재적으로 오염된 사례를 찾습니다.

그러나 UC Berkeley와 Shanghai Jiao Tong University의 연구에 따르면 테스트 데이터의 간단한 변경(예: 재작성, 번역)으로 기존 탐지 방법을 쉽게 우회할 수 있는 것으로 나타났습니다. 그들은 "Rephrased Samples"와 같은 테스트 사례의 변형을 참조합니다.

MMLU 벤치마크 테스트에서 다시 작성해야 할 내용은 다음과 같습니다. 다시 작성한 샘플의 시연 결과입니다. 결과는 이러한 샘플이 훈련 세트에 포함되면 13B 모델이 매우 높은 성능(MMLU 85.9)을 달성할 수 있음을 보여줍니다. 불행하게도 n-gram 중첩 및 임베딩 유사성과 같은 기존 감지 방법은 이러한 오염을 감지할 수 없습니다. 예를 들어, 임베딩 유사성 방법은 동일한 주제의 다른 문제와 표현 변경 문제를 구별하는 데 어려움을 겪습니다.

GPT-4와의 전면전에서 13B 모델이 유리할까요? 그 뒤에 특이한 상황이 있습니까?

유사한 표현 기술을 사용하여 이 논문은 HumanEval 및 GSM-8K와 같이 널리 사용되는 코딩 및 수학 벤치마크에서 일관된 결과를 관찰합니다. (기사 시작 부분의 그림에 표시됨). 따라서 다시 작성해야 하는 콘텐츠, 즉 다시 작성된 샘플을 감지할 수 있는 능력이 중요해집니다.

다음으로, 이번 연구가 어떻게 진행되었는지 살펴보겠습니다.

GPT-4와의 전면전에서 13B 모델이 유리할까요? 그 뒤에 특이한 상황이 있습니까?


  • 논문 주소: https://arxiv.org/pdf/2311.04850.pdf
  • 프로젝트 주소: https://github.com/lm-sys/llm -decontaminator#Detect

논문 소개

대형 모델(LLM)의 급속한 발전으로 사람들은 테스트 세트 오염 문제에 점점 더 많은 관심을 기울이고 있습니다. 많은 사람들이 공개 벤치마크의 신뢰성에 대해 우려를 표명했습니다.

이 문제를 해결하기 위해 일부 사람들은 문자열 일치(예: n-gram 중복)와 같은 전통적인 오염 제거 방법을 사용하여 벤치마크 데이터를 제거합니다. 그러나 테스트 데이터에 대한 간단한 변경(예: 재작성, 번역)만으로 이러한 정리 조치를 쉽게 우회할 수 있기 때문에 이러한 작업만으로는 충분하지 않습니다.

테스트 데이터에 대한 이러한 변경 사항이 제거되지 않으면 13B 더 중요한 것은 모델이 테스트 벤치마크를 쉽게 과적합하고 GPT-4와 비슷한 성능을 달성한다는 것입니다. 연구진은 MMLU, GSK8k 및 HumanEval

과 같은 벤치마크 테스트에서 이러한 관찰 내용을 검증하는 동시에 증가하는 위험을 해결하기 위해 본 논문에서는 더욱 강력한 LLM 기반 오염 제거 방법인 LLM 오염 제거 장치를 제안하고 이를 적용합니다. 널리 사용되는 사전 훈련 및 미세 조정 데이터 세트에 대한 결과는 본 논문에서 제안한 LLM 방법이 재작성된 샘플을 제거하는 데 기존 방법보다 훨씬 우수하다는 것을 보여줍니다.

이 접근 방식은 이전에 알려지지 않았던 일부 테스트 중복도 드러냈습니다. 예를 들어 RedPajamaData-1T 및 StarCoder-Data와 같은 사전 훈련 세트에서는 HumanEval 벤치마크와 8~18%가 중복되는 것을 발견했습니다. 또한 이 논문은 GPT-3.5/4에서 생성된 합성 데이터 세트에서도 이러한 오염을 발견했는데, 이는 AI 분야에서 우발적 오염의 잠재적 위험도 보여줍니다.

이 글을 통해 커뮤니티가 공개 벤치마크를 사용할 때 더욱 강력한 정제 방법을 채택하고 새로운 일회성 테스트 사례를 적극적으로 개발하여 모델을 정확하게 평가할 수 있기를 바랍니다

다시 작성해야 할 것은 다음과 같습니다. : 샘플 다시 작성

이 기사의 목표는 훈련 세트에 테스트 세트를 포함시키는 간단한 변경이 최종 벤치마크 성능에 영향을 미치는지 조사하는 것입니다. 재작성이란: 샘플을 재작성하는 것입니다." 수학, 지식, 코딩 등 다양한 벤치마크 영역이 실험에서 고려되었습니다. 예제 1은 다시 작성해야 하는 GSM-8k의 콘텐츠입니다. 즉, 10그램 중복을 감지할 수 없는 다시 작성된 샘플이며 수정된 텍스트는 원본 텍스트와 동일한 의미를 유지합니다.


GPT-4와의 전면전에서 13B 모델이 유리할까요? 그 뒤에 특이한 상황이 있습니까?

기본 오염의 형태에 따라 재작성 기술에는 약간의 차이가 있습니다. 텍스트 기반 벤치마크 테스트에서 본 논문에서는 의미를 변경하지 않는다는 목적을 달성하기 위해 단어 순서를 재배치하거나 동의어 대체를 사용하여 테스트 사례를 다시 작성합니다. 코드 기반 벤치마크 테스트에서는 코딩 스타일, 네이밍 방법 등을 변경하여 본 글을 다시 작성하였다. 아래와 같이 주어진 테스트 세트에 대해 알고리즘 1에서 간단한 알고리즘을 제안한다. 이 방법은 테스트 샘플이 탐지를 회피하는 데 도움이 될 수 있습니다.

GPT-4와의 전면전에서 13B 모델이 유리할까요? 그 뒤에 특이한 상황이 있습니까? 다음으로, 본 논문에서는 기준선을 기준으로 데이터 세트에서 다시 작성해야 하는 내용을 정확하게 제거할 수 있는 새로운 오염 감지 방법인 다시 작성된 샘플을 제안합니다.

구체적으로 이번 글에서는 LLM 제염기를 소개합니다. 먼저, 각 테스트 사례에 대해 임베딩 유사성 검색을 사용하여 유사성이 가장 높은 상위 k 훈련 항목을 식별한 후 각 쌍이 동일한지 LLM(예: GPT-4)에 의해 평가됩니다. 이 접근 방식은 다시 작성해야 하는 데이터 세트의 양(다시 쓰기 샘플)을 결정하는 데 도움이 됩니다.

다양한 오염과 다양한 감지 방법에 대한 벤 다이어그램은 그림 4에 나와 있습니다.

ExperimentGPT-4와의 전면전에서 13B 모델이 유리할까요? 그 뒤에 특이한 상황이 있습니까?

섹션 5.1에서 실험을 통해 다시 작성해야 할 사항은 다음과 같습니다. 훈련된 모델 재작성된 샘플에서는 매우 높은 점수를 얻을 수 있으며 널리 사용되는 세 가지 벤치마크(MMLU, HumanEval 및 GSM-8k)에서 GPT-4와 비슷한 성능을 달성합니다. 즉, 재작성해야 할 사항은 다음과 같습니다. 재작성된 샘플은 오염으로 간주되어야 하며 훈련 데이터에서 제거되었습니다. 섹션 5.2에서 MMLU/HumanEval에 따라 이 문서에서 다시 작성해야 할 내용은 다양한 오염 감지 방법을 평가하기 위해 샘플을 다시 작성하는 것입니다. 섹션 5.3에서는 널리 사용되는 훈련 세트에 LLM 오염 제거 장치를 적용하고 이전에 알려지지 않은 오염을 발견합니다.

다음으로 몇 가지 주요 결과를 살펴보겠습니다

다시 작성해야 할 내용은 다음과 같습니다. 오염 표준 샘플을 다시 작성합니다

표 2에서와 같이 다시 작성해야 할 내용은 샘플에 대해 훈련된 Llama-2 7B 및 13B를 다시 작성하면 MMLU에서 45.3에서 88.5까지 상당히 높은 점수를 얻습니다. 이는 다시 작성된 샘플이 기준 데이터를 심각하게 왜곡할 수 있으므로 오염으로 간주되어야 함을 의미합니다.

GPT-4와의 전면전에서 13B 모델이 유리할까요? 그 뒤에 특이한 상황이 있습니까?이 기사는 또한 HumanEval 테스트 세트를 다시 작성하여 C, JavaScript, Rust, Go 및 Java의 5가지 프로그래밍 언어로 번역합니다. 결과는 재작성된 샘플에 대해 훈련된 CodeLlama 7B 및 13B가 HumanEval에서 각각 32.9~67.7 및 36.0~81.1 범위의 매우 높은 점수를 얻을 수 있음을 보여줍니다. 이에 비해 GPT-4는 HumanEval에서 67.0만 달성할 수 있습니다.

GPT-4와의 전면전에서 13B 모델이 유리할까요? 그 뒤에 특이한 상황이 있습니까? 아래 표 4는 동일한 효과를 얻습니다.

GPT-4와의 전면전에서 13B 모델이 유리할까요? 그 뒤에 특이한 상황이 있습니까?

오염 탐지 방법 평가

표 5에서 볼 수 있듯이 LLM 오염 제거기를 제외한 다른 모든 탐지 방법에는 일부 오탐지가 발생합니다. 재작성되거나 번역된 샘플은 n-그램 중복으로 감지되지 않습니다. 다중 qa BERT를 사용하면 유사성 검색 내장이 번역된 샘플에서 전혀 효과적이지 않은 것으로 나타났습니다.状 데이터 세트의 오염 상태

GPT-4와의 전면전에서 13B 모델이 유리할까요? 그 뒤에 특이한 상황이 있습니까?

표 7에서 각 학습 데이터 세트의 데이터 오염에 대한 데이터 오염 비율이 공개됩니다. 79 다시 작성해야 하는 유일한 내용은 다시 작성된 샘플의 인스턴스, MATH 테스트 세트의 1.58%를 차지합니다. 예제 5는 MATH 훈련 데이터에 대한 MATH 테스트를 적용한 것입니다.

자세한 내용은 원본을 확인해주세요

위 내용은 GPT-4와의 전면전에서 13B 모델이 유리할까요? 그 뒤에 특이한 상황이 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 채팅 명령 및 사용 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Debian Readdir의 성능을 최적화하는 방법 Debian Readdir의 성능을 최적화하는 방법 Apr 13, 2025 am 08:48 AM

Debian Systems에서 ReadDir 시스템 호출은 디렉토리 내용을 읽는 데 사용됩니다. 성능이 좋지 않은 경우 다음과 같은 최적화 전략을 시도해보십시오. 디렉토리 파일 수를 단순화하십시오. 대규모 디렉토리를 가능한 한 여러 소규모 디렉토리로 나누어 읽기마다 처리 된 항목 수를 줄입니다. 디렉토리 컨텐츠 캐싱 활성화 : 캐시 메커니즘을 구축하고 정기적으로 캐시를 업데이트하거나 디렉토리 컨텐츠가 변경 될 때 캐시를 업데이트하며 readDir로 자주 호출을 줄입니다. 메모리 캐시 (예 : Memcached 또는 Redis) 또는 로컬 캐시 (예 : 파일 또는 데이터베이스)를 고려할 수 있습니다. 효율적인 데이터 구조 채택 : 디렉토리 트래버스를 직접 구현하는 경우 디렉토리 정보를 저장하고 액세스하기 위해보다 효율적인 데이터 구조 (예 : 선형 검색 대신 해시 테이블)를 선택하십시오.

데비안 아파치 로그 레벨을 설정하는 방법 데비안 아파치 로그 레벨을 설정하는 방법 Apr 13, 2025 am 08:33 AM

이 기사에서는 데비안 시스템에서 Apacheweb 서버의 로깅 레벨을 조정하는 방법에 대해 설명합니다. 구성 파일을 수정하면 Apache가 기록한 로그 정보 수준을 제어 할 수 있습니다. 메소드 1 : 구성 파일을 찾으려면 기본 구성 파일을 수정합니다. 구성 파일 : APACHE2.X의 구성 파일은 일반적으로/etc/apache2/디렉토리에 있습니다. 파일 이름은 설치 방법에 따라 apache2.conf 또는 httpd.conf 일 수 있습니다. 구성 파일 편집 : 텍스트 편집기 (예 : Nano)를 사용하여 루트 권한이있는 구성 파일 열기 : sudonano/etc/apache2/apache2.conf

Debian Readdir의 파일 정렬을 구현하는 방법 Debian Readdir의 파일 정렬을 구현하는 방법 Apr 13, 2025 am 09:06 AM

Debian Systems에서 readDIR 함수는 디렉토리 내용을 읽는 데 사용되지만 반환하는 순서는 사전 정의되지 않습니다. 디렉토리에 파일을 정렬하려면 먼저 모든 파일을 읽은 다음 QSORT 기능을 사용하여 정렬해야합니다. 다음 코드는 데비안 시스템에서 readdir 및 qsort를 사용하여 디렉토리 파일을 정렬하는 방법을 보여줍니다.#포함#포함#포함#포함#포함 // QsortIntCompare (constvoid*a, constVoid*b) {returnStrcmp (*(*)

데비안 메일 서버 방화벽 구성 팁 데비안 메일 서버 방화벽 구성 팁 Apr 13, 2025 am 11:42 AM

데비안 메일 서버의 방화벽 구성은 서버 보안을 보장하는 데 중요한 단계입니다. 다음은 iptables 및 방화구 사용을 포함하여 일반적으로 사용되는 여러 방화벽 구성 방법입니다. iptables를 사용하여 iptables를 설치하도록 방화벽을 구성하십시오 (아직 설치되지 않은 경우) : sudoapt-getupdatesudoapt-getinstalliptablesview 현재 iptables 규칙 : sudoiptables-l configuration

데비안 메일 서버 SSL 인증서 설치 방법 데비안 메일 서버 SSL 인증서 설치 방법 Apr 13, 2025 am 11:39 AM

Debian Mail 서버에 SSL 인증서를 설치하는 단계는 다음과 같습니다. 1. OpenSSL 툴킷을 먼저 설치하십시오. 먼저 OpenSSL 툴킷이 이미 시스템에 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. 개인 키 및 인증서 요청 생성 다음에 다음, OpenSSL을 사용하여 2048 비트 RSA 개인 키 및 인증서 요청 (CSR)을 생성합니다.

데비안을 오류하는 방법은 중간 중간의 공격을 방해합니다 데비안을 오류하는 방법은 중간 중간의 공격을 방해합니다 Apr 13, 2025 am 10:30 AM

Debian Systems에서 OpenSSL은 암호화, 암호 해독 및 인증서 관리를위한 중요한 라이브러리입니다. MITM (Man-in-the-Middle Attack)을 방지하려면 다음 측정을 수행 할 수 있습니다. HTTPS 사용 : 모든 네트워크 요청이 HTTP 대신 HTTPS 프로토콜을 사용하도록하십시오. HTTPS는 TLS (Transport Layer Security Protocol)를 사용하여 통신 데이터를 암호화하여 전송 중에 데이터가 도난 당하거나 변조되지 않도록합니다. 서버 인증서 확인 : 클라이언트의 서버 인증서를 수동으로 확인하여 신뢰할 수 있는지 확인하십시오. 서버는 대의원 메소드를 통해 수동으로 확인할 수 있습니다.

데비안 하프 로그 관리를 수행하는 방법 데비안 하프 로그 관리를 수행하는 방법 Apr 13, 2025 am 10:45 AM

Debian에서 Hadoop 로그 관리하면 다음 단계 및 모범 사례를 따라갈 수 있습니다. 로그 집계 로그 집계 : Yarn-site.xml 파일에서 Ture에서 True로 설정 할 수 있도록 설정 : 로그 집계를 활성화하십시오. 로그 보유 정책 구성 : 172800 초 (2 일)와 같이 로그의 유지 시간을 정의하기 위해 yarn.log-aggregation.retain-seconds를 설정하십시오. 로그 저장 경로를 지정하십시오 : Yarn.n을 통해

Debian Readdir가 다른 도구와 통합하는 방법 Debian Readdir가 다른 도구와 통합하는 방법 Apr 13, 2025 am 09:42 AM

데비안 시스템의 readdir 함수는 디렉토리 컨텐츠를 읽는 데 사용되는 시스템 호출이며 종종 C 프로그래밍에 사용됩니다. 이 기사에서는 ReadDir를 다른 도구와 통합하여 기능을 향상시키는 방법을 설명합니다. 방법 1 : C 언어 프로그램을 파이프 라인과 결합하고 먼저 C 프로그램을 작성하여 readDir 함수를 호출하고 결과를 출력하십시오.#포함#포함#포함#포함#includinTmain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

See all articles