대형모델간 75만 라운드 1대1 대결, GPT-4가 우승, 라마3가 5위-일체 포함-php.cn

약 90개 모델이 75만 라운드에 참가했습니다

모두가 참여할 수 있는 대형 모델 테스트

Δ도식, 이전 버전

한 가지 더

집

기술 주변기기

일체 포함

대형모델간 75만 라운드 1대1 대결, GPT-4가 우승, 라마3가 5위

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 23, 2024 pm 03:28 PM

bootstrap 버전 gpt-4 준비 llama 3

라마 3 관련 새로운 테스트 결과가 나왔습니다 -

대형 모델 평가 커뮤니티 LMSYS가 공개한 대형 모델 순위표에서 라마 3가 5위에 올랐으며, 영어 부문에서는 GPT-4와 함께 공동 1위에 올랐습니다.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Pictures

다른 벤치마크와 달리 이 목록은 모델 1대1 전투를 기반으로 하며, 네트워크 전체의 평가자들이 자신의 제안과 점수를 만듭니다.

결국 Llama 3가 5위를 차지했고, GPT-4의 세 가지 버전과 Claude 3 Super Cup Opus가 그 뒤를 이었습니다.

영어 싱글리스트에서는 Llama 3가 Claude를 제치고 GPT-4와 동점을 기록했습니다.

Meta의 수석 과학자인 LeCun은 이 결과에 매우 기뻐하며 해당 트윗을 리트윗하고 “Nice”라는 글을 남겼습니다.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Pictures

PyTorch의 아버지인 Soumith Chintala 역시 이러한 결과가 믿기지 않으며 Meta가 자랑스럽다고 신나게 표현했습니다.

라마 3의 400B 버전은 아직 나오지 않았는데, 70B 매개변수만으로 5위를 차지했습니다...
작년 3월 GPT-4가 출시되었을 때, 달성이 거의 불가능했던 기억이 납니다. 같은 성능.
…
지금 AI의 대중화는 정말 믿기지 않습니다. 이러한 성공을 이룬 Meta AI의 동료들이 매우 자랑스럽습니다.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Pictures

그렇다면 이 목록은 어떤 구체적인 결과를 보여줍니까?

약 90개 모델이 75만 라운드에 참가했습니다

최신 목록 공개 기준으로 LMSYS는 89개 모델이 참여하여 약 75만 개의 대형 모델 솔로 전투 결과를 수집했습니다.

그 중 Llama 3는 12,700회 참여했으며, GPT-4에는 다양한 버전이 있으며 가장 많은 참여는 68,000회입니다.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 사진

아래 사진은 일부 인기 모델의 대회 횟수와 승률을 보여줍니다. 사진의 두 지표 모두 추첨 횟수에 포함되지 않습니다.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Pictures

목록의 경우 LMSYS는 일반 목록과 여러 하위 목록으로 나누어져 있으며 이전 1106 버전과 공동으로 1위를 차지하고 있으며 Claude 3 Super Large Cup Opus가 있습니다.

GPT-4의 또 다른 버전(0125)이 2위를 차지했으며 Llama 3가 그 뒤를 바짝 쫓고 있습니다.

하지만 더 흥미로운 점은 최신 버전 0125가 이전 버전 1106만큼 성능이 좋지 않다는 것입니다.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Pictures

영어 싱글 목록에서 Llama 3의 결과는 GPT-4 두 대와 직접적으로 동률을 이루며 심지어 0125 버전을 능가했습니다.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Pictures

중국어 능력 순위 1위는 Claude 3 Opus와 GPT-4-1106이 공동으로 차지한 반면, Llama 3는 20위를 벗어났습니다.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Pictures

목록에는 언어 능력 외에도 긴 텍스트 및 코딩 능력에 대한 순위도 설정되어 있으며 Llama 3도 최고 중 하나입니다.

그런데 LMSYS의 구체적인 '게임 규칙'은 무엇인가요?

모두가 참여할 수 있는 대형 모델 테스트

모두가 참여할 수 있는 대형 모델 테스트입니다. 질문과 평가 기준은 참가자가 직접 결정합니다.

구체적인 '경쟁' 과정은 전투 모드와 나란히 모드의 두 가지 모드로 구분됩니다.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Pictures

배틀 모드에서 테스트 인터페이스에 질문을 입력하면 시스템이 라이브러리에 있는 두 모델을 무작위로 호출하며 테스터는 시스템이 누구를 선택했는지 알 수 없으며 "모델"만 인터페이스 A" 및 "모델 B"에 표시됩니다.

모델이 답을 출력한 후 평가자는 어느 것이 더 나은지 또는 동점인지 선택해야 합니다. 물론 모델의 성능이 기대에 미치지 못하는 경우 해당 옵션이 있습니다.

선택이 이루어져야 모델의 신원이 공개됩니다.

Side-by-side는 사용자가 특정 모델을 선택하여 PK하는 것입니다. 나머지 테스트 과정은 전투 모드와 동일합니다.

단, 익명 모드의 전투 결과만 집계됩니다. 대화 중에 모델이 주의를 기울이지 않을 수 있으므로 신원을 노출하면 결과가 무효화됩니다.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Pictures

각 모델의 다른 모델 승률에 따라 다음과 같은 이미지를 그릴 수 있습니다.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Pictures

Δ도식, 이전 버전

그리고 최종 순위는 Win을 사용합니다. 등급 데이터는 Elo 평가 시스템을 통해 점수로 변환됩니다.

Elo 등급 시스템은 미국 물리학 교수 Arpad Elo가 설계한 플레이어의 상대적인 기술 수준을 계산하는 방법입니다.

특히 LMSYS의 경우 초기 조건에서 모든 모델의 평점(R)을 1000으로 설정하고, 이러한 공식을 바탕으로 예상 승률(E)을 계산합니다.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Pictures

테스트가 진행됨에 따라 실제 점수(S)에 따라 점수가 수정됩니다. S에는 승리, 패배의 세 가지 상황에 해당하는 1, 0, 0.5의 세 가지 값이 있습니다. 그리고 각각 그림을 그립니다.

수정 알고리즘은 다음 공식에 나와 있습니다. 여기서 K는 실제 상황에 따라 테스터가 조정해야 하는 계수입니다.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Pictures

마지막으로 모든 유효한 데이터가 계산에 포함된 후 모델의 Elo 점수를 얻습니다.

그러나 실제 운영 중에 LMSYS 팀은 이 알고리즘의 안정성이 부족하다는 사실을 발견하고 이를 수정하기 위해 통계적 방법을 사용했습니다.

부트스트랩 방식을 반복 샘플링에 사용하여 보다 안정적인 결과를 얻었으며 신뢰구간을 추정했습니다.

최종 수정된 Elo 점수가 리스트 순위의 기준이 되었습니다.

한 가지 더

Llama 3는 이미 대형 모델 추론 플랫폼 Groq(Musk의 Grok 아님)에서 실행될 수 있습니다.

이 플랫폼의 가장 큰 특징은 "속도"입니다. 이전에는 Mixtral 모델을 사용하여 초당 거의 500개 토큰의 속도를 달성했습니다.

Llama 3는 실행 시에도 매우 빠릅니다. 실제로 측정된 바에 따르면 70B 버전은 초당 약 300개의 토큰을 실행할 수 있고, 8B 버전은 800에 가깝습니다.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Pictures

참조 링크:
[1]https://lmsys.org/blog/2023-05-03-arena/
[2]https://chat.lmsys.org/?leaderboard
[3]https://twitter.com/lmsysorg/status/1782483699449332144

위 내용은 대형모델간 75만 라운드 1대1 대결, GPT-4가 우승, 라마3가 5위의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

뜨거운 도구

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7488

Cakephp 튜토리얼

1377

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

부트 스트랩 검색 창을 얻는 방법 Apr 07, 2025 pm 03:33 PM

부트 스트랩을 사용하여 검색 표시 줄의 값을 얻는 방법 : 검색 표시 줄의 ID 또는 이름을 결정하십시오. JavaScript를 사용하여 DOM 요소를 얻으십시오. 요소의 값을 가져옵니다. 필요한 작업을 수행하십시오.

부트 스트랩의 수직 중심을 수행하는 방법 Apr 07, 2025 pm 03:21 PM

부트 스트랩을 사용하여 수직 센터링을 구현하여 : Flexbox Method : D-Flex, 정당화 컨텐츠 중심 및 정렬 중심 센터 클래스를 사용하여 Flexbox 컨테이너에 요소를 배치하십시오. Align-Items-Center 클래스 방법 : Flexbox를 지원하지 않는 브라우저의 경우 상위 요소의 높이가 정의 된 경우 Align-Items 중심 클래스를 사용하십시오.

부트 스트랩에 사진을 삽입하는 방법 Apr 07, 2025 pm 03:30 PM

Bootstrap에 이미지를 삽입하는 방법에는 여러 가지가 있습니다. HTML IMG 태그를 사용하여 이미지를 직접 삽입하십시오. 부트 스트랩 이미지 구성 요소를 사용하면 반응 형 이미지와 더 많은 스타일을 제공 할 수 있습니다. 이미지 크기를 설정하고 IMG-Fluid 클래스를 사용하여 이미지를 적응할 수 있도록하십시오. IMG 통과 클래스를 사용하여 테두리를 설정하십시오. 둥근 모서리를 설정하고 IMG 라운드 클래스를 사용하십시오. 그림자를 설정하고 그림자 클래스를 사용하십시오. CSS 스타일을 사용하여 이미지를 조정하고 배치하십시오. 배경 이미지를 사용하여 배경 이미지 CSS 속성을 사용하십시오.

부트 스트랩 버튼을 사용하는 방법 Apr 07, 2025 pm 03:09 PM

부트 스트랩 버튼을 사용하는 방법? 부트 스트랩 CSS를 소개하여 버튼 요소를 만들고 부트 스트랩 버튼 클래스를 추가하여 버튼 텍스트를 추가하십시오.

부트 스트랩 크기를 조정하는 방법 Apr 07, 2025 pm 03:18 PM

부트 스트랩에서 요소의 크기를 조정하려면 다음을 포함하여 차원 클래스를 사용할 수 있습니다.

부트 스트랩을위한 프레임 워크를 설정하는 방법 Apr 07, 2025 pm 03:27 PM

부트 스트랩 프레임 워크를 설정하려면 다음 단계를 따라야합니다. 1. CDN을 통해 부트 스트랩 파일 참조; 2. 자신의 서버에서 파일을 다운로드하여 호스팅하십시오. 3. HTML에 부트 스트랩 파일을 포함; 4. 필요에 따라 Sass/Less를 컴파일하십시오. 5. 사용자 정의 파일을 가져옵니다 (선택 사항). 설정이 완료되면 Bootstrap의 그리드 시스템, 구성 요소 및 스타일을 사용하여 반응 형 웹 사이트 및 응용 프로그램을 만들 수 있습니다.

부트 스트랩에 분할 라인을 작성하는 방법 Apr 07, 2025 pm 03:12 PM

부트 스트랩 분할 라인을 만드는 두 가지 방법이 있습니다 : 태그를 사용하여 수평 분할 라인이 생성됩니다. CSS 테두리 속성을 사용하여 사용자 정의 스타일 분할 라인을 만듭니다.

부트 스트랩 날짜를 보는 방법 Apr 07, 2025 pm 03:03 PM

답 : 부트 스트랩의 날짜 선택기 구성 요소를 사용하여 페이지에서 날짜를 볼 수 있습니다. 단계 : 부트 스트랩 프레임 워크를 소개하십시오. HTML에서 날짜 선택기 입력 상자를 만듭니다. 부트 스트랩은 선택기에 스타일을 자동으로 추가합니다. JavaScript를 사용하여 선택한 날짜를 얻으십시오.

See all articles

대형모델간 75만 라운드 1대1 대결, GPT-4가 우승, 라마3가 5위

약 90개 모델이 75만 라운드에 참가했습니다

모두가 참여할 수 있는 대형 모델 테스트

Δ도식, 이전 버전

한 가지 더

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제