라마 3 관련 새로운 테스트 결과가 나왔습니다 -
대형 모델 평가 커뮤니티 LMSYS가 공개한 대형 모델 순위표에서 라마 3가 5위에 올랐으며, 영어 부문에서는 GPT-4와 함께 공동 1위에 올랐습니다.
Pictures
다른 벤치마크와 달리 이 목록은 모델 1대1 전투를 기반으로 하며, 네트워크 전체의 평가자들이 자신의 제안과 점수를 만듭니다.
결국 Llama 3가 5위를 차지했고, GPT-4의 세 가지 버전과 Claude 3 Super Cup Opus가 그 뒤를 이었습니다.
영어 싱글리스트에서는 Llama 3가 Claude를 제치고 GPT-4와 동점을 기록했습니다.
Meta의 수석 과학자인 LeCun은 이 결과에 매우 기뻐하며 해당 트윗을 리트윗하고 “Nice”라는 글을 남겼습니다.
Pictures
PyTorch의 아버지인 Soumith Chintala 역시 이러한 결과가 믿기지 않으며 Meta가 자랑스럽다고 신나게 표현했습니다.
라마 3의 400B 버전은 아직 나오지 않았는데, 70B 매개변수만으로 5위를 차지했습니다...
작년 3월 GPT-4가 출시되었을 때, 달성이 거의 불가능했던 기억이 납니다. 같은 성능.
…
지금 AI의 대중화는 정말 믿기지 않습니다. 이러한 성공을 이룬 Meta AI의 동료들이 매우 자랑스럽습니다.
Pictures
그렇다면 이 목록은 어떤 구체적인 결과를 보여줍니까?
최신 목록 공개 기준으로 LMSYS는 89개 모델이 참여하여 약 75만 개의 대형 모델 솔로 전투 결과를 수집했습니다.
그 중 Llama 3는 12,700회 참여했으며, GPT-4에는 다양한 버전이 있으며 가장 많은 참여는 68,000회입니다.
사진
아래 사진은 일부 인기 모델의 대회 횟수와 승률을 보여줍니다. 사진의 두 지표 모두 추첨 횟수에 포함되지 않습니다.
Pictures
목록의 경우 LMSYS는 일반 목록과 여러 하위 목록으로 나누어져 있으며 이전 1106 버전과 공동으로 1위를 차지하고 있으며 Claude 3 Super Large Cup Opus가 있습니다.
GPT-4의 또 다른 버전(0125)이 2위를 차지했으며 Llama 3가 그 뒤를 바짝 쫓고 있습니다.
하지만 더 흥미로운 점은 최신 버전 0125가 이전 버전 1106만큼 성능이 좋지 않다는 것입니다.
Pictures
영어 싱글 목록에서 Llama 3의 결과는 GPT-4 두 대와 직접적으로 동률을 이루며 심지어 0125 버전을 능가했습니다.
Pictures
중국어 능력 순위 1위는 Claude 3 Opus와 GPT-4-1106이 공동으로 차지한 반면, Llama 3는 20위를 벗어났습니다.
Pictures
목록에는 언어 능력 외에도 긴 텍스트 및 코딩 능력에 대한 순위도 설정되어 있으며 Llama 3도 최고 중 하나입니다.
그런데 LMSYS의 구체적인 '게임 규칙'은 무엇인가요?
모두가 참여할 수 있는 대형 모델 테스트입니다. 질문과 평가 기준은 참가자가 직접 결정합니다.
구체적인 '경쟁' 과정은 전투 모드와 나란히 모드의 두 가지 모드로 구분됩니다.
Pictures
배틀 모드에서 테스트 인터페이스에 질문을 입력하면 시스템이 라이브러리에 있는 두 모델을 무작위로 호출하며 테스터는 시스템이 누구를 선택했는지 알 수 없으며 "모델"만 인터페이스 A" 및 "모델 B"에 표시됩니다.
모델이 답을 출력한 후 평가자는 어느 것이 더 나은지 또는 동점인지 선택해야 합니다. 물론 모델의 성능이 기대에 미치지 못하는 경우 해당 옵션이 있습니다.
선택이 이루어져야 모델의 신원이 공개됩니다.
Side-by-side는 사용자가 특정 모델을 선택하여 PK하는 것입니다. 나머지 테스트 과정은 전투 모드와 동일합니다.
단, 익명 모드의 전투 결과만 집계됩니다. 대화 중에 모델이 주의를 기울이지 않을 수 있으므로 신원을 노출하면 결과가 무효화됩니다.
Pictures
각 모델의 다른 모델 승률에 따라 다음과 같은 이미지를 그릴 수 있습니다.
Pictures
그리고 최종 순위는 Win을 사용합니다. 등급 데이터는 Elo 평가 시스템을 통해 점수로 변환됩니다.
Elo 등급 시스템은 미국 물리학 교수 Arpad Elo가 설계한 플레이어의 상대적인 기술 수준을 계산하는 방법입니다.
특히 LMSYS의 경우 초기 조건에서 모든 모델의 평점(R)을 1000으로 설정하고, 이러한 공식을 바탕으로 예상 승률(E)을 계산합니다.
Pictures
테스트가 진행됨에 따라 실제 점수(S)에 따라 점수가 수정됩니다. S에는 승리, 패배의 세 가지 상황에 해당하는 1, 0, 0.5의 세 가지 값이 있습니다. 그리고 각각 그림을 그립니다.
수정 알고리즘은 다음 공식에 나와 있습니다. 여기서 K는 실제 상황에 따라 테스터가 조정해야 하는 계수입니다.
Pictures
마지막으로 모든 유효한 데이터가 계산에 포함된 후 모델의 Elo 점수를 얻습니다.
그러나 실제 운영 중에 LMSYS 팀은 이 알고리즘의 안정성이 부족하다는 사실을 발견하고 이를 수정하기 위해 통계적 방법을 사용했습니다.
부트스트랩 방식을 반복 샘플링에 사용하여 보다 안정적인 결과를 얻었으며 신뢰구간을 추정했습니다.
최종 수정된 Elo 점수가 리스트 순위의 기준이 되었습니다.
Llama 3는 이미 대형 모델 추론 플랫폼 Groq(Musk의 Grok 아님)에서 실행될 수 있습니다.
이 플랫폼의 가장 큰 특징은 "속도"입니다. 이전에는 Mixtral 모델을 사용하여 초당 거의 500개 토큰의 속도를 달성했습니다.
Llama 3는 실행 시에도 매우 빠릅니다. 실제로 측정된 바에 따르면 70B 버전은 초당 약 300개의 토큰을 실행할 수 있고, 8B 버전은 800에 가깝습니다.
Pictures
참조 링크:
[1]https://lmsys.org/blog/2023-05-03-arena/
[2]https://chat.lmsys.org/?leaderboard
[3]https://twitter.com/lmsysorg/status/1782483699449332144
위 내용은 대형모델간 75만 라운드 1대1 대결, GPT-4가 우승, 라마3가 5위의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!