> 기술 주변기기 > 일체 포함 > GPT-4 왕관이 사라졌습니다! 클로드 3 아레나 휴먼 투표 결과 공개 : 단 3위

GPT-4 왕관이 사라졌습니다! 클로드 3 아레나 휴먼 투표 결과 공개 : 단 3위

WBOY
풀어 주다: 2024-03-08 15:07:27
앞으로
451명이 탐색했습니다.

Claude 3의 아레나 순위가 드디어 나왔습니다:

단 3일 만에 20,000표가 투표되어 순위 트래픽이 전례 없는 수준으로 올라갔습니다.

결국 클로드 3의 최강 '빅컵' 모델인 Opus는 1233점을 기록하며 GPT-4-Turbo와 경쟁하는 최초의 플레이어가 되었습니다.

"중형 컵" Sonnet도 GPT-4의 두 가지 이전 버전과 동등한 수준으로 꽤 좋습니다.

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三Pictures

하지만 전체적으로는 GPT-4 시리즈가 우위를 점하고 있습니다.

클로드3의 퍼포먼스는 프로모션과 조금 다릅니다. 네티즌 요약 :

GPT-4는 여전히 대형 모델의 왕입니다!

하지만 무료로 제공되는 "미디엄 컵" 클로드 3(소네트)는 가격 대비 더 가치가 높습니다.

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三사진

대형모델 아레나 공개, '신왕' 3위

클로드 3 출시 당시 공식 홍보에서는 모든 면에서 GPT-4를 능가한다는 내용이었는데 언급이 없더군요. GPT-4의 어떤 버전이었는지.

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三Pictures

아레나 리더보드(LMSYS Chatbot Arena Leaderboard)의 최신 업데이트를 통해 알아보실 수 있습니다.

자세한 내용을 살펴보겠습니다.

목록 1위는 작년 11월 OpenAI가 출시한 GPT-4 Turbo입니다. 즉,

GPT-4-1106-preview입니다.

더 강력하고 저렴하며 128k 컨텍스트를 가지며 훈련 데이터는 2021년 9월부터 2023년 4월까지 업데이트되었습니다.

공동 1위는 올해 1월에 출시된 GPT-4 Turbo의 최신 버전인

GPT-4-0125-preview입니다.

훈련 데이터는 2023년 12월까지 더 넓어졌습니다.

둘 다 1251점을 획득했습니다.

그런 다음 Claude 3이 나옵니다(2023년 8월 기준 교육 데이터).

가장 강력한 버전인 Opus는 GPT-4 Turbo보다 ​​18점 낮은 1233점을 기록했습니다.

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三Pictures

이 격차는 비교해도 그리 크지 않습니다. 결국 더 자세히 살펴보세요.

두 버전의 GPT-4(0314 및 0613)보다 각각 48포인트와 72포인트 높습니다.

중급 성능 Claude 3 Sonnet은 두 GPT-4 버전 사이에서 6위입니다.

하지만 0314 버전보다 5점만 낮을 뿐이고 단숨에 능가할 수 있는 잠재력이 큽니다. .

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三Pictures

그래서 일반적으로 공식적인 프로모션은 큰 문제가 되지 않으며 모든 면에서 이전 버전의 GPT-4를 능가하지만 여전히 GPT-4 Turbo와는 조금 거리가 있습니다. 너무 크지는 않습니다.

——이 목록의 평가 메커니즘으로 볼 때 그 결과는 업계에서 상당히 인정받고 있습니다.

"비쿠나" 작가팀에서 시작합니다.

하지만 치안 판사는 GPT-4는 물론이고 "작은 알파카"가 아니라 인간의 취향에 따라 결정됩니다.

더 구체적으로 말하자면, 익명의 두 모델에게 무작위로 질문을 한 후 각각의 답변을 평가하고 더 나은 모델에 투표합니다.

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三Pictures

한 번에 투표할 수 없는 경우 계속 질문할 수 있습니다. 모델이 채팅 중 실수로 자신의 신원을 노출한 경우 투표가 무효화됩니다.

특히, 채점 규칙은 공정성을 보장하기 위해 Elo 메커니즘을 채택합니다(Honour of Kings를 플레이하는 모든 친구는 이에 익숙합니다).

예: 특정 모델이 패배하더라도 약하다고 해서 점수가 반드시 낮은 것은 아닙니다.

지금까지 이 리스트는 매우 인기가 높았다고 할 수 있습니다. 전 세계 73명의 모델이 챌린지에 참여했으며, 네티즌들로부터 총 37만 표 이상을 받았습니다.

Tongyi Qianwen이 상위 10위 안에 들었습니다

Claude 3 외에도 좋은 활약을 펼친 다른 선수들을 살펴보겠습니다.

가장 먼저 언급할 것은 Gemini Pro를 기반으로 한 Bard로, GPT-4Turbo와 Claude 3에 이어 4위입니다.

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三사진

은 좀 의외라고 할 수 있습니다.

네티즌들은 다음과 같이 농담했습니다.

Google이 순위에 '구멍'을 열었습니다.

그리고 재빨리 제프 딘과 딥마인드 담당자에게 전화: 야, 더 열심히 해라(왕차이)

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三Pictures

그럼 Ali Tongyi Qianwen(버전 1.5, 지난 달 출시)에 대해 이야기하고 싶습니다.

이 순위에서는 톱10에 안착하고 공동 9위에 올랐으며, 국내 선수 중 가장 좋은 성적을 거두었습니다.

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三사진

남은 것은 국내 타 플레이어들 외에도 클로드2, 제미니 프로, GPT-3.5 등이 있습니다.

전체 목록:https://www.php.cn/link/e39505ef839c38f61139ae78da3f7615
참조 링크:https://www.php.cn/link/30637ce29549ac951061fd211d43c3b0

위 내용은 GPT-4 왕관이 사라졌습니다! 클로드 3 아레나 휴먼 투표 결과 공개 : 단 3위의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿