크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.
대형 모델 순위는 어느 회사가 가장 높나요? LLM 아레나도 시청하세요~
현재 총 90명의 LLM이 전투에 참여했고, 총 사용자 투표 수가 770,000을 넘었습니다.
Pictures
그러나 신인 모델들이 상위권으로 돌진하고 구모델들이 존엄성을 잃어가고 있다고 조롱하는 가운데, 렌지아 아레나의 조직인 LMSYS는 조용히 결과의 변신을 완성했습니다. 실제 전투에서 탄생한 설득력 있는 벤치마크 테스트-Arena-Hard.
Pictures
Arena-Hard가 입증한 네 가지 장점은 정확히 현재 LLM 벤치마크에 가장 필요한 것입니다.
-분리성(87.4%)은 MT -bench(22.6%)보다 훨씬 우수합니다.
- 89.1%로 Chatbot Arena에 가장 가까운 순위;
- 빠르고 저렴함($25)
- 실시간 데이터로 자주 업데이트됨
중국어 번역은 우선, 이 대규모 시험은 차별화되어야 하며, 가난한 학생들도 90점을 받을 수는 없습니다.
둘째, 시험 문제는 더 현실적이어야 하며 채점은 엄격해야 합니다.
결국; , 문제가 유출되어서는 안 되므로 시험의 공정성을 보장하기 위해 시험 데이터를 자주 업데이트해야 합니다.
- 마지막 두 가지 요구 사항은 LLM Arena에 맞게 맞춤화되었습니다.
새 벤치마크의 효과를 살펴보겠습니다.
Pictures
위 그림은 Arena Hard v0.1과 이전 SOTA 벤치마크 MT Bench를 비교한 것입니다.
MT Bench와 비교했을 때 Arena Hard v0.1은 분리성이 더 강하고(급증폭 22.6%에서 87.4%), 신뢰 구간도 더 좁은 것을 확인할 수 있습니다.
또한 이 순위를 살펴보세요. 이는 아래의 최신 LLM 경기장 순위와 기본적으로 일치합니다.
Pictures
이는 Arena Hard의 평가가 인간의 선호도(89.1)에 매우 가깝다는 것을 보여줍니다. %) .
——아레나 하드는 크라우드소싱의 새로운 길을 연 것으로 볼 수 있습니다.
네티즌은 무료 경험을 얻고, 공식 플랫폼은 가장 영향력 있는 순위와 함께 신선한 고품질 데이터를 얻습니다— — 누구도 다치지 않는 세상이 완성되었습니다.
대형 모델에 대한 질문
이 벤치마크를 구축하는 방법을 살펴보겠습니다.
간단히 말하면 경기장에 있는 20만 개의 사용자 프롬프트(질문) 중에서 더 좋은 것을 선택하는 방법입니다.
이 "좋은"은 다양성과 복잡성이라는 두 가지 측면에 반영됩니다. 다음 그림은 Arena-Hard의 작업흐름을 보여줍니다.
Pictures
요약하자면: 먼저 모든 프롬프트를 분류하고(여기서는 4,000개 이상의 주제가 나누어져 있습니다), 그런 다음 각 팁을 분류하기 위한 몇 가지 기준을 인위적으로 설정하여 점수를 매깁니다. , 동일한 카테고리의 팁이 평균화됩니다.
점수가 높은 카테고리는 복잡성(또는 품질)이 높은 것으로 간주될 수 있습니다. 이는 Arena-Hard에서 "Hard"를 의미합니다.
가장 높은 점수를 받은 상위 250개 카테고리(250개는 다양성 보장)를 선택하고 각 카테고리에서 무작위로 2개의 행운 프롬프트를 선택하여 최종 벤치마크 세트(500개 프롬프트)를 구성합니다.
아래에서 자세히 확장하세요.
Diversity
연구원들은 먼저 OpenAI의 text-embedding-3-small을 사용하여 각 팁을 변환하고 UMAP을 사용하여 차원을 줄인 다음 계층 기반 클러스터링 알고리즘(HDBSCAN)을 사용하여 클러스터를 식별한 다음 GPT-4를 사용합니다. -집합을 위한 터보.
복잡성
아래 표의 7가지 주요 기준을 통해 고품질 사용자 쿼리를 선택하세요.
이미지
출력?
2. 하나 이상의 특정 영역을 다루나요?
3. 추론, 구성 요소 또는 변수의 수준이 다양합니까?
4. AI가 문제 해결 능력을 직접적으로 보여줘야 할까요?
5. 창의성 수준이 포함되어 있나요?
6. 응답의 기술적 정확성이 필요한가요?
7. 실제 응용과 관련이 있나요?
각 팁에 대해 LLM(GPT-3.5-Turbo, GPT-4-Turbo)을 사용하여 충족하는 기준 수를 표시한 다음(점수 0~7) 각 팁 그룹의 평균을 계산합니다(클러스터링). 분수.
다음 그림은 일부 클러스터의 평균 점수 순위를 보여줍니다.
Picture
점수가 높은 클러스터는 일반적으로 더 어려운 주제(예: 게임 개발, 수학적 증명)인 반면, 점수가 낮은 클러스터는 사소하거나 모호한 문제에 속합니다.
이러한 복잡성으로 인해 최고의 학자와 열악한 학자 사이의 격차가 넓어질 수 있습니다. 아래의 실험 결과를 살펴보겠습니다.
Pictures
위의 3가지 비교에서는 GPT-4가 더 강하다고 가정합니다. Llama2-70b보다 Claude의 Large 컵이 Medium 컵보다 강하고, Mistral-Large가 Mixtral보다 강하고,
(복잡도) 점수가 높아질수록 강한 모델의 승률도 향상되는 것을 확인할 수 있어요~ 상위 학생은 구별되고, 불량 학생은 필터링됩니다.
점수가 높을수록(문제가 복잡할수록) 판별력이 좋기 때문에 평균점수 >= 6점(7점 만점)의 250개의 고품질 분류가 최종 선정되었습니다.
그런 다음 각 카테고리에서 2개의 팁을 무작위로 선택하여 이 벤치마크 버전인 Arena-Hard-v0.1을 구성했습니다.
시험 채점자는 신뢰할 수 있나요?
이제 시험지가 나왔으니 누가 심사할지가 문제입니다.
물론 수동 작업이 가장 정확하며 이는 "하드 모드"이기 때문에 도메인 지식과 관련된 많은 문제는 여전히 전문가의 평가가 필요합니다. 이는 분명히 불가능합니다.
그럼 차선책은 현재 시험교사로 인정받고 있는 가장 똑똑한 모델인 GPT-4를 선택하는 것입니다.
예를 들어 위 차트에서 채점의 모든 측면은 GPT-4에 의해 수행됩니다. 또한 연구원들은 CoT를 사용하여 LLM이 판결을 내리기 전에 답변을 생성하도록 유도했습니다.
GPT-4 판단 결과
다음은 판단 모델로 gpt-4-1106-preview를 사용하고, 비교를 위한 기준선은 gpt-4-0314를 사용합니다.
사진
위 표에서 각 모델의 브래들리-테리 계수를 비교 계산하여 기준점 대비 승률로 환산하여 최종 점수로 삼았습니다. 100회의 부트스트래핑을 통해 95% 신뢰구간을 계산했습니다.
Claude가 불만을 표시했습니다
——나 Claude-3 Opus도 공동 1위를 차지했습니다. 왜 GPT를 심사위원으로 두어야 할까요?
그래서 연구원들은 GPT-4-1106-Preview와 Claude-3 Opus의 마킹 교사로서의 성과를 비교했습니다.
한 문장으로 요약: GPT-4는 엄격한 아버지이고 클로드-3은 다정한 어머니입니다.
이미지
GPT-4를 사용하여 점수를 매길 때 모델 간 분리성이 더 높습니다(23.0~78.0 범위).
Claude-3을 사용하면서 대부분의 모델의 점수가 많이 향상되었습니다. 자체 모델을 관리해야 하고 오픈 소스 모델(Mixtral, Yi, Starling)도 좋아합니다. gpt-4-0125-preview 또한 나보다 낫습니다.
Claude-3은 심지어 gpt-4-0613보다 gpt-3.5-0613을 더 좋아합니다.
아래 표에서는 분리성 및 일관성 측정 항목을 사용하여 GPT-4와 Claude-3을 추가로 비교합니다.
사진
결과 데이터에서 GPT-4는 모든 측정 항목에서 더 잘 나타납니다.
GPT-4와 Claude-3의 다양한 판단 사례를 수동으로 비교함으로써 두 LLM이 동의하지 않는 경우 일반적으로 두 가지 주요 범주로 나눌 수 있음을 알 수 있습니다.
보수적 점수와 보수적 점수 서로 다른 견해 사용자 프롬프트.
Claude-3-Opus는 점수를 주는 데 더 관대하며 가혹한 점수를 줄 가능성이 훨씬 적습니다. 특히 한 답변이 다른 답변보다 "훨씬 낫다"고 주장하는 것을 주저합니다.
반면, GPT-4-Turbo는 모델 응답의 오류를 식별하고 상당히 낮은 점수로 모델에 페널티를 줍니다.
반면 Claude-3-Opus는 때때로 작은 오류를 무시합니다. Claude-3-Opus는 이러한 오류를 발견하더라도 이를 사소한 문제로 처리하는 경향이 있으며 채점 과정에서 매우 관대합니다.
작은 실수가 실제로 최종 답을 완전히 망칠 수 있는 코딩 및 수학 문제에서도 Claude-3-Opus는 이러한 실수를 관대하게 처리하지만 GPT-4-Turbo는 그렇지 않습니다.
Pictures
또 다른 작은 팁의 경우 Claude-3-Opus와 GPT-4-Turbo는 근본적으로 다른 관점에서 평가됩니다.
예를 들어 코딩 문제가 있는 경우 Claude-3-Opus는 외부 라이브러리에 의존하지 않는 간단한 구조를 선호하므로 사용자에게 최대 교육적 가치의 응답을 제공할 수 있습니다.
그리고 GPT-4-Turbo는 사용자에 대한 교육적 가치에 관계없이 가장 실용적인 답변을 제공하는 응답을 우선시할 수 있습니다.
두 해석 모두 유효한 판단 기준이지만 GPT-4-Turbo의 견해는 일반 사용자의 견해에 더 가까울 수 있습니다.
다양한 판단의 구체적인 예를 보려면 아래 이미지를 참조하세요. 그 중 다수는 이러한 현상을 나타냅니다.
Pictures
제한된 테스트
LLM 더 긴 답변을 원하시나요?
MT-Bench와 Arena-Hard-v0.1에서 각 모델의 평균 토큰 길이와 점수는 아래와 같습니다. 시각적으로 분수와 길이 사이에는 강한 상관 관계가 없습니다.
Pictures
잠재적인 장황 편향을 더 자세히 조사하기 위해 연구원들은 GPT-3.5-Turbo를 사용하여 세 가지 시스템 프롬프트(원시, 수다, 장황)를 제거했습니다.
결과에 따르면 GPT-4-Turbo와 Claude-3-Opus의 판단은 모두 긴 출력에 의해 영향을 받을 수 있는 반면 Claude는 더 많은 영향을 받는 것으로 나타났습니다(GPT-3.5-Turbo의 GPT-4-0314에 대한 판단이 승률이 40%를 초과합니다.)
흥미롭게도 "대화적"은 두 심사위원의 승률에 거의 영향을 미치지 않았으며, 이는 출력 길이가 유일한 요인이 아니며 LLM 심사위원이 더 자세한 답변을 선호할 수도 있음을 나타냅니다.
Pictures
실험 팁:
detailed: 당신은 가능한 한 자세하게 설명하는 도움이 되는 조수입니다.
chatty: 당신은 수다스러운 도움이 되는 조수입니다.
GPT-4 판단의 차이
연구원들은 온도 = 0에서도 GPT-4-Turbo가 여전히 약간 다른 판단을 내릴 수 있다는 것을 발견했습니다.
gpt-3.5-turbo-0125에 대한 다음 판단을 3번 반복하여 분산을 계산합니다.
Pictures
제한된 예산으로 인해 모든 모델에 대한 평가는 여기서만 이루어집니다. 그러나 저자는 모델 분리를 결정하기 위해 신뢰 구간을 사용할 것을 권장합니다.
참조: https://www.php.cn/link/6e361e90ca5f9bee5b36f3d413c51842
위 내용은 크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











번역기 | Bugatti 리뷰 | Chonglou 이 문서에서는 GroqLPU 추론 엔진을 사용하여 JanAI 및 VSCode에서 초고속 응답을 생성하는 방법을 설명합니다. 모두가 AI의 인프라 측면에 초점을 맞춘 Groq와 같은 더 나은 대규모 언어 모델(LLM)을 구축하기 위해 노력하고 있습니다. 이러한 대형 모델의 빠른 응답은 이러한 대형 모델이 더 빠르게 응답하도록 보장하는 핵심입니다. 이 튜토리얼에서는 GroqLPU 구문 분석 엔진과 API 및 JanAI를 사용하여 노트북에서 로컬로 액세스하는 방법을 소개합니다. 이 기사에서는 코드 생성, 코드 리팩터링, 문서 입력 및 테스트 단위 생성을 돕기 위해 이를 VSCode에 통합합니다. 이 기사에서는 우리만의 인공 지능 프로그래밍 도우미를 무료로 만들 것입니다. GroqLPU 추론 엔진 Groq 소개

기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

테렌스 타오(Terence Tao)를 비롯한 많은 수학자들이 극찬한 공식 수학 도구인 LeanCopilot이 다시 진화했다고요? 방금 Caltech 교수인 Anima Anandkumar는 팀이 LeanCopilot 논문의 확장 버전을 출시하고 코드 기반을 업데이트했다고 발표했습니다. 이미지 논문 주소: https://arxiv.org/pdf/2404.12534.pdf 최신 실험에 따르면 이 Copilot 도구는 수학적 증명 단계의 80% 이상을 자동화할 수 있는 것으로 나타났습니다! 이 기록은 이전 베이스라인 이솝보다 2.3배 향상된 기록이다. 그리고 이전과 마찬가지로 MIT 라이선스에 따른 오픈 소스입니다. 사진 속 그는 중국 소년 송페이양이다.

Plaud Note AI Voice Recorder(Amazon에서 159달러에 구매 가능)를 개발한 회사인 Plaud가 신제품을 발표했습니다. NotePin이라고 불리는 이 장치는 AI 메모리 캡슐로 설명되며 Humane AI Pin과 마찬가지로 착용 가능합니다. 노트핀은

지연이 발생하고 iPhone의 모바일 데이터 연결 속도가 느립니까? 일반적으로 휴대폰의 셀룰러 인터넷 강도는 지역, 셀룰러 네트워크 유형, 로밍 유형 등과 같은 여러 요소에 따라 달라집니다. 더 빠르고 안정적인 셀룰러 인터넷 연결을 얻기 위해 할 수 있는 일이 몇 가지 있습니다. 수정 1 – iPhone 강제 다시 시작 때로는 장치를 강제로 다시 시작하면 셀룰러 연결을 포함한 많은 항목이 재설정됩니다. 1단계 – 볼륨 높이기 키를 한 번 눌렀다가 놓습니다. 그런 다음 볼륨 작게 키를 눌렀다가 다시 놓습니다. 2단계 - 프로세스의 다음 부분은 오른쪽에 있는 버튼을 누르는 것입니다. iPhone이 다시 시작되도록 하세요. 셀룰러 데이터를 활성화하고 네트워크 속도를 확인하세요. 다시 확인하세요 수정 2 – 데이터 모드 변경 5G는 더 나은 네트워크 속도를 제공하지만 신호가 약할 때 더 잘 작동합니다

AIGC에 대해 자세히 알아보려면 다음을 방문하세요. 51CTOAI.x 커뮤니티 https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou는 인터넷 어디에서나 볼 수 있는 전통적인 문제 은행과 다릅니다. 고정관념에서 벗어나 생각해야 합니다. LLM(대형 언어 모델)은 데이터 과학, 생성 인공 지능(GenAI) 및 인공 지능 분야에서 점점 더 중요해지고 있습니다. 이러한 복잡한 알고리즘은 인간의 기술을 향상시키고 많은 산업 분야에서 효율성과 혁신을 촉진하여 기업이 경쟁력을 유지하는 데 핵심이 됩니다. LLM은 자연어 처리, 텍스트 생성, 음성 인식 및 추천 시스템과 같은 분야에서 광범위하게 사용될 수 있습니다. LLM은 대량의 데이터로부터 학습하여 텍스트를 생성할 수 있습니다.

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

GraphRAG(Graph Retrieval Enhanced Generation)는 점차 대중화되고 있으며 기존 벡터 검색 방법을 강력하게 보완하는 수단이 되었습니다. 이 방법은 그래프 데이터베이스의 구조적 특성을 활용하여 데이터를 노드와 관계의 형태로 구성함으로써 검색된 정보의 깊이와 맥락적 관련성을 향상시킵니다. 그래프는 다양하고 상호 연관된 정보를 표현하고 저장하는 데 자연스러운 이점을 가지며, 다양한 데이터 유형 간의 복잡한 관계와 속성을 쉽게 캡처할 수 있습니다. 벡터 데이터베이스는 이러한 유형의 구조화된 정보를 처리할 수 없으며 고차원 벡터로 표현되는 구조화되지 않은 데이터를 처리하는 데 더 중점을 둡니다. RAG 애플리케이션에서 구조화된 그래프 데이터와 구조화되지 않은 텍스트 벡터 검색을 결합하면 이 기사에서 논의할 내용인 두 가지 장점을 동시에 누릴 수 있습니다. 구조
