'건초더미에서 바늘찾기'가 나왔습니다! Goose Factory에서 '별 세기'를 통해 텍스트 길이를 더욱 정확하게 측정할 수 있게 되었습니다.-일체 포함-php.cn

'건초 더미에서 바늘 찾기'보다 더 정확함

GPT-4와 키미는 구별이 불가능합니다

한 가지 더

집

기술 주변기기

일체 포함

'건초더미에서 바늘찾기'가 나왔습니다! Goose Factory에서 '별 세기'를 통해 텍스트 길이를 더욱 정확하게 측정할 수 있게 되었습니다.

PHPz

Apr 02, 2024 am 11:55 AM

시험 오픈 소스

대형 모델의 긴 텍스트 능력을 테스트하는 새로운 방법이 있습니다!

Tencent MLPD Lab은 새로운 오픈 소스 "Counting Stars" 방법을 사용하여 전통적인 "건초 더미 속의 바늘" 테스트를 대체합니다.

반대로, 새로운 방법 은 긴 종속성을 처리하는 모델의 능력 을 검사하는 데 더 많은 관심을 기울이고 모델 평가가 더 포괄적이고 정확합니다.

건초더미에서 바늘찾기가 나왔습니다! Goose Factory에서 별 세기를 통해 텍스트 길이를 더욱 정확하게 측정할 수 있게 되었습니다.

이 방법을 사용하여 연구진은 GPT-4와 국내 유명 키미채팅에 대해 '별 세기' 테스트를 진행했습니다.

결과적으로 서로 다른 실험 조건에서 두 모델은 각각의 장점과 단점이 있지만 둘 다 강력한 긴 텍스트 기능을 보여줍니다.

건초더미에서 바늘찾기가 나왔습니다! Goose Factory에서 별 세기를 통해 텍스트 길이를 더욱 정확하게 측정할 수 있게 되었습니다.

Δ가로축은 2를 밑으로 하는 로그 좌표입니다

그럼 "별 세기"는 어떤 테스트인가요?

'건초 더미에서 바늘 찾기'보다 더 정확함

먼저, 연구원들은 테스트 중에 긴 텍스트를 선택하여 최대 128k까지 길이를 늘렸습니다.

그런 다음 다양한 시험 난이도 요구 사항에 따라 전체 텍스트가 N개의 단락으로 나뉘고 그 안에 "별"이 포함된 M개의 문장이 삽입됩니다 .

건초더미에서 바늘찾기가 나왔습니다! Goose Factory에서 별 세기를 통해 텍스트 길이를 더욱 정확하게 측정할 수 있게 되었습니다.

실험 중에 연구원들은 "빨간 저택의 꿈"을 맥락 텍스트로 선택하고 "꼬마 펭귄이 x개의 별을 세었다"와 같은 문장을 추가했는데, 각 문장의 x가 달랐습니다.

건초더미에서 바늘찾기가 나왔습니다! Goose Factory에서 별 세기를 통해 텍스트 길이를 더욱 정확하게 측정할 수 있게 되었습니다.

그런 다음 모델은 그러한 문장을 모두 찾아 모든 숫자를 출력하고 그 안의 숫자만 JSON 형식으로 출력하도록 요청받습니다.

건초더미에서 바늘찾기가 나왔습니다! Goose Factory에서 별 세기를 통해 텍스트 길이를 더욱 정확하게 측정할 수 있게 되었습니다.

연구원들은 모델의 출력을 얻은 후 이 숫자를 Ground Truth와 비교하고 최종적으로 모델 출력의 정확도를 계산합니다.

이전의 "건초 더미 속의 바늘" 테스트와 비교할 때 이 "별 개수 세기" 방법은 긴 종속성을 처리하는 모델의 능력을 더 잘 반영합니다.

간단히 말하면, "건초 더미"에 여러 개의 "바늘"을 삽입한다는 것은 여러 단서를 삽입한 다음 대형 모델이 일련의 여러 단서를 찾아 추론하고 최종 답을 얻도록 하는 것을 의미합니다.

그러나 실제 "건초 더미에서 많은 바늘 찾기" 테스트에서는 모델이 질문에 올바르게 대답하기 위해 모든 "바늘"을 찾을 필요가 없으며 때로는 마지막 바늘만 찾으면 되는 경우도 있습니다.

건초더미에서 바늘찾기가 나왔습니다! Goose Factory에서 별 세기를 통해 텍스트 길이를 더욱 정확하게 측정할 수 있게 되었습니다.

하지만 "별 개수"는 다릅니다. 각 문장의 "별" 개수가 다르기 때문에 모델은 질문에 올바르게 답하려면 모든 별을 찾아야 합니다.

간단해 보이지만 적어도 다중 "바늘" 작업의 경우 "별 세기"는 모델의 긴 텍스트 기능을 더 정확하게 반영합니다.

그렇다면, 가장 먼저 'Counting Stars' 테스트를 받은 대형 모델은 누구였나요?

GPT-4와 키미는 구별이 불가능합니다

이번 테스트에 참가한 대형 모델은 GPT-4와 장문 기능으로 유명한 국내 대형 모델인 키미입니다.

"별" 개수와 텍스트 세분성이 모두 32일 때 GPT-4의 정확도는 96.8%에 도달하고 Kimi는 86.4%에 도달합니다.

건초더미에서 바늘찾기가 나왔습니다! Goose Factory에서 별 세기를 통해 텍스트 길이를 더욱 정확하게 측정할 수 있게 되었습니다.

하지만 "별"을 64개로 늘렸을 때 키미의 정확도는 93.1%로 GPT-4를 89.7%로 넘어섰습니다.

건초더미에서 바늘찾기가 나왔습니다! Goose Factory에서 별 세기를 통해 텍스트 길이를 더욱 정확하게 측정할 수 있게 되었습니다.

16개로 줄였을 때도 키미의 성능이었습니다. GPT-4보다 약간 낫습니다.

건초더미에서 바늘찾기가 나왔습니다! Goose Factory에서 별 세기를 통해 텍스트 길이를 더욱 정확하게 측정할 수 있게 되었습니다.

분할의 세분화도 모델의 성능에 어느 정도 영향을 미칩니다. "별"도 32번 나타나면 세분화가 32에서 16으로 변경됩니다. GPT-4의 점수는 증가한 반면 Kimi는 감소했습니다.

건초더미에서 바늘찾기가 나왔습니다! Goose Factory에서 별 세기를 통해 텍스트 길이를 더욱 정확하게 측정할 수 있게 되었습니다.

위 테스트에서 "별"의 수가 순차적으로 증가했다는 점에 유의해야 하지만 연구원들은 이 경우 대형 모델이 "게으름"을 좋아한다는 것을 곧 발견했습니다. -

모델이 별의 수가 증가하면 구간 내의 숫자가 무작위로 생성되더라도 대형 모델의 민감도가 증가하는 것으로 나타났습니다.

예: 모델은 24, 10, 3, 1145, 9, 114514

보다 3, 9, 10, 24, 1145, 114514의 증가 수열에 더 민감합니다. 그래서 연구원들은 의도적으로 순서를 변경했습니다. 중단되고 다시 테스트되었습니다.

건초더미에서 바늘찾기가 나왔습니다! Goose Factory에서 별 세기를 통해 텍스트 길이를 더욱 정확하게 측정할 수 있게 되었습니다.

교란 이후 GPT-4와 Kimi의 성능은 크게 떨어졌지만 정확도는 8.6%포인트 차이로 여전히 60% 이상이었습니다.

건초더미에서 바늘찾기가 나왔습니다! Goose Factory에서 별 세기를 통해 텍스트 길이를 더욱 정확하게 측정할 수 있게 되었습니다.

한 가지 더

이 방법의 정확성은 아직 테스트하는 데 시간이 필요할 수 있지만 이름이 정말 좋다고 말씀드리고 싶습니다.

건초더미에서 바늘찾기가 나왔습니다! Goose Factory에서 별 세기를 통해 텍스트 길이를 더욱 정확하게 측정할 수 있게 되었습니다.

△영어 노래 Counting Stars 가사

네티즌들은 대형 모델에 대한 연구가 점점 더 마법처럼 변하고 있다는 사실에 한숨을 쉬지 않을 수 없습니다.

건초더미에서 바늘찾기가 나왔습니다! Goose Factory에서 별 세기를 통해 텍스트 길이를 더욱 정확하게 측정할 수 있게 되었습니다.

그러나 마술 뒤에는 사람들이 대규모 모델의 장기 컨텍스트 처리 기능과 성능을 완전히 이해하지 못한다는 사실도 보여줍니다.

몇일 전, 다수의 대형 모델 제조사들이 모델 출시를 발표했습니다 (모두 컨텍스트 창을 기반으로 한 것은 아니지만) 최대 수천만 개의 매우 긴 텍스트를 처리할 수 있지만 실제 성능은 여전히 낮습니다. 알려지지 않은.

Counting Stars의 등장은 이러한 모델의 실제 성능을 이해하는 데 도움이 될 수 있습니다.

그럼 다른 어떤 모델의 테스트 결과도 보고 싶으신가요?

논문 주소: https://arxiv.org/abs/2403.11802
GitHub: https://github.com/nick7nlp/Counting-Stars

위 내용은 '건초더미에서 바늘찾기'가 나왔습니다! Goose Factory에서 '별 세기'를 통해 텍스트 길이를 더욱 정확하게 측정할 수 있게 되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

뜨거운 도구

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7540

Cakephp 튜토리얼

1381

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

10가지 권장 오픈 소스 무료 텍스트 주석 도구 Mar 26, 2024 pm 08:20 PM

텍스트 주석은 텍스트의 특정 내용에 해당하는 레이블이나 태그를 추가하는 작업입니다. 주요 목적은 특히 인공 지능 분야에서 더 심층적인 분석 및 처리를 위해 텍스트에 추가 정보를 제공하는 것입니다. 텍스트 주석은 인공 지능 애플리케이션의 지도형 기계 학습 작업에 매우 중요합니다. 자연어 텍스트 정보를 보다 정확하게 이해하고 텍스트 분류, 감정 분석, 언어 번역 등의 작업 성능을 향상시키기 위해 AI 모델을 훈련하는 데 사용됩니다. 텍스트 주석을 통해 우리는 AI 모델이 텍스트의 개체를 인식하고, 맥락을 이해하고, 새로운 유사한 데이터가 나타날 때 정확한 예측을 하도록 가르칠 수 있습니다. 이 기사에서는 주로 더 나은 오픈 소스 텍스트 주석 도구를 권장합니다. 1.라벨스튜디오https://github.com/Hu

15가지 추천 오픈 소스 무료 이미지 주석 도구 Mar 28, 2024 pm 01:21 PM

이미지 주석은 이미지 콘텐츠에 더 깊은 의미와 설명을 제공하기 위해 이미지에 레이블이나 설명 정보를 연결하는 프로세스입니다. 이 프로세스는 비전 모델을 훈련하여 이미지의 개별 요소를 보다 정확하게 식별하는 데 도움이 되는 기계 학습에 매우 중요합니다. 이미지에 주석을 추가함으로써 컴퓨터는 이미지 뒤의 의미와 맥락을 이해할 수 있으므로 이미지 내용을 이해하고 분석하는 능력이 향상됩니다. 이미지 주석은 컴퓨터 비전, 자연어 처리, 그래프 비전 모델 등 다양한 분야를 포괄하여 차량이 도로의 장애물을 식별하도록 지원하는 등 광범위한 애플리케이션을 보유하고 있습니다. 의료영상인식을 통한 질병진단. 이 기사에서는 주로 더 나은 오픈 소스 및 무료 이미지 주석 도구를 권장합니다. 1.마케센스

Furmark에 대해 어떻게 생각하시나요? - Furmark는 어떻게 자격을 갖춘 것으로 간주됩니까? Mar 19, 2024 am 09:25 AM

Furmark에 대해 어떻게 생각하시나요? 1. 메인 인터페이스에서 "실행 모드"와 "디스플레이 모드"를 설정하고 "테스트 모드"도 조정한 후 "시작" 버튼을 클릭하세요. 2. 잠시 기다리면 그래픽 카드의 다양한 매개변수를 포함한 테스트 결과가 표시됩니다. Furmark는 어떻게 자격을 갖추었나요? 1. 푸르마크 베이킹 머신을 사용하여 약 30분 동안 결과를 확인합니다. 기본적으로 85도 정도, 최고 온도는 87도, 실내 온도는 19도입니다. 대형 섀시에 섀시 팬 포트 5개 전면 2개, 상단 2개, 후면 1개로 구성됐으나 팬은 1개만 설치됐다. 모든 액세서리는 오버클럭되지 않습니다. 2. 정상적인 상황에서 그래픽 카드의 정상 온도는 "30-85℃" 사이여야 합니다. 3. 주변온도가 너무 높은 여름에도 정상온도는 "50~85℃"

권장 사항: 우수한 JS 오픈 소스 얼굴 감지 및 인식 프로젝트 Apr 03, 2024 am 11:55 AM

얼굴 검출 및 인식 기술은 이미 상대적으로 성숙하고 널리 사용되는 기술입니다. 현재 가장 널리 사용되는 인터넷 응용 언어는 JS입니다. 웹 프런트엔드에서 얼굴 감지 및 인식을 구현하는 것은 백엔드 얼굴 인식에 비해 장점과 단점이 있습니다. 장점에는 네트워크 상호 작용 및 실시간 인식이 줄어 사용자 대기 시간이 크게 단축되고 사용자 경험이 향상된다는 단점이 있습니다. 모델 크기에 따라 제한되고 정확도도 제한됩니다. js를 사용하여 웹에서 얼굴 인식을 구현하는 방법은 무엇입니까? 웹에서 얼굴 인식을 구현하려면 JavaScript, HTML, CSS, WebRTC 등 관련 프로그래밍 언어 및 기술에 익숙해야 합니다. 동시에 관련 컴퓨터 비전 및 인공지능 기술도 마스터해야 합니다. 웹 측면의 디자인으로 인해 주목할 가치가 있습니다.

대형 모델을 이해하는 Alibaba 7B 다중 모드 문서, 새로운 SOTA 획득 Apr 02, 2024 am 11:31 AM

다중 모드 문서 이해 기능을 위한 새로운 SOTA! Alibaba mPLUG 팀은 최신 오픈 소스 작업인 mPLUG-DocOwl1.5를 출시했습니다. 이 작품은 고해상도 이미지 텍스트 인식, 일반 문서 구조 이해, 지침 따르기, 외부 지식 도입이라는 4가지 주요 과제를 해결하기 위한 일련의 솔루션을 제안했습니다. 더 이상 고민하지 말고 먼저 효과를 살펴보겠습니다. 복잡한 구조의 차트도 한 번의 클릭으로 인식하고 마크다운 형식으로 변환 가능: 다양한 스타일의 차트 사용 가능: 보다 자세한 텍스트 인식 및 위치 지정도 쉽게 처리 가능: 문서 이해에 대한 자세한 설명도 제공 가능: 아시다시피, " 문서 이해"는 현재 대규모 언어 모델 구현을 위한 중요한 시나리오입니다. 시장에는 문서 읽기를 지원하는 많은 제품이 있습니다. 그 중 일부는 주로 텍스트 인식을 위해 OCR 시스템을 사용하고 텍스트 처리를 위해 LLM을 사용합니다.

방금 출시되었습니다! 한 번의 클릭으로 애니메이션 스타일의 이미지를 생성할 수 있는 오픈 소스 모델 Apr 08, 2024 pm 06:01 PM

최신 AIGC 오픈소스 프로젝트인 AnimagineXL3.1을 소개하겠습니다. 이 프로젝트는 사용자에게 더욱 최적화되고 강력한 애니메이션 이미지 생성 경험을 제공하는 것을 목표로 하는 애니메이션 테마의 텍스트-이미지 모델의 최신 버전입니다. AnimagineXL3.1에서 개발 팀은 모델이 성능과 기능 면에서 새로운 수준에 도달할 수 있도록 여러 주요 측면을 최적화하는 데 중점을 두었습니다. 첫째, 이전 버전의 게임 캐릭터 데이터뿐만 아니라 다른 많은 유명 애니메이션 시리즈의 데이터도 훈련 세트에 포함하도록 훈련 데이터를 확장했습니다. 이러한 움직임은 모델의 지식 기반을 풍부하게 하여 다양한 애니메이션 스타일과 캐릭터를 더 완벽하게 이해할 수 있게 해줍니다. AnimagineXL3.1은 새로운 특수 태그 및 미학 세트를 소개합니다.

단일 카드는 듀얼 카드보다 Llama를 70B 더 빠르게 실행합니다. Microsoft는 A100에 FP6을 넣었습니다 | Apr 29, 2024 pm 04:55 PM

FP8 이하의 부동 소수점 수량화 정밀도는 더 이상 H100의 "특허"가 아닙니다! Lao Huang은 모든 사람이 INT8/INT4를 사용하기를 원했고 Microsoft DeepSpeed 팀은 NVIDIA의 공식 지원 없이 A100에서 FP6을 실행하기 시작했습니다. 테스트 결과에 따르면 A100에 대한 새로운 방법 TC-FPx의 FP6 양자화는 INT4에 가깝거나 때로는 더 빠르며 후자보다 정확도가 더 높은 것으로 나타났습니다. 또한 오픈 소스로 제공되고 DeepSpeed와 같은 딥 러닝 추론 프레임워크에 통합된 엔드투엔드 대규모 모델 지원도 있습니다. 이 결과는 대형 모델 가속화에도 즉각적인 영향을 미칩니다. 이 프레임워크에서는 단일 카드를 사용하여 Llama를 실행하면 처리량이 듀얼 카드보다 2.65배 더 높습니다. 하나

1.3ms는 1.3ms가 걸립니다! Tsinghua의 최신 오픈 소스 모바일 신경망 아키텍처 RepViT Mar 11, 2024 pm 12:07 PM

논문 주소: https://arxiv.org/abs/2307.09283 코드 주소: https://github.com/THU-MIG/RepViTRepViT는 모바일 ViT 아키텍처에서 잘 작동하며 상당한 이점을 보여줍니다. 다음으로, 본 연구의 기여를 살펴보겠습니다. 기사에서는 경량 ViT가 일반적으로 시각적 작업에서 경량 CNN보다 더 나은 성능을 발휘한다고 언급했는데, 그 이유는 주로 모델이 전역 표현을 학습할 수 있는 MSHA(Multi-Head Self-Attention 모듈) 때문입니다. 그러나 경량 ViT와 경량 CNN 간의 아키텍처 차이점은 완전히 연구되지 않았습니다. 본 연구에서 저자는 경량 ViT를 효과적인

See all articles

'건초더미에서 바늘찾기'가 나왔습니다! Goose Factory에서 '별 세기'를 통해 텍스트 길이를 더욱 정확하게 측정할 수 있게 되었습니다.

'건초 더미에서 바늘 찾기'보다 더 정확함

GPT-4와 키미는 구별이 불가능합니다

한 가지 더

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제