Billionen von Token! Die Geburt des größten multimodalen Datensatzes der Geschichte-KI-php.cn

Billionen von Token! Die Geburt des größten multimodalen Datensatzes der Geschichte

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Freigeben： 2024-07-28 09:38:23

Original

932 Leute haben es durchsucht

Multimodale Open-Source-Großmodelle könnten auf dem Vormarsch sein.

Billionen von Token! Die Geburt des größten multimodalen Datensatzes der Geschichte

Llama 3.1이 헤드라인을 장식하는 동안 또 다른 매우 중요한 릴리스가 갑자기 나타났습니다. 바로 전례 없는 규모의 오픈 소스 다중 모드 데이터 세트입니다.

대형 모델의 경우 데이터 세트의 중요성은 말할 필요도 없이 대규모 데이터 세트 없이는 대형 모델을 갖는 것이 불가능하다고 할 수도 있습니다. 이제 대규모 다중 모드 모델(LMM)의 개발이 호황을 누리고 있는 시대입니다. 충분히 큰 규모의 고품질 오픈 소스 다중 모드 데이터 세트가 이 분야에서 "엄격한 요구"가 되었습니다.

그러나 기존 오픈 소스 다중 모드 데이터 세트는 오픈 소스 텍스트 데이터 세트에 비해 규모가 더 작고 다양성도 떨어지며, 소스는 기본적으로 HTML 문서이므로 데이터의 폭과 다양성이 제한됩니다. 이는 의심할 여지 없이 오픈 소스 LMM의 개발을 제한하고 오픈 소스 LMM과 폐쇄 소스 LMM 간의 차이를 매우 크게 만듭니다.

최근 워싱턴 대학, Salesforce Research, 스탠포드 대학의 공동 팀이 이러한 격차를 메우고 1조 토큰 수준의 인터리브 다중 모드 오픈 소스 데이터 세트 MINT-1T(Multimodal INTerleaved)를 구축했습니다. 의심의 여지 없이 이는 현재 사용 가능한 가장 큰 오픈 소스 다중 모드 데이터 세트입니다.

Billionen von Token! Die Geburt des größten multimodalen Datensatzes der Geschichte

데이터 세트 주소: https://github.com/mlfoundations/MINT-1T
논문 주소: https://arxiv.org/abs/2406.11271
논문 제목: MINT - 1T: 오픈 소스 다중 모드 데이터를 10배로 확장: 1조 개의 토큰이 포함된 다중 모드 데이터 세트

MINT-1T에는 총 1조 개의 텍스트 토큰과 30억 개의 이미지가 포함되어 있으며 HTML/PDF/ArXiv 및 다른 많은 소스. MINT-1T가 등장하기 전에 이 분야에서 가장 큰 오픈 소스 데이터 세트는 OBELICS였으며, 여기에는 1,150억 개의 텍스트 토큰과 3억 5,300만 개의 이미지가 포함되어 있었고 소스는 HTML뿐이었습니다. 그림 1은 이러한 데이터 세트를 비교합니다.

데이터세트 구성

먼저 팀은 다양한 소스(HTML, PDF, ArXiv 포함)에서 대량의 다중 모드 데이터를 수집했습니다. 그림 2는 다음의 다중 모드 데이터를 보여줍니다. 이러한 다양한 소스.

그런 다음 데이터 품질과 보안을 향상하기 위해 텍스트 품질 필터링, 이미지 필터링, 보안 필터링(NSFW 이미지 및 개인 식별 정보 제거 포함) 및 중복 제거를 수행했습니다. 그림 3은 이러한 데이터 필터링 프로세스를 간략하게 보여줍니다.

결국 그들이 획득한 MINT-1T 데이터 세트에는 9220억 개의 HTML 토큰, 1060억 개의 PDF 토큰 및 90억 개의 ArXiv 토큰이 포함되었습니다. 전체 데이터 처리 프로세스에 약 420만 CPU 시간이 소비되었다는 점은 주목할 가치가 있습니다. 표 1은 몇 가지 일반적인 오픈 소스 또는 비공개 소스 다중 모드 데이터 세트를 비교합니다.

모델 실험

팀은 또한 이 데이터 세트를 사용하여 다중 모드 모델을 훈련하고 다른 데이터 세트와 비교하는 효과를 실험했습니다.

그들이 사용한 모델 아키텍처는 Salesforce의 XGen-MM이며, 그들이 평가하는 것은 데이터 세트에 대한 학습 후 모델의 상황 학습 및 다중 이미지 추론 기능입니다. 평가 벤치마크에는 시각적 설명 벤치마크(COCO 및 TextCaps), 시각적 질문 답변 벤치마크(VQAv2, OK-VQA, TextVQA 및 VizWiz), 다중 이미지 추론 벤치마크(MMMU 및 Mantis-Eval)가 포함됩니다.

실험 결과

HTML 문서 교육

팀은 먼저 MINT-1T의 HTML 부분을 OBELICS와 비교했습니다. 왜냐하면 OBELICS는 이전의 주요 다중 모드 데이터 세트이고 또한 기반이기 때문입니다. HTML 문서에서 이 두 데이터 세트를 기반으로 100억 개의 다중 모드 토큰으로 두 모델을 훈련하고 컨텍스트 학습 성능을 평가했습니다.

표 2는 일반적인 벤치마크에서 4샷과 8샷 성능을 보여줍니다.

VQA(시각적 질문 답변) 작업의 경우 MINT-1T HTML 문서로 훈련된 모델이 OBELICS로 훈련된 모델보다 성능이 우수하지만 시각적 설명 작업에서는 전자의 성능이 떨어지는 것을 볼 수 있습니다. 평균적으로 OBELICS는 MINT-1T(HTML)보다 약간 더 좋습니다.

PDF 및 ArXiv 문서 추가

이후 팀은 HTML, PDF 및 ArXiv 문서가 동시에 포함된 MINT-1T 전체 데이터 세트를 테스트했습니다. 그들은 일반적으로 100억 개의 다중 모드 토큰을 샘플링하는데, 50%는 HTML에서, 45%는 PDF에서, 5%는 ArXiv에서 샘플링합니다.

결과는 표 2에도 나와 있습니다. 대부분의 벤치마크에서 MINT-1T 혼합 데이터로 훈련한 모델이 OBELICS 및 MINT-1T(HTML)로 훈련한 모델보다 성능이 우수하다는 것을 알 수 있습니다.

표 3에 표시된 것처럼 보다 복잡한 다중 모드 추론 작업에서는 MINT-1T로 훈련된 모델이 MMMU에서 OBELICS로 훈련된 모델보다 우수하지만 Mantis-Eval 벤치마크만큼 좋지는 않습니다. 후자.

보다 세부적인 테스트와 모델 아키텍처의 영향에 대해서는 원본 논문을 참조하세요.

이 초대형 오픈 소스 다중 모드 데이터 세트가 일련의 전설의 출발점이 되어 결국 Llama 모델 시리즈와 같은 다중 모드 대형 모델 시리즈를 만들 수 있습니까? 기다리고 보자.

Das obige ist der detaillierte Inhalt vonBillionen von Token! Die Geburt des größten multimodalen Datensatzes der Geschichte. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!