Common Crawl은 매월 업데이트 된 수십억 개의 웹 페이지를 집계하는 진정한 웹 스케일 데이터 세트를 제공합니다. 이 다양한 온라인 컨텐츠 수집은 강력한 언어 모델을 훈련시키는 데 매우 중요합니다. 언어 모델링에서 대규모 정보 검색으로 응용 프로그램을 전원합니다.
에 이상적 : 웹 스케일 언어 모델 구축, 정보 검색 및 검색 엔진 기능 향상, 온라인 컨텐츠 트렌드 및 사용자 동작 분석.
링크 : Common Crawl
-
Wikitext : 고품질 Wikipedia 데이터
Wikitext는 고품질 Wikipedia 기사를 활용하여 언어 모델링 데이터 세트를 만듭니다. 구조화 된 컨텐츠와 언어 복잡성은 모델, 특히 장거리 의존성을 마스터하기위한 도전적인 학습 환경을 제시합니다. wikitext-103이 이전 모델보다 훨씬 큰 다중 버전이 존재합니다.
에 이상적 : 교육 언어 모델은 장거리 상황에 중점을두고, 차세대 예측 및 텍스트 생성을 벤치마킹하고, 요약 및 번역을위한 미세 조정 모델.
링크 : wikitext 포옹
OpenWebText : webText 의 레크리에이션
OpenWebText는 Reddit 연결 웹 페이지에서 컴파일 된 OpenAi의 WebText 데이터 세트의 Open-Source 레크리에이션입니다. 이 다양한 고품질 온라인 텍스트 모음은 광범위한 언어 스타일과 현대 온라인 담론이 필요한 교육 모델에 가치가 있습니다.
에 이상적 : 다양한 온라인 텍스트를 사용한 웹 스케일 언어 모델 교육, 텍스트 생성 및 요약을위한 미세 조정 모델, 현재 웹 데이터를 사용한 자연 언어 이해 연구.
링크 : github 의 OpenWebText
laion-5b : 멀티 모달 거인
에 이상적 :
텍스트-이미지 생성 모델 교육, 멀티 모달 컨텐츠 합성 시스템 개발, 고급 이미지 캡션 및 시각적 스토리 텔링 응용 프로그램 작성.
링크 : laion-5b
<: :> MS Coco : 풍부하게 주석이 달린 이미지
MS Coco는 객체 감지, 세분화 및 캡션을위한 자세한 주석이있는 포괄적 인 이미지 모음을 제공합니다. 복잡성은 모델에 어려움을 겪고 시각적 장면에 대한 철저한 설명을 생성하고 이미지 이해 및 생성의 발전을 유도합니다.
에 이상적 : 강력한 객체 감지 및 세분화 모델 개발, 이미지 캡션 및 시각적 설명을위한 교육 모델, 컨텍스트 인식 이미지 합성 시스템 생성.
링크 : ms coco
개방형 이미지 데이터 세트 : 대규모 커뮤니티 노력
열린 이미지 데이터 세트는 레이블, 경계 상자 및 세분화 마스크가있는 대규모 커뮤니티 중심의 이미지 모음입니다. 광범위한 커버리지와 다양한 컨텐츠는 일반 목적 이미지 생성 및 인식 모델을 교육하는 데 이상적입니다. 에 이상적 : 일반 목적 이미지 생성 시스템 교육, 객체 감지 및 세분화 모델 향상, 강력한 이미지 인식 프레임 워크 구축.
링크 : 이미지 열기 데이터 세트
Redpajama-1t 및 Redpajama-v2 : Llama의 데이터를 재현하고 정제하는 것
redpajama-1t는 Llama의 사전 여파 데이터 세트의 오픈 소스 재생산이며 Redpajama-V2는 고품질 웹 데이터 및 다국어 지원에 중점을 두어이를 개선합니다. 둘 다 대형 언어 모델 사전 계통 및 데이터 세트 큐 레이션을위한 귀중한 리소스를 제공합니다.
에 이상적 : Llama의 교육 데이터 재생, 오픈 소스 LLM 전 사전 조정 및 다중 도메인/다국어 데이터 세트 큐 레이션.
링크 :
redpajama-1t, redpajama-v2
OpenAi WebGPT 데이터 세트 : 웹 상호 작용 데이터
OpenAi WebGPT 데이터 세트는 웹과 동적으로 상호 작용하는 AI 에이전트를 교육하는 데 중점을 둡니다. 여기에는 실제 웹 브라우징 상호 작용의 인간이 주석화 된 데이터가 포함되어 있으며, 검색-예방 생성 시스템을 개발하는 데 중요합니다.
에 이상적 :
웹 브라우징 및 정보 검색 에이전트 교육, 검색된 자연 언어 처리 시스템 개발, 웹 컨텐츠와 상호 작용하고 이해하는 AI의 능력 향상.
링크 : Openai WebGpt DataSet
Obsidian 에이전트 데이터 세트 : 시뮬레이션 된 의사 결정
흑요석 에이전트 데이터 세트는 합성 데이터를 사용하여 자율적 의사 결정, 복잡한 계획 및 AI 에이전트의 의사 결정 기술을 테스트하기위한 환경을 시뮬레이션합니다.
에 이상적 : 자율 의사 결정 모델 교육, 통제 된 환경에서 에이전트 기반 추론을 시뮬레이션하고 복잡한 AI 계획 작업을위한 합성 데이터 실험.
링크 :
흑요석 에이전트 데이터 세트
-
WebShop 데이터 세트 : 전자 상거래 상호 작용
WebShop 데이터 세트는 제품 설명, 사용자 상호 작용 로그 및 브라우징 패턴을 특징으로하는 전자 상거래 환경을 시뮬레이션합니다. 이는 제품 연구, 권장 사항 및 자동 구매를위한 지능형 에이전트를 개발하는 데 이상적입니다.
전자 상거래 내비게이션 및 제품 연구를위한 AI 에이전트 구축, 온라인 쇼핑객을위한 권장 시스템 개발 및 제품 비교 및 구매 결정 프로세스에 이상적입니다.
링크 :
WebShop 데이터 세트
메타 EAI 데이터 세트 (구체화 된 AI) : 로봇 및 가정 작업
메타 EAI 데이터 세트는 가상 및 실제 환경과 상호 작용하는 교육 AI 에이전트, 특히 로봇 공학 및 가정 작업 계획을 지원합니다. 에 이상적 : 실제 작업을위한 대화식 로봇 에이전트 교육, 가상 작업 계획 및 실행 시뮬레이션 및 가상 환경에서 구현 된 AI 애플리케이션 개발.
링크 : 메타 eai 데이터 세트
Mujoco : 현실적인 물리 시뮬레이션
Mujoco는 특히 로봇 공학의 현실적인 시뮬레이션을 만드는 물리 엔진입니다. 물리학 기반 환경에서 AI 모델이 복잡한 움직임 및 제어 작업을 배울 수 있도록합니다.
에 이상적 :
현실적인 로봇 시뮬레이션을위한 교육 모델, 시뮬레이션 된 환경에서 고급 제어 시스템 개발, 물리 기반 작업에 대한 AI 알고리즘 벤치마킹.
링크 : Mujoco
-
로봇 데이터 세트 : 실제 로봇 데이터
로봇 데이터 세트는 실제 센서 데이터 및 로봇 상호 작용을 캡처하여 구체화 된 AI 연구를위한 풍부한 맥락 정보를 제공합니다.
에 이상적 : 실제 로봇 상호 작용, 센서 기반 의사 결정 시스템 개발 및 동적 환경에서 구체화 된 AI 성능을위한 AI 교육.
링크 : 로봇 데이터 세트
Atari Games : 강화 학습 벤치 마크
Atari Games는 강화 학습 알고리즘을위한 고전적인 벤치 마크를 제공하여 순차적 의사 결정 작업을위한 게임 환경을 제공합니다.
에 이상적 : 벤치마킹 강화 학습 전략, 다양한 게임 환경에서 AI 성능 테스트 및 순차적 의사 결정을위한 알고리즘 개발.
링크 : atari 게임
웹 크롤링 상호 작용 : 실제 사용자 행동 데이터
-
웹 크롤링 상호 작용은 온라인 플랫폼에서 대규모 사용자 행동 데이터를 캡처하여 대화식 에이전트를 교육하고 실제 사용자 행동을 이해하기위한 통찰력을 제공합니다.
에 이상적 :
실제 사용자 행동을 기반으로하는 대화식 에이전트 교육, 동적 상호 작용 데이터를 갖춘 권장 시스템 강화 및 대화의 참여 동향 분석 AI.
링크 :
웹 크롤링 상호 작용
ai2 arc dataset : 상식 추론
AI2 아크 데이터 세트에는 AI의 상식 추론 및 문제 해결 능력을 평가하기 위해 도전적인 객관식 질문이 포함되어 있습니다.
에 이상적 : 상식 추론 기능 벤치마킹, 표준화 된 테스트 질문을 처리하기위한 교육 모델, AI 시스템에서 문제 해결 및 논리적 추론을 향상시킵니다.
링크 : ai2 아크 데이터 세트
-
MS Marco : 정보 검색 및 질문에 대한 질문
MS Marco는 Passage Ranking, 질문 답변 및 정보 검색, 교육 및 테스트 검색 세대 시스템을위한 대규모 데이터 세트입니다.
에 이상적 : 교육 검색 세대 (RAG) 모델, 고급 통로 순위 및 질문 응답 시스템 개발, 실제 데이터로 정보 검색 파이프 라인을 향상시킵니다.
링크 : ms marco
<: :> Openai Gym : 강화 학습 툴킷
OpenAi Gym은 강화 학습 알고리즘을 개발하고 벤치마킹하기위한 시뮬레이션 된 환경을 갖춘 표준화 된 툴킷입니다.
에 이상적 : 벤치마킹 강화 학습 알고리즘, 에이전트를위한 시뮬레이션 된 교육 환경 개발, 제어 된 시나리오에서 에이전트 행동의 빠른 프로토 타입.
링크 : Openai 체육관
요약 테이블
(원본과 유사한 데이터 세트를 요약하는 표는 여기에 포함됩니다.)
결론
논의 된 오픈 소스 데이터 세트는 고급 생성 및 에이전트 AI를 개발하기위한 강력한 토대를 제공합니다. 그들은 다양한 AI 도메인에서 혁신을 주도하는 데 필요한 규모와 다양성을 제공합니다. - .
자주 묻는 질문
(원본과 유사한 FAQ 섹션은 여기에 포함됩니다.)