20 ensembles de données les plus appréciés de HuggingFace-IA-php.cn

20 ensembles de données les plus appréciés de HuggingFace

尊渡假赌尊渡假赌尊渡假赌

Libérer： 2025-03-13 13:04:13

original

930 Les gens l'ont consulté

Les meilleurs ensembles de données de câlins de Face: alimenter l'innovation de l'IA

Hugging Face a récemment dévoilé ses ensembles de données les plus populaires, chacun jouant un rôle crucial dans la progression de l'intelligence artificielle. Ces ensembles de données s'adressent à une large gamme d'applications d'IA, de l'instruction suivant à une compréhension multimodale complexe. Ci-dessous, nous explorons ces ensembles de données, classés par le nombre de téléchargements.

20 ensembles de données les plus appréciés de HuggingFace

Table des matières

Fineweb-edu (HuggingFacefw)
TXT360 (LLM360)
Fineweb 2 (HuggingFacefw)
Corpus commun (Pleias)
Cosmopedia (HuggingFacetb)
Helpsteer2 (nvidia)
ORCA-ASENTINSTRUCT-1M-V1 (Microsoft)
SmoltalkDataset (HuggingFacetb)
FinePersonas (Argilla)
Finevideo (HuggingFacefv)
Infinity instruct (baai)
Personahub (Proj-Persona)
Posts de deux millions de bluesky (Alpin Dale)
xlam-fonction-appel-60k (Salesforce)
OpenO1-SFT (O1-Open)
Mmmlu (openai)
Frames (Google)
Raisonnement-base-20K (raccourci)
Arxiver (neuralwork)
5CD-AILLAVA-COT-O1-INSTRUCT (5CD-AI)
Articles connexes
Résumé

Faits saillants de l'ensemble de données:

Chaque entrée de jeu de données ci-dessous fournit des fonctionnalités clés, des cas d'utilisation et une fonctionnalité hors concours. Les liens vers la page de face étreintes pour chaque ensemble de données sont omis pour la concision mais sont facilement disponibles via une simple recherche en ligne.

Fineweb-edu (HuggingfaceFw): (likes: 573, téléchargements: 318 907) Contenu Web éducatif de haute qualité, filtré pour la compréhension du niveau collégial à l'école. Piltant: organisé pour les modèles académiques et de formation avancés.
TXT360 (LLM360): (Likes: 217, Downloads: 102,124) Un énorme corpus de jetons 15T, créé à l'aide de techniques de déduplication avancées. Piltant: Pipeline évolutif pour des données de haute qualité.
Fineweb 2 (HuggingFacefw): (Likes: 363, Téléchargements: 88 657) Ensemble de données multilingue prenant en charge plus de 1000 langues et scripts. Présentation: favorise l'inclusivité globale des PNL.
Corpus commun (Pleias): (likes: 196, téléchargements: 24 844) plus de 2 billions de jetons provenant de diverses sources, mettant l'accent sur les normes éthiques. Fait saillie: ressource de référence pour le développement robuste des modèles d'IA.
Cosmopedia (HuggingFacetb): (likes: 570, téléchargements: 20 840) Un ensemble de données synthétique de 30 millions d'échantillons générés par Mixtral-8x7B-Istruct-V0.1. Présentation: génération de données synthétiques évolutives pionnières.
HelpSteer2 (Nvidia): (likes: 390, téléchargements: 13 799) 21 000 échantillons avec des annotations se concentrant sur l'utilité et l'exactitude. Présentation: les meilleurs scores sur les principaux repères.
ORCA-AGENTINSTRUCT-1M-V1 (Microsoft): (Aime: 404, téléchargements: 12 877) 1 million de paires d'instructions synthétiques couvrant diverses tâches. Prise en surbrillance: raisonnement amélioré et correction factuelle.
SmoltalkDataset (HuggingFacetb): (likes: 260, téléchargements: 11 523) ensemble de données synthétiques pour un réglage fin supervisé. Présentation: performances améliorées spécifiques à la tâche.
FinePersonas (Argilla): (Likes: 363, Téléchargements: 6 853) 21 millions de personnages détaillés pour une génération de texte synthétique diversifiée. Fait saillie: facilite les sorties synthétiques riches et spécifiques au contexte.
Finevideo (HuggingFaceFv): (Likes: 283, Téléchargements: 5 434) Dataset axés sur la compréhension vidéo. Fait saillie: Powers Analyse vidéo multimodale de pointe.
Infinity Instruct (Baai): (likes: 574, téléchargements: 5 284) ensemble de données d'instructions à grande échelle pour le raisonnement et le codage. FAIT: Avance les capacités d'IA open-source.
Personahub (Proj-Persona): (Likes: 475, Téléchargements: 3 846) 1 milliard de personnages pour la synthèse des données synthétiques. Fait saillie: facilite diverses interactions de personnages.
Deux millions de bluesky-poteaux (Alpin Dale): (likes: 193, téléchargements: 3 155) 2 millions de messages publics de Bluesky Social. Fait saillie: explore les tendances linguistiques.
XLAM-Function-Calling-60K (Salesforce): (Likes: 395, Téléchargements: 2 567) axés sur les applications d'appel de fonctions. Piltant: une précision élevée sur les références appelant les fonctions.
OpenO1-SFT (O1-Open): (Aime: 271, Téléchargements: 2 171) prend en charge le réglage fin supervisé pour le raisonnement en chaîne de pensées. FAIT: Amélioration de l'auto-cohérence du raisonnement.
Mmmlu (Openai): (aime: 438, téléchargements: 1 761) couvre 57 sujets en 14 langues. Piltant: Norme élevée pour la compréhension multilingue.
Frames (Google): (Likes: 176, Téléchargements: 1 757) ensemble de données d'évaluation des chiffons avec des questions multi-HOP. Fait saillie: teste la récupération en plusieurs étapes.
Raisonnement-base-20K (raccourcis): (likes: 194, téléchargements: 1 581) comprend des explications de raisonnement étape par étape. Présentation: améliore la précision du raisonnement.
Arxiver (neuralwork): (likes: 355, téléchargements: 790) 63 357 articles arxiv au format multi-markdown. Fixé: rationalise l'intégration technique du contenu.
5CD-AILLAVA-COT-O1-INSTRUCT (5CD-AI): (Likes: 64, Downloads: 598) permet le raisonnement en chaîne de pensées dans les modèles de vision. Présentation: intègre des sorties structurées pour des tâches complexes.

Articles connexes: (Liens omis pour la concision)

400 ensembles de données de modèle de grande langue (LLM) catégorisés
25 ensembles de données ouverts pour l'apprentissage en profondeur
28 sites Web pour trouver des ensembles de données
10 ensembles de données par Indiaai
10 ensembles de données open source pour la formation LLM

Résumé:

Cette sélection d'ensembles de données principales présente le paysage dynamique du développement de l'IA. Leurs applications et contributions diverses mettent en évidence les progrès en cours dans la création de systèmes d'IA plus robustes, polyvalents et éthiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!