Deepseek publie un cadre 3FS et SmallPond
Deepseek a considérablement augmenté les capacités des open source le 28 février 2025, dévoilant le système de fichiers de vol de feu (3FS) et le cadre de traitement des données à petit. Ces outils sont conçus pour révolutionner l'accès et le traitement des données, en particulier pour la formation et l'inférence en IA.
? Jour 5 de #OpenSourceweek: 3FS, un moteur puissant pour tout accès aux données Deepseek.
Système de fichiers Fire-Flyer (3FS) - Un système de fichiers parallèle maximisant la bande passante des SSD modernes et des réseaux RDMA.
⚡ 6.6 Tib / s Aggrégat Lire le débit (cluster de 180 nœuds) ⚡ 3,66 tib / min…
- Deepseek (@deepseek_ai) 28 février 2025
Table des matières
- Système de fichiers Fire-Flyer (3FS)
- Framework à petits étangs
- Démarrage rapide: 3FS et à petite étang
- Dépannage et surveillance
- Résumé
Système de fichiers Fire-Flyer (3FS)
3FS est un système de fichiers distribué haute performance construit pour les SSD modernes et les réseaux RDMA. Il offre une solution de stockage partagée robuste, simplifiant le développement d'applications distribuées.
Comprendre RDMA
> L'accès à la mémoire directe à distance (RDMA) contourne les limitations du système d'exploitation, permettant un transfert de données direct entre la mémoire de deux ordinateurs. Il en résulte une communication plus rapide et plus efficace.
Clé des fonctionnalités 3FS
- Performances inégalées et facilité d'utilisation:
- 6.6 TIB / s Aggrégat Lire le débit (cluster de 180 nœuds).
- 3,66 débit TIB / min sur la référence GraySort (cluster de 25 nœuds).
- 40 Gib / s Péper à maturité par nœud client pour les recherches kvcache.
- Architecture désagrégée:
- combine le débit de milliers de SSD avec la bande passante du réseau de centaines de nœuds de stockage.
- offre un accès au stockage obligatoire pour la localité pour les applications.
- cohérence robuste:
- utilise la réplication de la chaîne avec des requêtes réparties (CRAQ) pour une forte cohérence, simplifiant le codage de l'application.
- Interfaces de fichier standard:
- utilise des services de métadonnées apatrides basés sur un magasin de valeurs de clé transactionnel (par exemple, FoundationDB).
- maintient une interface de fichiers familière, éliminant la nécessité d'un nouvel apprentissage de l'API.
charges de travail prises en charge
- Préparation des données: Gère efficacement de grands volumes de sorties intermédiaires des pipelines d'analyse de données.
- DatalOaders: permet un accès aléatoire à des échantillons de formation sur les nœuds de calcul, éliminant la préfecture ou les mélanges de données.
- Points de contrôle: prend en charge le point de contrôle parallèle à haut débit pour une formation à grande échelle.
- kvcache pour l'inférence: offre une alternative rentable et élevée à la mise en cache basée sur le DRAM avec une capacité considérablement accrue.
Benchmarks de performance
Les tests approfondis valident les performances de 3FS. Un test de stress de lecture sur un grand cluster a atteint le débit de lecture globale de 6,6 TIB / s, même avec un trafic professionnel de formation simultané.
Framework à petits étangs
SallPond, conçu pour compléter 3FS, est un cadre de traitement des données léger et distribué. Il utilise DuckDB comme moteur de calcul et stocke les données au format parquet sur un système de fichiers distribué (comme 3fs).
Clé des caractéristiques à petits étangs
- Haute performance: DuckDB fournit des performances au niveau natif pour un traitement efficace des données.
- Évolutivité: gère les données à l'échelle des pétaoctets sans goulot d'étranglement de mémoire grâce aux systèmes de fichiers distribués haute performance.
- Simplicité: Déploiement et maintenance faciles en raison de l'absence de services de longue durée ou de dépendances complexes.
- Traitement efficace des données: Une approche biphasée pour trier les grands ensembles de données améliore les performances et l'efficacité (par exemple, trié 110,5 TIB sur 8 192 partitions en moins de 30 minutes).
- Intégration 3FS sans couture: exploite le débit élevé de 3FS et la forte cohérence.
Démarrage rapide: 3FS et à petite étang
3fs Installation
Clone Les dépendances du référentiel et d'installation:
-
git clone https://github.com/deepseek-ai/3fs
-
cd 3fs
-
git submodule update --init --recursive
-
./patches/apply.sh
Consultez la documentation 3FS pour plus de détails.
Démarrage rapide de SallPond
-
Assurez-vous que Python 3.8 est installé.
-
Installez à petite étang:
pip install smallpond
-
Initialiser une session à petite étang:
import smallpond; sp = smallpond.init()
-
Chargez des données de parquet:
df = sp.read_parquet("path/to/dataset/*.parquet")
-
Données de répartition (exemples):
-
df = df.repartition(3)
-
df = df.repartition(3, by_row=True)
-
df = df.repartition(3, hash_by="host")
-
-
Transformer les données (exemples):
-
df = df.map('a b as c')
-
df = df.map(lambda row: {'c': row['a'] row['b']})
-
-
Enregistrer les données:
df.write_parquet("path/to/output/dataset.parquet")
-
Exécutez un travail à petite étang:
sp.run(df)
Dépannage et surveillance
SmallPond propose des outils de surveillance et de débogage. L'analyse des journaux aide à résoudre les problèmes d'exécution. La documentation complète, les tutoriels et les cas d'utilisation sont disponibles via les canaux de support officiels.
Résumé
La version open source de 3FS et de SmallPond représente une progression significative dans le traitement des données. Leurs hautes performances, leur facilité d'utilisation et leur cohérence permettent aux développeurs et aux chercheurs. Ces outils fournissent une infrastructure puissante pour les applications modernes à forte intensité de données.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











META'S LLAMA 3.2: un bond en avant dans l'IA multimodal et mobile Meta a récemment dévoilé Llama 3.2, une progression importante de l'IA avec de puissantes capacités de vision et des modèles de texte légers optimisés pour les appareils mobiles. S'appuyer sur le succès o

Hé là, codant ninja! Quelles tâches liées au codage avez-vous prévues pour la journée? Avant de plonger plus loin dans ce blog, je veux que vous réfléchissiez à tous vos malheurs liés au codage - les énumérez. Fait? - Let & # 8217

Le paysage de l'IA de cette semaine: un tourbillon de progrès, de considérations éthiques et de débats réglementaires. Les principaux acteurs comme Openai, Google, Meta et Microsoft ont déclenché un torrent de mises à jour, des nouveaux modèles révolutionnaires aux changements cruciaux de LE

La récente note du PDG de Shopify Tobi Lütke déclare hardiment la maîtrise de l'IA une attente fondamentale pour chaque employé, marquant un changement culturel important au sein de l'entreprise. Ce n'est pas une tendance éphémère; C'est un nouveau paradigme opérationnel intégré à P

Introduction Imaginez vous promener dans une galerie d'art, entourée de peintures et de sculptures vives. Maintenant, que se passe-t-il si vous pouviez poser une question à chaque pièce et obtenir une réponse significative? Vous pourriez demander: «Quelle histoire racontez-vous?

Introduction Openai a publié son nouveau modèle basé sur l'architecture «aux fraises» très attendue. Ce modèle innovant, connu sous le nom d'O1, améliore les capacités de raisonnement, lui permettant de réfléchir à des problèmes Mor

Pour ceux d'entre vous qui pourraient être nouveaux dans ma chronique, j'explore largement les dernières avancées de l'IA dans tous les domaines, y compris des sujets tels que l'IA incarnée, le raisonnement de l'IA, les percées de haute technologie dans l'IA, l'ingénierie rapide, la formation de l'IA, la mise en place de l'IA, l'IA re

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu
