SMALLPONDE DE LA VIE DEEPSEEK AI: Un cadre léger pour le traitement des données distribué
S'appuyant sur le succès de Deepseek R1, Deepseek AI présente SmallPond, un cadre de traitement des données rationalisé conçu pour une gestion efficace des ensembles de données massifs. Cette solution innovante combine la vitesse de DuckDB pour SQL Analytics avec les capacités de stockage distribuées à haute performance de 3FS, permettant le traitement des données à l'échelle des pétaoctes avec un minimum de frais généraux d'infrastructure. Sallpond simplifie le traitement des données pour les applications d'IA et de Big Data, éliminant le besoin d'installations complexes et de services de longue durée. Cet article explore les fonctionnalités, les composants et les applications de SallPond, fournissant un guide pratique pour son utilisation.
Objectifs d'apprentissage:
(Cet article fait partie du blogathon de la science des données.)
Table des matières:
Qu'est-ce que Deepseek Sallpond?
Sallpond, un projet open source publié le 28 février 2025, pendant la semaine open source de Deepseek, est un cadre léger étendant la puissance de DuckDB, une base de données analytique en cours de grande performance, dans des environnements distribués. En s'intégrant avec 3FS (Fire-Flyer File System), SmallPond propose une solution évolutive pour les données à l'échelle des pétaoctets sans les complexités des plates-formes traditionnelles de Big Data comme Apache Spark. Il est destiné aux ingénieurs de données et aux scientifiques à la recherche d'outils efficaces et faciles à utiliser pour l'analyse distribuée.
(En savoir plus: Deepseek libère 3FS et SmallPond Framework)
Caractéristiques clés:
Composants centraux:
Commencer avec SmallPond:
Installation: SmallPond (actuellement Linux uniquement) est installé via PIP. Python 3.8–3.11 et un cluster 3FS compatible (ou un système de fichiers local pour les tests) sont nécessaires.
PIP installe à petit PIP installe "à petite étang [dev]" # dépendances de développement facultatives pip install 'Ray [par défaut]' # clusters de rayons
L'installation 3FS implique le clonage et la construction du référentiel GitHub (voir la documentation 3FS pour des instructions détaillées).
Configuration de l'environnement:
Initialiser le rayon pour les clusters 3fs:
Ray Start --head --num-cpus =<num_cpus> --num-gpus =<num_gpus></num_gpus></num_cpus>
Initialiser la petite étang (remplacer par votre adresse de rayon et le point de terminaison 3FS le cas échéant):
Importer une petite étang sp = smallpond.init (data_root = "path / to / local / stockage", ray_address = "192.168.214.165:6379") # Système de fichiers local # sp = smallpond.init (data_root = "3fs: // cluster_endpoint", ray_address = "...") # 3fs Cluster
Ingestion et préparation des données:
SmallPond prend principalement le parquet.
# Lire le parquet df = sp.read_parquet ("data / input.prices.parquet") # Données de processus (exemple) df = df.map ("Prix> 100") # Écriture de données df.write_parquet ("data / output / filtered.prices.parquet")
Les stratégies de partitionnement incluent le nombre de fichiers, les lignes ou le hachage de colonne à l'aide de df.repartition()
.
Référence de l'API: L'API de haut niveau simplifie la manipulation des données. Une API de niveau inférieur offre un accès direct à DuckDB et Ray pour les utilisateurs avancés. (Des descriptions de fonction détaillées sont fournies dans l'article d'origine).
(Les sections restantes - références de performance, les meilleures pratiques, l'évolutivité, les applications, les avantages et les inconvénients, la conclusion et les FAQ - suivraient avec une reformularité et une restructuration similaires pour maintenir la signification originale tout en paraphrasant le texte.)
Le média présenté dans cet article ne appartient pas à [le nom de votre plateforme] et est utilisé à la discrétion de l'auteur.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!