Deepseek AIの天然Pond:分散データ処理のための軽量フレームワーク
Deepseek R1の成功に基づいて、Deepseek AIは、大規模なデータセットを効率的に処理するために設計された合理化されたデータ処理フレームワークであるSmallpondを導入します。この革新的なソリューションは、SQL分析用のDuckDBの速度を3FSの高性能分散ストレージ機能と組み合わせて、最小限のインフラストラクチャオーバーヘッドでペタバイトスケールデータの処理を可能にします。 Smallpondは、AIおよびビッグデータアプリケーションのデータ処理を簡素化し、複雑なセットアップと長期にわたるサービスの必要性を排除します。この記事では、Smallpondの機能、コンポーネント、およびアプリケーションについて説明し、使用に関する実用的なガイドを提供します。
学習目標:
(この記事はデータサイエンスブログソンの一部です。)
目次:
Deepseek Smallpondとは何ですか?
2025年2月28日にリリースされたオープンソースプロジェクトであるSmallpondは、DeepSeekのオープンソースウィーク中にリリースされ、高性能のインプロセス分析データベースであるDuckDBのパワーを分散環境に拡張する軽量フレームワークです。 3FS(Fire-Flyer File System)と統合することにより、Smallpondは、Apache Sparkなどの従来のビッグデータプラットフォームの複雑さなしに、ペタバイトスケールデータのスケーラブルなソリューションを提供します。これは、分散分析のための効率的で使いやすいツールを求めているデータエンジニアと科学者を対象としています。
(詳細:Deepseekが3FSとSmallpondフレームワークをリリースします)
主な機能:
コアコンポーネント:
天然pondを始めましょう:
インストール: Smallpond(現在Linuxのみ)はPIPを介してインストールされています。 Python 3.8–3.11と互換性のある3FSクラスター(またはテスト用のローカルファイルシステム)が必要です。
PIPインストールsmallpond PIPインストール「Smallpond [dev]」#オプションの開発依存関係 ピップインストール 'Ray [default]'#Ray Clusters
3FSのインストールには、GitHubリポジトリからのクローニングと構築が含まれます(詳細については、3FSドキュメントを参照してください)。
環境のセットアップ:
3FSクラスターのRayを初期化します。
Ray Start - Head-Num-CPUS =<num_cpus> -num-gpus =<num_gpus></num_gpus></num_cpus>
smallpondを初期化します(該当する場合はレイアドレスと3FSエンドポイントに置き換えます):
天然pondをインポートします sp = smallpond.init(data_root = "path/to/local/storage"、ray_address = "192.168.214.165:6379")#ローカルファイルシステム #sp = smallpond.init(data_root = "3fs:// cluster_endpoint"、ray_address = "...")#3FSクラスター
データの摂取と準備:
天然代表は主に寄木細工をサポートします。
#Parquetを読んでください df = sp.read_parquet( "data/input.prices.parquet") #プロセスデータ(例) df = df.map( "価格> 100") #データを書き込みます df.write_parquet( "data/output/filtered.prices.parquet")
分割戦略にはdf.repartition()
を使用したファイルカウント、行、または列ハッシュごとに含まれます。
APIリファレンス:高レベルのAPIは、データの操作を簡素化します。低レベルのAPIは、高度なユーザーにDuckDBとRayへの直接アクセスを提供します。 (詳細な関数の説明は、元の記事に記載されています)。
(残りのセクション - パフォーマンスベンチマーク、ベストプラクティス、スケーラビリティ、アプリケーション、利点、短所、結論、およびFAQは、テキストを言い換えながら元の意味を維持するために同様の再語と再構築を続けます。)
この記事に示されているメディアは[プラットフォーム名]が所有しておらず、著者の裁量で使用されています。
以上がDeepseek Smallpondの包括的なガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。