DeepSeek AI의 Smallpond : 분산 데이터 처리를위한 가벼운 프레임 워크
DeepSeek R1의 성공을 위해 DeepSeek AI는 대규모 데이터 세트의 효율적인 처리를 위해 설계된 간소화 된 데이터 처리 프레임 워크 인 SmallPond를 소개합니다. 이 혁신적인 솔루션은 SQL 분석 용 DUPDB 속도를 3FS의 고성능 분산 저장 기능과 결합하여 최소한의 인프라 오버 헤드로 페타 바이트 규모 데이터를 처리 할 수 있습니다. Smallpond는 AI 및 Big Data Applications의 데이터 처리를 단순화하여 복잡한 설정 및 장기 실행 서비스가 필요하지 않습니다. 이 기사는 Smallpond의 기능, 구성 요소 및 응용 프로그램을 탐색하여 사용에 대한 실용적인 가이드를 제공합니다.
학습 목표 :
(이 기사는 데이터 과학 블로그의 일부입니다.)
목차 :
DeepSeek Smallpond 란 무엇입니까?
2025 년 2 월 28 일에 발표 된 오픈 소스 프로젝트 인 Smallpond는 DeepSeek의 오픈 소스 주간 기간 동안 고성능 분야의 분석 데이터베이스 인 DuckDB의 전력을 분산 환경으로 확장하는 가벼운 프레임 워크입니다. Smallpond는 3FS (Fire-Flyer 파일 시스템)와 통합하여 Apache Spark와 같은 전통적인 빅 데이터 플랫폼의 복잡성없이 페타 바이트 규모 데이터를위한 확장 가능한 솔루션을 제공합니다. 분산 분석을위한 효율적이고 사용하기 쉬운 도구를 찾는 데이터 엔지니어와 과학자를 대상으로합니다.
(자세히 알아보기 : DeepSeek 릴리스 3FS 및 Smallpond 프레임 워크)
주요 기능 :
핵심 구성 요소 :
Smallpond로 시작하기 :
설치 : Smallpond (현재 Linux 만)는 PIP를 통해 설치됩니다. Python 3.8–3.11 및 호환 가능한 3FS 클러스터 (또는 테스트를위한 로컬 파일 시스템)가 필요합니다.
Smallpond를 설치하십시오 PIP 설치 "SmallPond [dev]" # 선택적 개발 종속성 PIP 설치 'RAY [DEFAULT]' # RAY CLUSTERS
3FS 설치에는 GitHub 저장소에서 복제 및 빌드가 포함됩니다 (자세한 지침은 3FS 문서 참조).
환경 설정 :
3FS 클러스터의 Ray 초기화 :
Ray Start- 헤드-Num-CPUS =<num_cpus> -num-gpus =<num_gpus></num_gpus></num_cpus>
SmallPond 초기화 (적용 가능한 경우 Ray 주소 및 3FS 엔드 포인트로 교체) :
Smallpond를 가져옵니다 sp = smallpond.init (data_root = "path/to/local/stac # sp = smallpond.init (data_root = "3fs : // cluster_endpoint", ray_address = "...") # 3fs 클러스터
데이터 수집 및 준비 :
Smallpond는 주로 파크를 지원합니다.
# Parquet을 읽습니다 df = sp.read_parquet ( "data/input.prices.parquet") # 프로세스 데이터 (예) df = df.map ( "가격> 100") # 데이터 작성 df.write_parquet ( "data/output/filtered.prices.parquet")
파티션 전략에는 df.repartition()
사용하여 파일 카운트, 행 또는 열 해시가 포함됩니다.
API 참조 : 고급 API는 데이터 조작을 단순화합니다. 하위 레벨 API는 고급 사용자를 위해 DuckDB 및 Ray에 직접 액세스 할 수 있습니다. (자세한 기능 설명은 원본 기사에 제공됩니다).
(성능 벤치 마크, 모범 사례, 확장 성, 응용 프로그램, 장점 및 단점, 결론 및 FAQ 등의 나머지 섹션은 텍스트를 역설적으로 말하면서 원래 의미를 유지하기 위해 비슷한 리워드 및 구조 조정으로 이어집니다.
이 기사에 표시된 미디어는 [귀하의 플랫폼 이름]이 소유하지 않으며 저자의 재량에 따라 사용됩니다.
위 내용은 Deepseek Smallpond에 대한 포괄적 인 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!