> 기술 주변기기 > 일체 포함 > DeepSeek은 3FS 및 Smallpond 프레임 워크를 릴리스합니다

DeepSeek은 3FS 및 Smallpond 프레임 워크를 릴리스합니다

William Shakespeare
풀어 주다: 2025-03-03 19:07:12
원래의
785명이 탐색했습니다.

DeepSeek Releases 3FS & Smallpond Framework Deepseek는 2025 년 2 월 28 일에 Fire-Flyer 파일 시스템 (3FS) 및 SmallPond 데이터 처리 프레임 워크를 공개하여 오픈 소스 기능을 크게 향상 시켰습니다. 이 도구는 특히 AI 교육 및 추론을 위해 데이터 액세스 및 처리를 혁신하도록 설계되었습니다.

? #OpenSourceweek의 5 일차 : 3FS, 모든 Deepseek 데이터 액세스를위한 강력한 엔진. Fire-Flyer 파일 시스템 (3FS)-최신 SSD 및 RDMA 네트워크의 대역폭을 최대화하는 병렬 파일 시스템. ⚡ 6.6 TIB/s 집계 읽기 처리량 (180- 노드 클러스터) 3.66 TIB/MIN… - DeepSeek (@deepseek_ai) 2025 년 2 월 28 일

목차

Fire-Flyer 파일 시스템 (3fs) 스몰 폰드 프레임 워크 빠른 시작 : 3fs 및 smallpond

문제 해결 및 모니터링

요약

Fire-Flyer 파일 시스템 (3fs) 3FS는 최신 SSD 및 RDMA 네트워크를 위해 구축 된 고성능 분산 파일 시스템입니다. 강력한 공유 스토리지 솔루션을 제공하여 분산 응용 프로그램 개발을 단순화합니다. rdma 이해

RDMA (원격 직접 메모리 액세스)는 운영 체제 제한을 우회하여 두 컴퓨터의 메모리간에 직접 데이터 전송이 가능합니다. 이로 인해 더 빠르고 효율적인 의사 소통이 발생합니다 키 3fs 특징

    타의 추종을 불허하는 성능 및 사용 편의성 :
  • 6.6 TIB/s 집계 읽기 처리량 (180- 노드 클러스터) Graysort 벤치 마크 (25 노드 클러스터)의 TIB/MIN 처리량 KVCache 조회를위한 클라이언트 노드 당 > 40 gib/s 피크 처리량.
      분리 된 아키텍처 : 수천 개의 SSD의 처리량을 수백 개의 스토리지 노드의 네트워크 대역폭과 결합합니다. 는 애플리케이션에 대한 로컬-명백한 스토리지 액세스를 제공합니다
    • 강력한 일관성 :
    • 는 강력한 일관성을 위해 배분 된 쿼리 (CRAQ)로 체인 복제를 사용하여 응용 프로그램 코딩을 단순화합니다.
    • 표준 파일 인터페이스 :
    • 는 트랜잭션 키 가치 저장소 (예 : FoundationDB)를 기반으로 한 상태의 메타 데이터 서비스를 사용합니다. 는 친숙한 파일 인터페이스를 유지하여 새로운 API 학습에 대한 필요성을 제거합니다.
  • 지원 워크로드 데이터 준비 : 는 데이터 분석 파이프 라인에서 대량의 중간 출력을 효율적으로 관리합니다. Dataloaders :
      컴퓨팅 노드에서 훈련 샘플에 무작위로 액세스 할 수있어 프리 페치 또는 데이터 세트 셔플 링을 제거합니다. 체크 포인팅 :
    • 대규모 훈련을위한 고 처리량 병렬 체크 포인트를 지원합니다 KVCACHE를위한 KVCACHE :
    • 용량이 크게 증가한 DRAM 기반 캐싱에 대한 비용 효율적인 고 처리량 대안을 제공합니다.
    • 성능 벤치 마크 광범위한 테스트는 3FS 성능을 확인합니다. 큰 클러스터에 대한 읽기 응력 테스트는 동시 훈련 작업 교통으로도 6.6 TIB/S 집계 판독 read 처리량을 달성했습니다. 스몰 폰드 프레임 워크 3FS를 보완하도록 설계된 SmallPond는 가벼운 분산 데이터 처리 프레임 워크입니다. DUCKDB를 컴퓨팅 엔진으로 사용하고 분산 파일 시스템 (3FS)에서 파크 형식으로 데이터를 저장합니다. 키 스몰 폰드 기능
    • 고성능 :
    duckdb는 효율적인 데이터 처리를위한 기본 수준 성능을 제공합니다. 확장 성 :
  • 고성능 분산 파일 시스템 덕분에 메모리 병목 현상이없는 페타 바이트 규모 데이터를 처리합니다.
  • 단순성 : 장기 실행 서비스 또는 복잡한 종속성이 없기 때문에 쉬운 배포 및 유지 보수. 효율적인 데이터 처리 : 큰 데이터 세트를 정렬하기위한 2 상 접근 방식은 성능과 효율성을 향상시킵니다 (예 : 30 분 이내에 8,192 개의 파티션에 걸쳐 110.5 TIB를 분류)
      SEAMLESS 3FS 통합 :
    • 3FS의 높은 처리량과 강한 일관성을 활용합니다.
    • 빠른 시작 : 3fs 및 smallpond
    3fs 설치
  • 저장소를 복제하고 종속성을 설치하십시오 :
    1. git clone https://github.com/deepseek-ai/3fs
    2. cd 3fs
    3. git submodule update --init --recursive
    4. 자세한 내용은 3FS 문서를 참조하십시오 Smallpond Quick START
    5. ./patches/apply.sh
    6. Python 3.8이 설치되어 있는지 확인하십시오

    smallpond를 설치하십시오 :

    스몰 폰드 세션 초기화 :
    • 로드 파크 데이터 :

    • 반복 데이터 (예) :

      pip install smallpond

    • import smallpond; sp = smallpond.init()

    • 변환 데이터 (예제) :

      df = sp.read_parquet("path/to/dataset/*.parquet")

      • 데이터 저장 데이터 :
      • df = df.repartition(3)
      • 스몰 폰드 작업을 실행하십시오 :

      • df = df.repartition(3, by_row=True)
      • 문제 해결 및 모니터링 Smallpond는 모니터링 및 디버깅 도구를 제공합니다. 로그 분석은 실행 문제를 해결하는 데 도움이됩니다. 포괄적 인 문서, 튜토리얼 및 사용 사례는 공식 지원 채널을 통해 제공됩니다.
      • 요약 3FS 및 Smallpond의 오픈 소스 릴리스는 데이터 처리의 상당한 발전을 나타냅니다. 그들의 고성능, 사용 편의성 및 일관성은 개발자와 연구원에게 힘을 실어줍니다. 이 도구는 현대적이고 데이터 집약적 인 응용 프로그램을위한 강력한 인프라를 제공합니다.

위 내용은 DeepSeek은 3FS 및 Smallpond 프레임 워크를 릴리스합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿