AWS: Polar 또는 Pandas에서 파일을 변환하는 데 더 빠르고 저렴한 것은 무엇입니까?
두 가지 모두 어느 시점에서 둘 중 무엇을 선택해야 할지 의심하게 만들 수 있는 다양한 도구와 장점을 제공합니다. Polars를 사용하기 시작하거나 Pandas를 "죽음"으로 만들기 위해 회사의 모든 프로세스를 변경하는 것이 아닙니다(이것은 가까운 미래에 일어나지 않을 것입니다). 프로세스에서 비용과 시간을 절감하고 동일하거나 더 나은 결과를 얻는 데 도움이 되는 다른 도구를 아는 것입니다.
클라우드 서비스를 사용할 때 비용을 포함한 특정 요소에 우선순위를 둡니다. 이 프로세스에 사용하는 서비스는 Python 3.10 런타임이 포함된 AWS Lambda와 원시 파일 및 Parquet 변환 파일을 저장하는 S3입니다.
이 두 라이브러리 중 어느 라이브러리가 메모리 및 결과 파일의 무게와 같은 리소스를 더 잘 최적화할 수 있는지 확인하기 위해 CSV 파일을 원시 데이터로 가져와 팬더 및 폴라로 처리하는 것이 목적입니다.
판다
데이터 조작 및 분석에 특화된 Python 라이브러리로 C로 작성되었으며 2008년에 최초 출시되었습니다.
*폴라 *
병렬 처리가 가능한 데이터 조작 및 분석에 특화된 Python 및 Rust 라이브러리로 대부분 Rust로 작성되었으며 2022년에 출시되었습니다.
프로세스 아키텍처:
이 프로젝트는 아키텍처에 표시된 것처럼 간단합니다. 사용자는 CSV 파일을 work/pandas 또는 work/porlas에 저장하고 자동으로 s3 트리거를 시작하여 파일을 처리하여 Parquet로 변환하고 Process에 저장합니다.
이 작은 프로젝트에서는 다음 구성으로 두 개의 람다를 사용했습니다.
메모리: 2GB
임시 메모리: 2GB
수명: 600초
요구사항
팬더가 있는 람다: Pandas, Numpy 및 Pyarrow
극성이 있는 람다: Polars
비교에 사용된 데이터 세트는 Kaggle에서 "Rotten Tomatoes Movie Reviews – 144만 행"이라는 이름으로 제공되거나 여기에서 다운로드할 수 있습니다.
전체 저장소는 GitHub에서 사용할 수 있으며 여기에서 복제할 수 있습니다.
크기 또는 무게
Pandas가 사용하는 람다는 쪽모이 세공 파일을 생성하기 위해 두 개의 플러그인이 더 필요합니다. 이 경우에는 PyArrow와 제가 사용하고 있던 Pandas 버전에 대한 특정 버전의 numpy입니다. 그 결과 우리는 74.4MB의 무게 또는 크기를 가진 람다를 얻었습니다. 이는 AWS가 람다의 무게에 대해 허용하는 한도에 매우 가까운 수치입니다.
Polars가 포함된 람다에는 삶을 단순화하고 람다 크기를 절반 미만으로 줄이는 PyArrow와 같은 다른 플러그인이 필요하지 않습니다. 결과적으로 람다의 무게 또는 크기는 첫 번째 것과 비교하여 30.6MB로 변환 프로세스에 필요할 수 있는 다른 종속성을 설치할 수 있는 공간을 제공합니다.
실적
Pandas의 람다는 첫 번째 버전 이후 압축을 사용하도록 최적화되었지만 동작도 분석되었습니다.
판다
데이터 세트를 처리하는 데 18초가 걸렸고, 다른 버전에 비해 CSV 파일을 처리하고 Parquet 파일을 생성하는 데 1894MB의 메모리를 사용하여 가장 많은 시간과 리소스를 사용했습니다.
판다 + 압축
한 줄의 코드를 추가함으로써 이전 버전(Pandas)에 비해 약간의 개선이 가능했으며, 데이터 세트를 처리하는 데 17초가 걸렸고 1837MB를 사용했습니다. 이는 처리 및 계산 시간이 크게 향상되지는 않았지만 크기가 크게 향상되었음을 의미합니다. 결과 파일의
북극
동일한 데이터 세트를 처리하는 데 12초가 걸렸으며 1462MB만 사용했습니다. 이전 두 개에 비해 시간이 44.44% 절약되고 메모리 소비도 줄어듭니다.
출력 파일 크기
판다
압축 과정이 확립되지 않은 람다는 177.4MB의 파켓 파일을 생성했습니다.
판다 + 압축
람다에서 압축을 구성할 때 121.1MB의 쪽모이 세공 파일을 생성하지 않습니다. 작은 줄이나 옵션 하나가 파일 크기를 31.74% 줄이는 데 도움이 되었습니다. 큰 코드 변경이 아니라는 점을 고려하면 매우 좋은 선택입니다.
북극
Polars는 Pandas의 첫 번째 버전과 함께 구매한 105.8MB 파일을 생성했는데, 이는 압축을 사용한 Pandas 버전에 비해 40.36% 및 12.63%의 절약을 나타냅니다.
결론
이제 Polars를 사용하도록 Pandas를 사용하는 모든 내부 프로세스를 변경할 필요는 없습니다. 하지만 수천 또는 수백만 번의 람다 실행에 대해 이야기하고 있다면 Polars를 사용하면 배포뿐만 아니라 배포에도 도움이 될 것이라는 점을 고려하는 것이 중요합니다. 하지만 AWS가 Lambda와 같은 서버리스 서비스에 대해 부과하는 시간 기반 요금으로 인해 비용을 낮추는 데도 도움이 됩니다.
마찬가지로, 40.36%를 수백만 개의 파일로 변환할 때 GB 또는 TB에 대해 이야기하고 있는데, 이는 Datalake 또는 Dataware 하우스 또는 심지어 콜드 파일 스토리지 내에서 상당한 영향을 미칠 수 있습니다.
Polars를 사용한 절감은 이 두 가지 요소에만 국한되지 않습니다. 비용이 발생하는 서비스이기 때문에 AWS의 데이터 및/또는 객체 출력에 큰 영향을 미치기 때문입니다.
위 내용은 AWS: Polar 또는 Pandas에서 파일을 변환하는 데 더 빠르고 저렴한 것은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Linux 터미널에서 Python 버전을 보려고 할 때 Linux 터미널에서 Python 버전을 볼 때 권한 문제에 대한 솔루션 ... Python을 입력하십시오 ...

Python의 Pandas 라이브러리를 사용할 때는 구조가 다른 두 데이터 프레임 사이에서 전체 열을 복사하는 방법이 일반적인 문제입니다. 두 개의 dats가 있다고 가정 해

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

정규 표현식은 프로그래밍의 패턴 일치 및 텍스트 조작을위한 강력한 도구이며 다양한 응용 프로그램에서 텍스트 처리의 효율성을 높입니다.

Uvicorn은 HTTP 요청을 어떻게 지속적으로 듣습니까? Uvicorn은 ASGI를 기반으로 한 가벼운 웹 서버입니다. 핵심 기능 중 하나는 HTTP 요청을 듣고 진행하는 것입니다 ...

이 기사는 Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask 및 요청과 같은 인기있는 Python 라이브러리에 대해 설명하고 과학 컴퓨팅, 데이터 분석, 시각화, 기계 학습, 웹 개발 및 H에서의 사용에 대해 자세히 설명합니다.

파이썬에서 문자열을 통해 객체를 동적으로 생성하고 메소드를 호출하는 방법은 무엇입니까? 특히 구성 또는 실행 해야하는 경우 일반적인 프로그래밍 요구 사항입니다.
