Pandas를 사용한 10가지 대체 데이터 처리 기술-파이썬 튜토리얼-php.cn

1. 범주형

2. 행-열 변환

3.apply()는 매우 느립니다.

Swifter

Pandaralllel

5. Csv, 압축 또는 쪽모이 세공?

6, value_counts ()

7. Modin

8.extract()

9、读写剪贴板

10、数组列分成多列

总结

집

백엔드 개발

파이썬 튜토리얼

Pandas를 사용한 10가지 대체 데이터 처리 기술

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 15, 2023 am 09:19 AM

데이터 처리 기능 pandas

이 글에 정리된 기술은 이전에 10 Pandas에서 정리한 일반적인 기술과 다릅니다. 자주 사용하지 않을 수도 있지만 때로는 매우 어려운 문제에 직면할 때 이러한 기술을 사용하면 흔하지 않은 문제를 빠르게 해결할 수 있습니다.

Pandas를 사용한 10가지 대체 데이터 처리 기술

1. 범주형

기본적으로 제한된 수의 옵션이 있는 열에는 개체 유형이 할당됩니다. 하지만 메모리 측면에서는 효율적인 선택이 아닙니다. 이러한 열을 인덱싱하고 실제 값이 아닌 개체에 대한 참조만 사용할 수 있습니다. Pandas는 이 문제를 해결하기 위해 Categorical이라는 Dtype을 제공합니다.

예를 들어 이미지 경로가 포함된 대규모 데이터 세트로 구성됩니다. 각 행에는 앵커, 양수, 음수라는 세 개의 열이 있습니다.

범주형 열에 Categorical을 사용하면 메모리 사용량을 크게 줄일 수 있습니다.

# raw data
 +----------+------------------------+
 |class |filename|
 +----------+------------------------+
 | Bathroom | Bathroombath_1.jpg|
 | Bathroom | Bathroombath_100.jpg|
 | Bathroom | Bathroombath_1003.jpg |
 | Bathroom | Bathroombath_1004.jpg |
 | Bathroom | Bathroombath_1005.jpg |
 +----------+------------------------+
 
 # target
 +------------------------+------------------------+----------------------------+
 | anchor |positive|negative|
 +------------------------+------------------------+----------------------------+
 | Bathroombath_1.jpg| Bathroombath_100.jpg| Dinningdin_540.jpg|
 | Bathroombath_100.jpg| Bathroombath_1003.jpg | Dinningdin_1593.jpg |
 | Bathroombath_1003.jpg | Bathroombath_1004.jpg | Bedroombed_329.jpg|
 | Bathroombath_1004.jpg | Bathroombath_1005.jpg | Livingroomliving_1030.jpg |
 | Bathroombath_1005.jpg | Bathroombath_1007.jpg | Bedroombed_1240.jpg |
 +------------------------+------------------------+----------------------------+

로그인 후 복사

파일명 열의 값이 자주 복사됩니다. 따라서 Categorical을 사용하면 메모리 사용량을 크게 줄일 수 있습니다.

대상 데이터세트를 읽고 메모리의 차이를 살펴보겠습니다.

triplets.info(memory_usage="deep")
 
 # Column Non-Null Count Dtype
 # --- ------ -------------- -----
 # 0 anchor 525000 non-null category
 # 1 positive 525000 non-null category
 # 2 negative 525000 non-null category
 # dtypes: category(3)
 # memory usage: 4.6 MB
 
 # without categories
 triplets_raw.info(memory_usage="deep")
 
 # Column Non-Null Count Dtype
 # --- ------ -------------- -----
 # 0 anchor 525000 non-null object
 # 1 positive 525000 non-null object
 # 2 negative 525000 non-null object
 # dtypes: object(3)
 # memory usage: 118.1 MB

로그인 후 복사

차이는 매우 크며 반복 횟수가 증가함에 따라 비선형적으로 증가합니다.

2. 행-열 변환

우리는 SQL에서 행-열 변환 문제에 자주 직면하는데, Pandas에서는 때때로 이 문제가 필요합니다. Kaggle 대회의 데이터 세트를 살펴보겠습니다. census_start .csv 파일:

Pandas를 사용한 10가지 대체 데이터 처리 기술

보시다시피 연도별로 저장되고, 열 연도와 pct_bb가 있고 각 행에 해당 값이 있으면 훨씬 좋을 것입니다.

cols = sorted([col for col in original_df.columns 
 if col.startswith("pct_bb")])
 df = original_df[(["cfips"] + cols)]
 df = df.melt(id_vars="cfips",
value_vars=cols,
var_name="year",
value_name="feature").sort_values(by=["cfips", "year"])

로그인 후 복사

결과를 보면 이 방법이 훨씬 낫습니다.

Pandas를 사용한 10가지 대체 데이터 처리 기술

3.apply()는 매우 느립니다.

저번에 소개했지만 이 방법은 순회하므로 사용하지 않는 것이 가장 좋습니다. 각 행을 지정하고 지정된 메서드를 호출합니다. 하지만 다른 선택의 여지가 없다면 속도를 높일 수 있는 방법은 없을까요?

swifter 또는 pandarallew와 같은 패키지를 사용하여 프로세스를 병렬화할 수 있습니다.

Swifter

import pandas as pd
 import swifter
 
 def target_function(row):
 return row * 10
 
 def traditional_way(data):
 data['out'] = data['in'].apply(target_function)
 
 def swifter_way(data):
 data['out'] = data['in'].swifter.apply(target_function)

로그인 후 복사

Pandaralllel

import pandas as pd
 from pandarallel import pandarallel
 
 def target_function(row):
 return row * 10
 
 def traditional_way(data):
 data['out'] = data['in'].apply(target_function)
 
 def pandarallel_way(data):
 pandarallel.initialize()
 data['out'] = data['in'].parallel_apply(target_function)

로그인 후 복사

멀티스레딩을 통해 계산 속도를 향상시킬 수 있습니다. 물론 클러스터가 있다면 dask나 pyspark를 사용하는 것이 가장 좋습니다

4.

표준 정수 데이터 유형은 null 값을 지원하지 않으므로 자동으로 부동 소수점 숫자로 변환됩니다. 따라서 데이터의 정수 필드에 null 값이 필요한 경우 pandas.NA를 사용하여 null 값을 나타내므로 Int64 데이터 유형을 사용하는 것이 좋습니다.

5. Csv, 압축 또는 쪽모이 세공?

최대한 쪽모이 세공을 선택하세요. Parquet는 데이터 유형을 유지하므로 데이터를 읽을 때 dtypes를 지정할 필요가 없습니다. Parquet 파일은 기본적으로 snappy를 사용하여 압축되므로 디스크 공간을 거의 차지하지 않습니다. 아래에서 몇 가지 비교를 볼 수 있습니다.

|file|size |
 +------------------------+---------+
 | triplets_525k.csv| 38.4 MB |
 | triplets_525k.csv.gzip |4.3 MB |
 | triplets_525k.csv.zip|4.5 MB |
 | triplets_525k.parquet|1.9 MB |
 +------------------------+---------+

로그인 후 복사

parquet를 읽으려면 pyarrow 또는 fastparquet와 같은 추가 패키지가 필요합니다. chatgpt는 pyarrow가 fastparquet보다 빠르다고 말했지만, 소규모 데이터 세트에서 테스트했을 때 fastparquet가 pyarrow보다 빨랐지만 여기서는 pyarrow를 사용하는 것이 좋습니다. pandas 2.0도 기본적으로 이것을 사용하기 때문입니다.

6, value_counts ()

절대값 구하기, 합계로 세고 나누기 등 상대 빈도 계산은 복잡하지만 value_counts를 사용하면 이 작업을 더 쉽게 수행할 수 있으며 이 방법은 포함하거나 제외하는 기능을 제공합니다. null 값 옵션.

df = pd.DataFrame({"a": [1, 2, None], "b": [4., 5.1, 14.02]})
 df["a"] = df["a"].astype("Int64")
 print(df.info())
 print(df["a"].value_counts(normalize=True, dropna=False),
df["a"].value_counts(normalize=True, dropna=True), sep="nn")

로그인 후 복사

Pandas를 사용한 10가지 대체 데이터 처리 기술

이렇게 훨씬 간단하지 않나요

7. Modin

참고: Modin은 아직 테스트 단계입니다.

pandas는 단일 스레드이지만 Modin은 pandas를 확장하여 작업 속도를 높일 수 있으며 pandas가 매우 느리거나 메모리 집약적일 수 있는 대규모 데이터 세트에서 특히 잘 작동합니다. 원인 OOM.

!pip install modin[all]
 
 import modin.pandas as pd
 df = pd.read_csv("my_dataset.csv")

로그인 후 복사

다음은 Modin 공식 웹사이트의 아키텍처 다이어그램입니다. 연구에 관심이 있는 경우:

Pandas를 사용한 10가지 대체 데이터 처리 기술

8.extract()

복잡한 반구조적 데이터를 자주 접하고 분리해야 하는 경우 개별 열인 경우 다음 방법을 사용할 수 있습니다.

import pandas as pd
 
 regex = (r'(?P<title>[A-Za-z's]+),'
r'(?P<author>[A-Za-zs']+),'
r'(?P<isbn>[d-]+),'
r'(?P<year>d{4}),'
r'(?P<publisher>.+)')
 addr = pd.Series([
 "The Lost City of Amara,Olivia Garcia,978-1-234567-89-0,2023,HarperCollins",
 "The Alchemist's Daughter,Maxwell Greene,978-0-987654-32-1,2022,Penguin Random House",
 "The Last Voyage of the HMS Endeavour,Jessica Kim,978-5-432109-87-6,2021,Simon & Schuster",
 "The Ghosts of Summer House,Isabella Lee,978-3-456789-12-3,2000,Macmillan Publishers",
 "The Secret of the Blackthorn Manor,Emma Chen,978-9-876543-21-0,2023,Random House Children's Books"
])
 addr.str.extract(regex)

로그인 후 복사

Pandas를 사용한 10가지 대체 데이터 처리 기술

9、读写剪贴板

这个技巧有人一次也用不到，但是有人可能就是需要，比如：在分析中包含PDF文件中的表格时。通常的方法是复制数据，粘贴到Excel中，导出到csv文件中，然后导入Pandas。但是，这里有一个更简单的解决方案:pd.read_clipboard()。我们所需要做的就是复制所需的数据并执行一个方法。

有读就可以写，所以还可以使用to_clipboard()方法导出到剪贴板。

但是要记住，这里的剪贴板是你运行python/jupyter主机的剪切板，并不可能跨主机粘贴，一定不要搞混了。

10、数组列分成多列

假设我们有这样一个数据集，这是一个相当典型的情况:

import pandas as pd
 df = pd.DataFrame({"a": [1, 2, 3],
"b": [4, 5, 6],
"category": [["foo", "bar"], ["foo"], ["qux"]]})
 
 # let's increase the number of rows in a dataframe
 df = pd.concat([df]*10000, ignore_index=True)

로그인 후 복사

Pandas를 사용한 10가지 대체 데이터 처리 기술

我们想将category分成多列显示，例如下面的

Pandas를 사용한 10가지 대체 데이터 처리 기술

先看看最慢的apply：

def dummies_series_apply(df):
return df.join(df['category'].apply(pd.Series) 
.stack() 
.str.get_dummies() 
.groupby(level=0) 
.sum()) 
.drop("category", axis=1)
 %timeit dummies_series_apply(df.copy())
 #5.96 s ± 66.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

로그인 후 복사

sklearn的MultiLabelBinarizer

from sklearn.preprocessing import MultiLabelBinarizer
 def sklearn_mlb(df):
mlb = MultiLabelBinarizer()
return df.join(pd.DataFrame(mlb.fit_transform(df['category']), columns=mlb.classes_)) 
.drop("category", axis=1)
 %timeit sklearn_mlb(df.copy())
 #35.1 ms ± 1.31 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

로그인 후 복사

是不是快了很多，我们还可以使用一般的向量化操作对其求和：

def dummies_vectorized(df):
return pd.get_dummies(df.explode("category"), prefix="cat") 
.groupby(["a", "b"]) 
.sum() 
.reset_index()
 %timeit dummies_vectorized(df.copy())
 #29.3 ms ± 1.22 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

로그인 후 복사

Pandas를 사용한 10가지 대체 데이터 처리 기술

使用第一个方法(在StackOverflow上的回答中非常常见)会给出一个非常慢的结果。而其他两个优化的方法的时间是非常快速的。

总结

我希望每个人都能从这些技巧中学到一些新的东西。重要的是要记住尽可能使用向量化操作而不是apply()。此外，除了csv之外，还有其他有趣的存储数据集的方法。不要忘记使用分类数据类型，它可以节省大量内存。感谢阅读!

위 내용은 Pandas를 사용한 10가지 대체 데이터 처리 기술의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7681

자바 튜토리얼

1639

Cakephp 튜토리얼

1393

라라벨 튜토리얼

1286

PHP 튜토리얼

1229

Related knowledge

Win11 팁 공유: Microsoft 계정으로 로그인을 건너뛰는 한 가지 요령 Mar 27, 2024 pm 02:57 PM

Win11 팁 공유: Microsoft 계정 로그인을 건너뛰는 한 가지 요령 Windows 11은 Microsoft가 출시한 최신 운영 체제로, 새로운 디자인 스타일과 많은 실용적인 기능을 갖추고 있습니다. 그러나 일부 사용자의 경우 시스템을 부팅할 때마다 Microsoft 계정에 로그인해야 하는 것이 다소 성가실 수 있습니다. 당신이 그들 중 하나라면, Microsoft 계정 로그인을 건너뛰고 데스크탑 인터페이스로 직접 들어갈 수 있는 다음 팁을 시도해 볼 수도 있습니다. 먼저 로그인하려면 Microsoft 계정 대신 시스템에 로컬 계정을 만들어야 합니다. 이렇게 하면 장점은

베테랑의 필수품: C 언어의 * 및 &에 대한 팁과 주의사항 Apr 04, 2024 am 08:21 AM

C 언어에서는 다른 변수의 주소를 저장하는 포인터를 나타내고, &는 변수의 메모리 주소를 반환하는 주소 연산자를 나타냅니다. 포인터 사용에 대한 팁에는 포인터 정의, 포인터 역참조 및 포인터가 유효한 주소를 가리키는지 확인하는 것이 포함됩니다. 주소 연산자 사용에 대한 팁에는 변수 주소 가져오기 및 배열 요소의 주소를 가져올 때 배열의 첫 번째 요소 주소 반환이 포함됩니다. . 문자열을 반전시키기 위해 포인터 및 주소 연산자를 사용하는 방법을 보여주는 실제 예입니다.

초보자를 위한 양식 작성 요령은 무엇입니까? Mar 21, 2024 am 09:11 AM

우리는 엑셀로 표를 생성하고 편집하는 일이 많은데 이제 막 소프트웨어를 접한 초보자로서 엑셀을 이용해 표를 만드는 방법은 생각보다 쉽지 않습니다. 아래에서는 초보자, 즉 초보자가 마스터해야 할 테이블 생성의 몇 가지 단계에 대해 몇 가지 훈련을 수행합니다. 초보자를 위한 샘플 양식은 다음과 같습니다. 작성 방법을 살펴보겠습니다! 1. 새로운 엑셀 문서를 만드는 방법은 두 가지가 있습니다. [바탕화면] - [새로 만들기] - [xls] 파일의 빈 곳을 마우스 오른쪽 버튼으로 클릭하시면 됩니다. [시작]-[모든 프로그램]-[Microsoft Office]-[Microsoft Excel 20**]을 사용할 수도 있습니다. 2. 새 ex를 두 번 클릭합니다.

VSCode 시작 가이드: 초보자가 사용 기술을 빠르게 익히기 위해 꼭 읽어야 할 책입니다! Mar 26, 2024 am 08:21 AM

VSCode(Visual Studio Code)는 Microsoft에서 개발한 오픈 소스 코드 편집기로, 강력한 기능과 풍부한 플러그인 지원을 갖추고 있어 개발자가 선호하는 도구 중 하나입니다. 이 기사에서는 초보자가 VSCode 사용 기술을 빠르게 익히는 데 도움이 되는 소개 가이드를 제공합니다. 이번 글에서는 VSCode 설치 방법, 기본적인 편집 작업, 단축키, 플러그인 설치 등을 소개하고, 독자들에게 구체적인 코드 예시를 제공하겠습니다. 1. 먼저 VSCode를 설치하세요.

Golang은 데이터 처리 효율성을 어떻게 향상시키나요? May 08, 2024 pm 06:03 PM

Golang은 동시성, 효율적인 메모리 관리, 기본 데이터 구조 및 풍부한 타사 라이브러리를 통해 데이터 처리 효율성을 향상시킵니다. 구체적인 장점은 다음과 같습니다. 병렬 처리: 코루틴은 동시에 여러 작업 실행을 지원합니다. 효율적인 메모리 관리: 가비지 수집 메커니즘이 자동으로 메모리를 관리합니다. 효율적인 데이터 구조: 슬라이스, 맵, 채널과 같은 데이터 구조는 데이터에 빠르게 액세스하고 처리합니다. 타사 라이브러리: fasthttp 및 x/text와 같은 다양한 데이터 처리 라이브러리를 포함합니다.

PHP 프로그래밍 기술: 3초 안에 웹페이지로 이동하는 방법 Mar 24, 2024 am 09:18 AM

제목: PHP 프로그래밍 팁: 3초 안에 웹 페이지로 이동하는 방법 웹 개발을 하다 보면 일정 시간 내에 자동으로 다른 페이지로 이동해야 하는 상황이 자주 발생합니다. 이 기사에서는 PHP를 사용하여 3초 내에 페이지로 이동하는 프로그래밍 기술을 구현하는 방법을 소개하고 구체적인 코드 예제를 제공합니다. 먼저, 페이지 점프의 기본 원리는 HTTP 응답 헤더의 Location 필드를 통해 구현됩니다. 이 필드를 설정하면 브라우저가 지정된 페이지로 자동으로 이동할 수 있습니다. 다음은 P를 사용하는 방법을 보여주는 간단한 예입니다.

Laravel과 CodeIgniter의 데이터 처리 기능은 어떻게 비교됩니까? Jun 01, 2024 pm 01:34 PM

Laravel과 CodeIgniter의 데이터 처리 기능을 비교해 보세요. ORM: Laravel은 클래스-객체 관계형 매핑을 제공하는 EloquentORM을 사용하는 반면, CodeIgniter는 데이터베이스 모델을 PHP 클래스의 하위 클래스로 표현하기 위해 ActiveRecord를 사용합니다. 쿼리 빌더: Laravel에는 유연한 체인 쿼리 API가 있는 반면, CodeIgniter의 쿼리 빌더는 더 간단하고 배열 기반입니다. 데이터 검증: Laravel은 사용자 정의 검증 규칙을 지원하는 Validator 클래스를 제공하는 반면, CodeIgniter는 내장된 검증 기능이 적고 사용자 정의 규칙을 수동으로 코딩해야 합니다. 실제 사례: 사용자 등록 예시에서는 Lar를 보여줍니다.

공개된 Win11 트릭: Microsoft 계정 로그인을 우회하는 방법 Mar 27, 2024 pm 07:57 PM

공개된 Win11 트릭: Microsoft 계정 로그인을 우회하는 방법 최근 Microsoft는 새로운 운영 체제인 Windows11을 출시하여 많은 관심을 받았습니다. 이전 버전에 비해 Windows 11은 인터페이스 디자인과 기능 개선 측면에서 많은 새로운 조정이 이루어졌지만 가장 눈길을 끄는 점은 사용자가 Microsoft 계정으로 시스템에 로그인하도록 강요한다는 것입니다. . 일부 사용자의 경우 로컬 계정으로 로그인하는 데 더 익숙하고 개인 정보를 Microsoft 계정에 바인딩하는 것을 꺼릴 수 있습니다.

See all articles

Pandas를 사용한 10가지 대체 데이터 처리 기술

1. 범주형

2. 행-열 변환

3.apply()는 매우 느립니다.

Swifter

Pandaralllel

4.

5. Csv, 압축 또는 쪽모이 세공?

6, value_counts ()

7. Modin

8.extract()

9、读写剪贴板

10、数组列分成多列

总结

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제