참가자별로 백만 행 DataFrame을 더 작은 DataFrame으로 효율적으로 분할하는 방법은 무엇입니까?-파이썬 튜토리얼-php.cn

참가자별로 백만 행 DataFrame을 더 작은 DataFrame으로 효율적으로 분할하는 방법은 무엇입니까?

Susan Sarandon

풀어 주다： 2024-12-03 01:31:11

원래의

399명이 탐색했습니다.

How to Efficiently Split a Million-Row DataFrame into Smaller DataFrames by Participant?

DataFrame을 여러 DataFrame으로 분할

대량 데이터세트를 처리할 때 효율적인 처리를 위해 더 작은 단위로 분할해야 할 수 있습니다. 이는 고유 식별자를 기반으로 DataFrame을 나누어 여러 개의 작은 DataFrame을 생성함으로써 달성할 수 있습니다. 이 경우 목표는 100만 행의 DataFrame을 'name' 변수로 식별되는 각 참가자당 하나씩 60개의 더 작은 DataFrame으로 분할하는 것입니다.

안타깝게도 DataFrame 분할을 위해 제공된 Python 코드는 실패합니다. 작업을 완료하십시오. 무기한 실행하는 대신 Pandas의 슬라이싱 및 인덱싱 기능을 활용하는 대체 접근 방식을 권장합니다. 수정된 코드는 다음과 같습니다.

import pandas as pd

# Create a list of unique participant names
unique_names = data['name'].unique()

# Create a dictionary to store the DataFrames for each participant
participant_data = {name: pd.DataFrame() for name in unique_names}

# Populate the dictionary with sliced DataFrames for each participant
for name in unique_names:
    participant_data[name] = data[data['name'] == name]

로그인 후 복사

이 코드는 '이름' 열을 기반으로 DataFrame을 효율적으로 분할하여 이전 코드의 함정을 피하면서 각 참가자에 대해 별도의 DataFrame을 생성합니다.

위 내용은 참가자별로 백만 행 DataFrame을 더 작은 DataFrame으로 효율적으로 분할하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!