대량 데이터세트를 처리할 때 효율적인 처리를 위해 더 작은 단위로 분할해야 할 수 있습니다. 이는 고유 식별자를 기반으로 DataFrame을 나누어 여러 개의 작은 DataFrame을 생성함으로써 달성할 수 있습니다. 이 경우 목표는 100만 행의 DataFrame을 'name' 변수로 식별되는 각 참가자당 하나씩 60개의 더 작은 DataFrame으로 분할하는 것입니다.
안타깝게도 DataFrame 분할을 위해 제공된 Python 코드는 실패합니다. 작업을 완료하십시오. 무기한 실행하는 대신 Pandas의 슬라이싱 및 인덱싱 기능을 활용하는 대체 접근 방식을 권장합니다. 수정된 코드는 다음과 같습니다.
import pandas as pd # Create a list of unique participant names unique_names = data['name'].unique() # Create a dictionary to store the DataFrames for each participant participant_data = {name: pd.DataFrame() for name in unique_names} # Populate the dictionary with sliced DataFrames for each participant for name in unique_names: participant_data[name] = data[data['name'] == name]
이 코드는 '이름' 열을 기반으로 DataFrame을 효율적으로 분할하여 이전 코드의 함정을 피하면서 각 참가자에 대해 별도의 DataFrame을 생성합니다.
위 내용은 참가자별로 백만 행 DataFrame을 더 작은 DataFrame으로 효율적으로 분할하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!