대형 DataFrame은 작업하기 어려울 수 있으며, 특히 함수를 통해 전달할 때 더욱 그렇습니다. 큰 DataFrame으로 작업할 때 메모리 오류가 발생할 수 있으며 이를 더 작은 청크로 분할하면 이 문제를 완화하는 데 도움이 될 수 있습니다.
DataFrame을 더 작은 청크로 분할하려면:
<code class="python">n = 200000 # chunk row size list_df = [df[i:i+n] for i in range(0, df.shape[0], n)]</code>
<code class="python">list_df = np.array_split(df, math.ceil(len(df)/n))</code>
청크에 액세스하려면 간단히 목록을 인덱싱하세요.
<code class="python">list_df[0] list_df[1] etc...</code>
AcctName별로 DataFrame을 분할하면:
<code class="python">list_df = [] for n, g in df.groupby('AcctName'): list_df.append(g)</code>
DataFrame이 분할되면 함수를 통해 전달된 다음 pd.concat을 사용하여 단일 DataFrame으로 재조립될 수 있습니다.
위 내용은 메모리 오류를 방지하기 위해 Pandas에서 대규모 DataFrame을 어떻게 효과적으로 처리할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!