문제:
대형 Pandas 데이터 프레임을 전달하려고 시도합니다. 함수를 실행하면 메모리 오류가 발생하며 이는 데이터프레임 크기가 과도하다는 의미입니다. 목표는 다음과 같습니다.
해결책:
행 개수로 분할
고정된 행 개수로 분할하는 것은 목록을 사용하여 수행할 수 있습니다. numpy의 comprehension 또는 array_split:
<code class="python">n = 200000 # Chunk row size list_df = [df[i:i + n] for i in range(0, df.shape[0], n)]</code>
<code class="python">list_df = np.array_split(df, math.ceil(len(df) / n))</code>
AcctName으로 분할
AcctName과 같은 특정 열 값으로 분할하려면:
<code class="python">list_df = [] for n, g in df.groupby('AcctName'): list_df.append(g)</code>
통합
대형 데이터프레임이 분할되면 pd.concat을 사용하여 다시 조립할 수 있습니다:
<code class="python">consolidated_df = pd.concat(list_df)</code>
위 내용은 다음은 솔루션의 다양한 측면을 강조하는 몇 가지 제목 옵션입니다. 문제에 집중: * 메모리 오류 없이 대형 Pandas DataFrame을 처리하는 방법은 무엇입니까? * Pandas의 메모리 오류:의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!