Pandas에서 데이터프레임을 반복하는 가장 효율적인 방법
데이터프레임에 저장된 복잡한 금융 데이터로 작업할 때 효율적인 반복 기술이 중요합니다. enumerate(df.values)를 사용하는 기존 접근 방식은 비효율적일 수 있습니다. 다행히 pandas에서는 더욱 최적화된 솔루션을 도입했습니다.
Pandas iterrows 함수 사용
최근 pandas 버전에서는 행을 반복하는 iterrows 함수를 제공합니다.
for index, row in df.iterrows(): # Perform logic here
이 방법은 인덱스와 행 데이터를 모두 제공하므로 효율성을 보장하는 동시에 사용자 정의가 가능합니다. 분석.
대안: Pandas itertuples 함수
더 빠른 옵션은 itertuples 함수를 사용하는 것입니다.
for idx, row_obj in df.itertuples(index=True): # Perform logic here
이 접근 방식은 numpy 함수를 활용합니다. 행 반복을 우회하여 데이터를 직접 조작하여 성능을 크게 향상시킬 수 있습니다.
Numpy 연산 사용하기
unutbu가 제안한 것처럼 numpy 함수를 직접 활용하는 것이 가장 빠른 코드를 제공할 수 있습니다. 행을 반복하는 대신 전체 데이터 프레임에 작업을 적용할 수 있습니다.
df['new_column'] = np.where(df['open'] > 10, 'high', 'low')
이 접근 방식은 불필요한 반복을 제거하고 numpy의 벡터화된 작업을 활용하여 뛰어난 효율성을 제공합니다.
위 내용은 Pandas Dataframe을 효율적으로 반복하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!