Pandas 사용자는 일반적으로 기존 열을 기반으로 새 열을 만들어야 하는 경우가 있습니다. 이 작업에 널리 사용되는 두 가지 방법은 Pandas의 적용 기능과 NumPy의 벡터화입니다. 그러나 이러한 접근 방식 간의 속도 차이는 철저하게 검토되지 않은 문제입니다.
관찰과 실험을 바탕으로 다음과 같이 예상됩니다. np.Vectorize는 df.apply보다 훨씬 빠르며, 특히 대규모 데이터세트의 경우 더욱 그렇습니다.
성능 격차의 주된 이유는 다음과 같습니다. 각 접근 방식의 특징.
df.apply는 DataFrame의 각 행을 반복하고 지정된 함수를 평가하는 방식으로 작동합니다. 여기에는 인덱스, 값 및 속성으로 인해 상당한 오버헤드가 발생하는 Pandas 시리즈 객체의 생성 및 조작이 포함됩니다.
반면, np.Vectorize는 입력 함수를 범용 함수(ufunc)로 변환합니다. ) NumPy 배열에서 직접 작동합니다. 이를 통해 고도로 최적화되고 Python 수준 루프를 방지하는 벡터화된 계산이 가능해졌습니다.
질문의 실험은 np의 상당한 속도 이점을 보여줍니다. 다양한 데이터 세트 크기에 대해 df.apply를 통해 벡터화합니다. 100만 행이 있는 DataFrame의 경우 np.Vectorize는 25배 이상 빠른 것으로 나타났습니다.
np.Vectorize는 일반적으로 더 빠르지만, 고려해야 할 몇 가지 중요한 주의 사항이 있습니다.
위 내용은 np.Vectorize 대 Pandas 적용: 대규모 데이터 세트에 어느 것이 더 빠릅니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!