백엔드 개발 파이썬 튜토리얼 Pandas에서 CROSS JOIN을 효율적으로 수행하는 방법은 무엇입니까?

Pandas에서 CROSS JOIN을 효율적으로 수행하는 방법은 무엇입니까?

Dec 06, 2024 am 02:21 AM

How to Efficiently Perform a CROSS JOIN in Pandas?

Pandas를 사용한 교차 조인(CROSS JOIN)

이 게시물에서는 데카르트 곱(CROSS)을 수행하는 가장 효율적인 방법을 탐색합니다. JOIN) Pandas에서의 작업.

기준선 방법: 임시 키 열

일반적인 접근 방식은 두 DataFrame에 임시 키 열을 할당하고 해당 키에 대해 다대다 조인을 수행한 다음 키 열을 삭제하는 것입니다.

left = pd.DataFrame({'col1' : ['A', 'B', 'C'], 'col2' : [1, 2, 3]})
right = pd.DataFrame({'col1' : ['X', 'Y', 'Z'], 'col2' : [20, 30, 50]})

def cartesian_product_basic(left, right):
    return (
       left.assign(key=1).merge(right.assign(key=1), on='key').drop('key', 1))

cartesian_product_basic(left, right)
로그인 후 복사

NumPy 기반 구현

더 큰 규모의 성능 향상 데이터세트에서 NumPy의 데카르트 곱 구현을 활용합니다.

import numpy as np

def cartesian_product(*arrays):
    la = len(arrays)
    dtype = np.result_type(*arrays)
    arr = np.empty([len(a) for a in arrays] + [la], dtype=dtype)
    for i, a in enumerate(np.ix_(*arrays)):
        arr[...,i] = a
    return arr.reshape(-1, la)  
로그인 후 복사

고유하지 않은 인덱스 데이터프레임에 대한 일반화

이 접근 방식을 확장하여 비-고유 인덱스 데이터프레임을 처리할 수 있습니다. 고유한 인덱스:

def cartesian_product_generalized(left, right):
    la, lb = len(left), len(right)
    idx = cartesian_product(np.ogrid[:la], np.ogrid[:lb])
    return pd.DataFrame(
        np.column_stack([left.values[idx[:,0]], right.values[idx[:,1]]]))
로그인 후 복사

두 개의 DataFrame에 대한 단순화된 구현

두 개의 DataFrame만 처리할 때 np.broadcast_arrays를 활용하는 더 간단한 기술로 비슷한 성능을 얻을 수 있습니다.

def cartesian_product_simplified(left, right):
    la, lb = len(left), len(right)
    ia2, ib2 = np.broadcast_arrays(*np.ogrid[:la,:lb])

    return pd.DataFrame(
        np.column_stack([left.values[ia2.ravel()], right.values[ib2.ravel()]]))
로그인 후 복사

공연 비교

이러한 방법을 벤치마킹하면 NumPy 기반 구현이 특히 대규모 데이터 세트의 경우 가장 빠른 성능을 제공한다는 것을 알 수 있습니다.

[성능 비교 차트 이미지]

추가 자료

Pandas에 대해 더 자세히 알아보려면 병합 작업에서는 다음 주제를 살펴보세요.

  • [병합 기본 사항](https://pbpython.com/pandas-merging-101-cheat-sheet.html)
  • [색인 -기반을 둔 조인](https://pbpython.com/pandas-merging-101-join-indexes.html)
  • [여러 DataFrame으로 일반화](https://pbpython.com/pandas-merging-on- 다중 데이터프레임.html)

위 내용은 Pandas에서 CROSS JOIN을 효율적으로 수행하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

뜨거운 기사 태그

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까? HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까? Mar 10, 2025 pm 06:54 PM

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까?

파이썬의 이미지 필터링 파이썬의 이미지 필터링 Mar 03, 2025 am 09:44 AM

파이썬의 이미지 필터링

파이썬에서 파일을 다운로드하는 방법 파이썬에서 파일을 다운로드하는 방법 Mar 01, 2025 am 10:03 AM

파이썬에서 파일을 다운로드하는 방법

Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법 Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법 Mar 05, 2025 am 09:58 AM

Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법

플라스크에 소개 : 연락처 페이지 추가 플라스크에 소개 : 연락처 페이지 추가 Feb 28, 2025 am 10:03 AM

플라스크에 소개 : 연락처 페이지 추가

Python을 사용하여 PDF 문서를 사용하는 방법 Python을 사용하여 PDF 문서를 사용하는 방법 Mar 02, 2025 am 09:54 AM

Python을 사용하여 PDF 문서를 사용하는 방법

Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법 Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법 Mar 02, 2025 am 10:10 AM

Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까? Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까? Mar 10, 2025 pm 06:52 PM

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까?

See all articles