콜백 없이 그룹화된 DataFrame에 순차 카운터 열 추가
DataFrame 내의 그룹에 순차 카운터 열을 추가하려고 하면 콜백 함수는 가장 효율적인 접근 방식이 아닐 수 있습니다. 다음 DataFrame을 고려하세요.
df = pd.DataFrame( columns="index c1 c2 v1".split(), data=[ [0, "A", "X", 3, ], [1, "A", "X", 5, ], [2, "A", "Y", 7, ], [3, "A", "Y", 1, ], [4, "B", "X", 3, ], [5, "B", "X", 1, ], [6, "B", "X", 3, ], [7, "B", "Y", 1, ], [8, "C", "X", 7, ], [9, "C", "Y", 4, ], [10, "C", "Y", 1, ], [11, "C", "Y", 6, ],]).set_index("index", drop=True)
목표는 각 그룹의 순차 번호를 포함하는 새 열 "seq"를 생성하여 다음과 같은 결과를 출력하는 것입니다.
c1 c2 v1 seq 0 A X 3 1 1 A X 5 2 2 A Y 7 1 3 A Y 1 2 4 B X 3 1 5 B X 1 2 6 B X 3 3 7 B Y 1 1 8 C X 7 1 9 C Y 4 1 10 C Y 1 2 11 C Y 6 3
콜백 함수 방지:
콜백 함수를 사용하는 대신 cumcount() 메서드를 사용하면 동일한 결과를 더 효율적으로 얻을 수 있습니다. cumcount()는 그룹에서 각 고유 값의 발생 횟수를 계산하고 누적 횟수가 포함된 pandas 시리즈를 반환합니다.
df["seq"] = df.groupby(['c1', 'c2']).cumcount() + 1
이 접근 방식은 DataFrame을 직접 수정하고 콜백 함수의 오버헤드를 방지합니다.
시작 번호 사용자 정의:
원하는 경우 0 대신 1에서 시작하도록 시퀀스를 지정하면 결과에 1을 추가할 수 있습니다.
df["seq"] = df.groupby(['c1', 'c2']).cumcount() + 1
cumcount() 메서드를 활용하여 그룹화된 데이터 프레임에 순차 카운터 열을 추가하는 프로세스를 단순화하여 두 가지 모두를 개선합니다. 가독성과 성능이 뛰어납니다.
위 내용은 콜백 함수를 사용하지 않고 그룹화된 Pandas DataFrames에 순차적 카운터 열을 효율적으로 추가하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!