라이브러리의 힘을 활용합니다. Pandas는 행을 통과하는 것보다 훨씬 빠른 벡터화 된 작업을 제공합니다. pandas
다음은 다음과 같은 방법입니다.
메소드는 부울 결과를 누적으로 합산하여 새로운 값이 발생할 때만 증가하는 순차적 카운터를 효과적으로 만듭니다. 이것은 'col1'에 동일한 값의 각 값 그룹에 고유 한 연속 숫자를 할당하여 'col2'라는 새로운 열을 저장합니다.
열에서 중복 값을 기반으로 순차 ID를 생성하는 가장 효율적인 Python 방법은 무엇입니까? 연속 숫자를 단순히 할당하는 대신 그룹화를 명시 적으로 반영하는 ID를 만들 수 있습니다. 이는 그룹 식별자를 각 그룹 내에서 순차적 인 카운터와 결합하여 달성됩니다.import pandas as pd # Sample data data = {'col1': ['A', 'A', 'B', 'B', 'B', 'C', 'A', 'A', 'D']} df = pd.DataFrame(data) # Efficiently assign sequential numbers df['col2'] = (df['col1'] != df['col1'].shift()).cumsum() print(df)
이 향상된 코드는 먼저 이전과 동일한 방법을 사용하여 그룹을 식별합니다. 그런 다음 각 그룹 내에서 순차적 카운터를 생성합니다. 0 대신 1에서 카운트를 시작하기 위해 1을 추가합니다. 마지막으로, 'col1'의 원래 값을 순차 ID와 연결하여 'final_id'에서보다 유익한 고유 식별자를 만듭니다. 이 방법은 팬더의 벡터화 된 작업으로 인해 큰 데이터 세트를 효율적으로 처리합니다. df['col1'].shift()
는 동일한 값으로 그룹화하는 동안 열에 순차적 번호를 추가하는 동안 파이썬이 열에 순차적 번호를 추가 할 수 있습니까? 예, Python, 특히 Pandas 라이브러리와 함께이 작업에서 엑셀 할 수 있습니다. 이전 예제는이 기능을 보여줍니다. df['col1'] != df['col1'].shift()
와 결합 된 .cumsum()
메소드는 열의 동일한 값으로 정의 된 그룹 내에서 순차적 번호를 추가하는 강력하고 효율적인 방법을 제공합니다. 효율성은 팬더의 전체 데이터 프레임에서 이러한 작업을 한 번에 한 번에 수행하는 능력에서 비롯됩니다.
주로 PANTORIDES OPERTIONS에 초점을 맞추기 위해 고유 한 순차적 ID를 생성하기위한 코드를 최적화하고 코드를 최적화합니다. 이전 예제는 이미이 최적화를 보여줍니다. 매우 큰 데이터 세트의 성능을 더욱 향상시키기 위해 :
inplace=True
대체 데이터 구조를 고려하십시오 (드물게 필요하지 않음) : 위 내용은 동일한 값이 동일한 시퀀스 숫자를 갖도록 Python의 데이터 열에 연속 시퀀스 번호를 효율적으로 추가하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!