Pandas DataFrame에서 누락된 날짜 처리
Pandas DataFrame으로 데이터를 분석할 때 데이터에 공백이나 누락된 날짜가 있는 시나리오를 접하는 것이 일반적입니다. 데이터 세트. 이로 인해 데이터를 구성하거나 조작할 때 어려움이 발생할 수 있습니다.
예를 들어, 어떤 날짜에는 여러 이벤트가 있지만 다른 날짜에는 이벤트가 없는 데이터 프레임을 생각해 보세요. idx 변수(날짜 범위)의 크기는 일정하게 유지되지만 s 계열(날짜별 이벤트 수를 나타냄)에는 idx에 있는 날짜의 하위 집합만 포함될 수 있습니다. 결과적으로 이러한 계열을 그리려고 하면 두 데이터 세트의 크기가 일치하지 않기 때문에 오류가 발생할 수 있습니다.
이 문제를 해결하는 한 가지 접근 방식은 누락된 날짜를 s 계열에 추가하는 것입니다. 개수는 0입니다. 이렇게 하면 이벤트가 없는 날짜에 대해 값이 0인 완전한 그래프가 가능해집니다. 이를 달성하려면 Pandas Series의 reindex 방법을 사용할 수 있습니다.
reindex 방법을 사용하면 누락된 값이 있는 인덱스를 지정하고 해당 값을 지정된 값으로 채울 수 있습니다. 이 경우 idx 시리즈를 새 인덱스로 제공하고 누락된 날짜에 채우기 값 0을 할당할 수 있습니다.
예:
import pandas as pd idx = pd.date_range('09-01-2013', '09-30-2013') s = df.groupby(['simpleDate']).size() s.index = pd.DatetimeIndex(s.index) s = s.reindex(idx, fill_value=0)
이 코드는 시리즈를 생성합니다. s는 idx 범위의 모든 날짜를 포함하며 원래 s에 없었던 날짜의 값은 0입니다. 그런 다음 이 계열을 idx의 날짜에 대해 플롯하여 누락된 날짜가 0 값으로 표시된 완전한 그래프를 얻을 수 있습니다.
위 내용은 정확한 플로팅을 위해 Pandas DataFrames에서 누락된 날짜를 어떻게 처리할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!