Pandas Dataframe에 누락된 날짜 추가
시계열 데이터를 처리할 때 누락된 날짜가 발생하는 것이 일반적입니다. 특정 날짜에는 이벤트가 발생하지만 다른 날짜에는 이벤트가 발생하지 않는 경우 이러한 현상이 발생할 수 있습니다. 이 데이터를 정확하게 표현하려면 누락된 날짜를 고려해야 합니다.
제공된 코드에서 날짜를 인덱스로 사용하여 Pandas 데이터 프레임이 생성됩니다. 날짜 범위에는 특정 기간 내의 모든 날짜가 포함되지만 일부 날짜에는 연결된 이벤트가 없기 때문에 데이터 프레임의 크기가 더 작습니다. 이로 인해 날짜 범위와 데이터 프레임을 표시하려고 할 때 크기가 일치하지 않습니다.
선호되는 접근 방식은 개수가 0인 계열에 누락된 날짜를 추가하는 것입니다. 이렇게 하면 모든 날짜가 포함된 완전한 그래프가 보장됩니다. 이를 위해 재색인 방법을 활용할 수 있습니다:
import pandas as pd idx = pd.date_range('09-01-2013', '09-30-2013') s = pd.Series({'09-02-2013': 2, '09-03-2013': 10, '09-06-2013': 5, '09-07-2013': 1}) s.index = pd.DatetimeIndex(s.index) s = s.reindex(idx, fill_value=0)
이렇게 하면 '09-01-2013'과 '09-30-2013' 사이에 누락된 모든 날짜가 0으로 채워진 새 계열 s가 출력됩니다. 값:
2013-09-01 0 2013-09-02 2 2013-09-03 10 2013-09-04 0 2013-09-05 0 2013-09-06 5 2013-09-07 1 2013-09-08 0 ...
재색인을 사용하면 누락된 날짜가 시리즈에 추가되어 정확한 플로팅 및 분석이 가능합니다. 시계열 데이터.
위 내용은 Pandas DataFrame에서 누락된 날짜를 채우는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!