기존의 기계 학습 알고리즘은 시계열 데이터의 시간적 순서를 캡처할 수 없습니다. 데이터 과학자는 데이터의 중요한 특성을 여러 측정항목으로 포착하기 위해 관련 기능 엔지니어링을 수행해야 합니다. 수많은 시계열 특징을 생성하고 그로부터 관련 특징을 추출하는 것은 시간이 많이 걸리고 지루한 작업입니다.
Python의 tsfresh 패키지는 시계열 데이터에 대한 수백 가지 표준 공통 기능을 생성할 수 있습니다. 이번 글에서는 tsfresh 패키지의 사용법을 심도있게 다루겠습니다.
tsfresh는 수백 가지 관련 시계열 기능을 생성할 수 있는 오픈 소스 패키지입니다. tsfresh에서 생성된 기능은 분류, 예측 및 이상치 감지 사용 사례를 해결하는 데 사용될 수 있습니다.
tsfresh 패키지는 시계열 데이터에 대한 특성 추출을 수행하기 위한 다양한 기능을 제공합니다. conda:
pip install -U tsfresh# orconda install -c conda-forge tsfresh
import pandas as pdfrom tsfresh import select_features# Read the time-series datadf = pd.read_excel("train.xlsx", parse_dates=['date']).set_index('date')# automated feature generationfeatures = tsfresh.extract_features(df, column_, column_sort="date")
3. 빅데이터와 호환
시계열 데이터가 많을 때. tsfresh는 또한 기능 생성/추출을 확장하는 API와 대용량 데이터에 대한 기능 선택 구현을 제공합니다.
멀티 스레드 처리: 기본 tsfresh 패키지는 기능 생성/추출 및 기능 선택을 여러 코어에서 병렬로 실행할 수 있습니다. 분산 프레임워크: tsfresh는 또한 계산 속도를 높이기 위해 여러 시스템에 기능 계산을 분산하는 자체 분산 프레임워크를 구현합니다. Spark 호환: tsfresh는 Spark 또는 Dask를 사용하여 매우 큰 데이터를 처리할 수도 있습니다.마지막으로 tsfresh는 몇 줄의 Python 코드로 시계열 기능에 대한 관련 기능을 생성하고 선택할 수 있습니다. 시간 기반 데이터 샘플의 여러 도메인에서 750개 이상의 실제 테스트된 기능을 자동으로 추출하고 선택합니다. 데이터 과학자가 기능 엔지니어링에 낭비하는 작업 시간을 많이 줄여줍니다.
위 내용은 적은 양의 코드로 다수의 시계열 특징 추출의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!