팬더는 Numpy 위에 구축 된 강력한 파이썬 라이브러리로 고성능, 사용하기 쉬운 데이터 구조 및 데이터 분석 도구를 제공합니다. 파이썬의 많은 데이터 과학 워크 플로의 초석입니다. 데이터 분석을 위해 팬더를 효과적으로 사용하려면 일반적으로 다음 단계를 따릅니다.
PIP를 입력하십시오
. 팬더를 pd
로 가져옵니다. PD
부분은 타이핑을 더 쉽게 타이핑하기 위해 이름을 단축하는 일반적인 규칙입니다. 데이터 수집 : Pandas는 다양한 소스의 데이터를 읽는 데 탁월합니다. 일반적인 기능에는 다음이 포함됩니다. file.
데이터 탐색 : 데이터를로드 한 후 다음과 같은 기능을 사용하여 탐색합니다. 몇 줄.
.info ()
: 데이터 유형 및 비 널 값을 포함하여 데이터 프레임 요약을 제공합니다. .describe ()
: 숫자 컬럼에 대한 설명, 평균, std, min, max 등)를 생성합니다. 데이터 프레임의 (행, 열). .to_csv ()
, .to_json ()
팬더는 데이터 조작을위한 풍부한 기능 세트를 제공합니다. 다음은 가장 자주 사용되는 것 중 일부입니다.
[]
: 열 레이블 또는 부울 인덱싱을 사용한 기본 선택. df [ 'column_name']
단일 열을 선택합니다. df [boolean_condition]
조건에 따라 행을 선택합니다. .loc []
: 레이블 기반 인덱싱. 라벨로 행과 열을 선택할 수 있습니다. df.loc [row_label, column_label]
.iloc []
: 정수 기반 인덱싱. 정수 위치별로 행과 열을 선택할 수 있습니다. df.iloc [row_index, column_index]
데이터 청소 :
.replace ()
: 값을 다른 값으로 대체합니다. 데이터 변환 :
.groupby ()
: 집계 또는 기타 작업을위한 하나 이상의 열을 기반으로 한 그룹 데이터. 열. .merge ()
: 공통 열을 기반으로 데이터 프레임에 합류합니다. .concat ()
: 데이터 프레임을 수직 또는 수평으로 연결합니다. 집계 : .mean ()
, .max ()
, .min ()
, .count ()
, .std ()
등 통계. .fillna ()
-평균, 중간, 모드 또는 상수)로 채우거나보다 정교한 대치 기술을 사용하십시오 (예 : Scikit-Learn의 불리한 임페이터). .astype ()
를 사용하여 데이터 유형을 변환합니다 (예 : 문자열, 숫자로, 날짜 날짜로 DateTime 오브젝트). 잘못된 데이터 유형은 분석을 방해 할 수 있습니다.
spandardscaler
또는 minmaxscaler
). 이것은 많은 기계 학습 알고리즘에 중요합니다. 를 사용하여 중복 행을 제거하십시오. <drop_duplicates>. 여기에는 열을 결합, 비율 생성 또는 문자열로부터 정보 추출을 포함 할 수 있습니다. </drop_duplicates>
팬더 워크 플로우를 개선하려면 이러한 모범 사례를 고려하십시오. 작업 : 팬더를 사용하면보다 간결하고 효율적인 코드를 위해 여러 작업을 함께 체인 할 수 있습니다.
chunksize
in pd.read_csv ()
와 같은 기술을 사용하여 작은 청크에서 데이터를 읽거나 Dask 또는 vaex를위한 데이터를 읽습니다. 계산. 위 내용은 파이썬에서 데이터 분석에 팬더를 사용하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!