Pandas를 사용한 데이터 탐색: 초보자 가이드
소개
데이터 과학의 세계에서 Pandas는 Python의 데이터 조작 및 분석을 위한 가장 강력한 도구 중 하나입니다.
NumPy 라이브러리 위에 구축된 Pandas는 데이터 구조와 기능을 제공합니다
데이터 세트 로드부터 변환 및 요약까지 데이터 분석을 빠르고 쉽게 만들어줍니다.
데이터 과학이나 Python을 처음 접하는 경우 이 가이드에서는 Pandas를 사용한 데이터 탐색의 기본 사항을 소개하고 모든 데이터 프로젝트의 기본이 되는 필수 기술을 다룹니다.
이 가이드에서 살펴볼 내용은 다음과 같습니다.
•Pandas에 데이터를 로드하는 방법
•데이터를 검사하고 탐색하는 기본 방법
•데이터 필터링, 정렬, 요약 기술
•결측값 처리
Pandas로 데이터 탐색을 시작해 보세요!
데이터 로드 중
데이터 분석 프로젝트의 첫 번째 단계는
인 Pandas DataFrame에 데이터를 로드하는 것입니다.
Pandas의 기본 데이터 구조.
DataFrame은 스프레드시트와 마찬가지로 행과 열에 데이터를 저장하는 2차원 구조입니다.
Python에 pandas를 설치하려면 다음 명령을 사용하세요.
py -m pip pandas 설치
(pandas를 다운로드하려면 PC가 Wi-Fi에 연결되어 있는지 확인하세요)
CSV 및 Excel 파일 로드
데이터세트를 로드하려면 CSV 파일의 경우 pd.read_csv()함수를 사용하고
의 경우 pd.read_excel()을 사용할 수 있습니다.
엑셀 파일.
Pandas를 PD로 가져오기
CSV 파일을 로드하려면
df = pd.readcsv('경로/to/your/file.csv')
엑셀 파일을 불러오려면
df = pd.readexcel('경로/to/your/file.xlsx')
데이터를 로드한 후 DataFrame df에는 탐색 및 조작 준비가 완료된 데이터 세트가 포함됩니다.
데이터 탐색
데이터가 로드되면 다음 단계는 데이터를 탐색하고 구조, 내용 및 잠재적인 문제를 파악하는 것입니다.
다음은 데이터를 검사하는 몇 가지 기본 방법입니다.
처음 몇 행 검사
데이터세트의 상단을 보려면 head() 메서드를 사용하세요. 기본적으로 처음 5개 행이 표시되지만
다른 번호를 지정할 수 있습니다.
처음 5개 행을 표시하려면
인쇄(df.head())
마찬가지로 tail()을 사용하여 마지막 몇 행을 표시할 수 있습니다.
데이터 구조 및 유형 확인
열 이름, 데이터 유형, Null이 아닌 값을 포함한 데이터세트 요약을 보려면
info() 메소드.
DataFrame 요약을 얻으려면
인쇄(df.info())
이는 데이터 세트에 대한 간략한 개요를 제공하고 누락된 데이터나 예상치 못한 데이터 유형이 있는 열을 식별하는 데 도움이 될 수 있습니다.
요약통계
수치 데이터의 경우 explain()은 평균, 중앙값, 최소값, 최대값 등의 요약 통계를 제공합니다.
요약 통계를 얻으려면
인쇄(df.describe())
기본적인 데이터 조작
데이터 탐색에서는 통찰력을 얻기 위해 데이터 필터링, 정렬, 요약이 필요한 경우가 많습니다.
Pandas에서는 몇 가지 기본 제공 메소드를 사용하여 이를 쉽게 수행할 수 있습니다.
데이터 필터링
loc[] 함수를 사용하거나 DataFrame에 직접 조건을 적용하여 조건에 따라 행을 필터링할 수 있습니다.
열이 조건을 충족하는 행을 필터링하려면
filtereddf = df[df['열 이름'] > 어떤 값]
filtered_df = df.loc[df['column_name'] > 일부_값]
데이터 정렬
특정 열을 기준으로 데이터를 정렬하려면 sort_values() 메서드를 사용하세요. 오름차순, 내림차순으로 정렬할 수 있습니다.
열을 오름차순으로 정렬하려면
sorted_df = df.sort_values(by='column_name')
열을 내림차순으로 정렬하려면
sorted_df = df.sort_values(by='column_name', 오름차순=False)
데이터 요약
groupby() 함수는 데이터를 요약하는 데 유용합니다. 예를 들어
의 평균을 계산할 수 있습니다.
다른 열의 각 카테고리에 대한 열입니다.
열을 기준으로 그룹화하고 다른 열의 평균을 계산하려면
groupeddf = df.groupby('categorycolumn')['numericcolumn'].mean()
누락된 데이터 처리
데이터 누락은 실제 데이터 세트에서 흔히 발생하는 문제이며 Pandas는 이를 처리할 수 있는 여러 가지 방법을 제공합니다.
누락된 값 삭제
행이나 열에 누락된 값이 있고 이를 제거하려면 dropna()를 사용하세요.
누락된 값이 있는 행 삭제
dfdropped = df.dropna()
누락된 값이 있는 열 삭제
dfdropped = df.dropna(축=1)
누락된 값 채우기
누락된 값을 특정 값(예: 열의 평균)으로 바꾸려면 fillna()를 사용하세요.
열의 평균으로 결측값 채우기
df['columnname'].fillna(df['columnname'].mean(), inplace=True)
오류를 방지하고 분석 품질을 보장하려면 누락된 데이터를 적절하게 처리하는 것이 중요합니다.
결론
Pandas를 마스터하는 것은 모든 데이터 과학 프로젝트에 필수적입니다. 이를 통해 탐색하고 정리하고 작업할 수 있습니다.
데이터를 효과적으로 변환합니다. 이 가이드에서는 데이터 로드, 검사, 기본 데이터 수행 방법을 다뤘습니다
데이터 탐색을 위한 모든 기본 단계인 조작, 누락된 값 처리 등이 포함됩니다. 진행할수록
Pandas는 복잡한 데이터 분석 및 조작을 위한 더욱 강력한 기능을 제공합니다.
더 자세히 알아보려면 Pandas 공식 문서를 확인하거나
에서 더 많은 튜토리얼을 살펴보세요.
Python의 공식 문서 사이트입니다.
이러한 기본 사항을 통해 Pandas를 사용하여 데이터 탐색 여정을 시작할 준비가 되었습니다. 데이터세트 가져오기
Kaggle이나 UCI Machine Learning Repository와 같은 소스에서 이러한 기술을 실제로 적용해 보세요.
작가:Aniekpeno Thompson
열정적인 데이터 사이언스 매니아 데이터 사이언스의 미래를 함께 탐험해 보세요
https://wwwlinkedincom/in/anekpenothompson80370a262
위 내용은 PANDAS를 이용한 데이터 탐색: 초보자 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!