Pandas 데이터 정리에 대한 중요한 팁을 공개하세요!
Pandas 데이터 정리 기술 공개!
소개:
데이터 분석 및 기계 학습에서 데이터 정리는 데이터를 필요한 형식과 구조로 구성하기 위해 데이터 세트를 전처리, 변환 및 필터링하는 매우 중요한 단계입니다. Pandas는 Python에서 가장 인기 있고 강력한 데이터 분석 라이브러리 중 하나이며 풍부하고 유연한 데이터 정리 도구와 작업 방법을 제공합니다. 이 기사에서는 팬더 데이터 정리의 몇 가지 기본 기술을 공개하고 독자가 이러한 기술을 더 잘 이해하고 적용할 수 있도록 구체적인 코드 예제를 제공합니다.
1. 팬더 라이브러리 및 데이터 세트 가져오기
시작하기 전에 먼저 팬더 라이브러리를 설치해야 합니다. 설치가 완료된 후 다음 코드를 사용하여 Pandas 라이브러리를 가져오고 정리해야 하는 데이터 세트를 로드할 수 있습니다.
import pandas as pd # 导入数据集 data = pd.read_csv('data.csv')
2. 데이터 세트 보기
데이터를 정리하기 전에 먼저 데이터 세트의 구조와 내용을 이해해야 합니다. pandas는 head()
, tail()
, shape
및 info( )<를 포함하여 데이터 세트를 보기 위해 일반적으로 사용되는 여러 함수를 제공합니다. /코드>등 <code>head()
、tail()
、shape
和info()
等。
代码示例:
# 查看前五行数据 print(data.head()) # 查看后五行数据 print(data.tail()) # 查看数据集的维度 print(data.shape) # 查看数据集的基本信息 print(data.info())
三、处理缺失值
缺失值是数据集中经常遇到的问题之一,而且在真实的数据集中很常见。pandas提供了处理缺失值的多种方法。常见的处理缺失值的方法有删除、填充和插值。
- 删除缺失值
删除缺失值是最简单的处理方法之一,但需要慎重使用。在pandas中,可以使用dropna()
函数来删除包含缺失值的行或列。
代码示例:
# 删除包含缺失值的行 data.dropna(axis=0, inplace=True) # 删除包含缺失值的列 data.dropna(axis=1, inplace=True)
- 填充缺失值
填充缺失值是另一种常用的处理方法,它可以用一个常数或其他数据集中的值来填充缺失值。在pandas中,可以使用fillna()
函数来填充缺失值。
代码示例:
# 使用0填充缺失值 data.fillna(0, inplace=True) # 使用平均值填充缺失值 data.fillna(data.mean(), inplace=True)
- 插值缺失值
插值缺失值是一种更高级的处理方法,它可以根据已知数据的特征来推测缺失值。在pandas中,可以使用interpolate()
函数来进行插值处理。
代码示例:
# 线性插值处理缺失值 data.interpolate(method='linear', inplace=True) # 拟合插值处理缺失值 data.interpolate(method='quadratic', inplace=True)
四、处理重复值
重复值是另一个常见的数据集问题,它可能会导致数据分析和建模的偏差。pandas提供了几个函数来处理重复值,包括duplicated()
和drop_duplicates()
等。
- 查找重复值
可以使用duplicated()
函数来查找数据集中的重复值。该函数返回一个布尔类型的Series对象,其中包含了每个元素是否重复的信息。
代码示例:
# 查找重复值 duplicated_data = data.duplicated() # 打印重复值 print(duplicated_data)
- 删除重复值
可以使用drop_duplicates()
函数来删除数据集中的重复值。该函数返回一个经过去重后的新数据集。
代码示例:
# 删除重复值 data.drop_duplicates(inplace=True)
五、处理异常值
异常值是数据集中的异常观测值,它可能会对数据分布和模型拟合产生不良影响。pandas提供了一些函数和方法来识别和处理异常值,包括箱线图、z-score和IQR等。
- 箱线图
箱线图是一种常用的异常值检测方法,它可以用来判断数据集中是否存在异常值。可以使用boxplot()
函数来绘制箱线图,并通过观察箱线图中的离群点来识别异常值。
代码示例:
# 绘制箱线图 data.boxplot(column='value', figsize=(10, 6)) # 显示图像 plt.show()
- z-score
z-score是一种统计概念,它可以用来标准化数据并判断观测值是否偏离了平均值。在pandas中,可以使用zscore()
函数来计算z-score,并通过设定阈值来判断是否存在异常值。
代码示例:
# 计算z-score z_scores = (data - data.mean()) / data.std() # 判断是否存在异常值 outliers = z_scores[(z_scores > 3) | (z_scores < -3)] # 显示异常值 print(outliers)
- IQR
IQR(Inter-Quartile Range)是一种计算概念,它可以通过计算数据集的四分位差来确定异常值的范围。在pandas中,可以使用quantile()
函数来计算四分位数,然后使用IQR公式来判断是否存在异常值。
代码示例:
# 计算四分位差 Q1 = data.quantile(0.25) Q3 = data.quantile(0.75) IQR = Q3 - Q1 # 判断是否存在异常值 outliers = data[((data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))).any(axis=1)] # 显示异常值 print(outliers)
六、转换数据类型
数据类型是数据集中一个重要的属性,它涉及到数据的存储方式、计算方式和可视化方式等。在pandas中,可以使用astype()
函数来转换数据类型。
代码示例:
# 将字符串类型转换为整数类型 data['column'] = data['column'].astype(int) # 将浮点型转换为整数类型 data['column'] = data['column'].astype(int) # 将字符串类型转换为日期类型 data['column'] = pd.to_datetime(data['column'])
七、其他常用操作
除了上述的数据清洗技巧外,pandas还提供了其他一些常用的数据清洗操作,包括重命名列、拆分列和合并列等。
- 重命名列
可以使用rename()
函数来重命名数据集中的列。
代码示例:
# 重命名列 data.rename(columns={'old_name': 'new_name'}, inplace=True)
- 拆分列
可以使用str.split()
函数来将含有多个值的列拆分成多个列。
代码示例:
# 拆分列 new_columns = data['column'].str.split(',', expand=True) # 重新命名新列 new_columns.columns = ['column1', 'column2', 'column3'] # 合并新列到数据集 data = pd.concat([data, new_columns], axis=1)
- 合并列
可以使用pd.merge()
# 新数据集1 data1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]}) # 新数据集2 data2 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value2': [4, 5, 6]}) # 合并数据集 merged_data = pd.merge(data1, data2, on='key') # 打印合并后的数据集 print(merged_data)
- 결측값 삭제
dropna()
함수를 사용하여 누락된 값이 포함된 행이나 열을 삭제할 수 있습니다. 🎜🎜코드 예: 🎜rrreee- 결측값 채우기
fillna()
함수를 사용하여 누락된 값을 채울 수 있습니다. 🎜🎜코드 예: 🎜rrreee- 결측값 보간
interpolate()
함수를 사용하여 보간 처리를 수행할 수 있습니다. 🎜🎜코드 예: 🎜rrreee🎜4. 중복 값 처리🎜🎜중복 값은 또 다른 일반적인 데이터 세트 문제로, 데이터 분석 및 모델링에 편향이 발생할 수 있습니다. pandas는 duplicated()
및 drop_duplicates()
등을 포함하여 중복 값을 처리하는 여러 함수를 제공합니다. 🎜- 중복 값 찾기
duplicated()
함수를 사용하여 데이터 세트에서 중복 값을 찾을 수 있습니다. 이 함수는 각 요소가 반복되는지 여부에 대한 정보가 포함된 Boolean Series 객체를 반환합니다. 🎜🎜코드 예: 🎜rrreee- 중복 값 삭제
drop_duplicates()
함수를 사용하여 중복 값을 삭제할 수 있습니다. 데이터 세트에서 . 이 함수는 중복이 제거된 새로운 데이터 세트를 반환합니다. 🎜🎜코드 예: 🎜rrreee🎜 5. 이상값 처리🎜🎜이상값은 데이터 세트의 비정상적인 관측값으로, 데이터 분포 및 모델 피팅에 부정적인 영향을 미칠 수 있습니다. Pandas는 상자 그림, z-점수, IQR 등을 포함하여 이상값을 식별하고 처리하는 몇 가지 기능과 방법을 제공합니다. 🎜- 박스 플롯
boxplot()
함수를 사용하면 상자 그림을 그리고 상자 그림에서 이상값을 관찰하여 이상값을 식별할 수 있습니다. 🎜🎜코드 예: 🎜rrreee- z-score
zscore()
함수를 사용하여 z-score를 계산하고 임계값을 설정하여 이상치가 있는지 확인할 수 있습니다. 🎜🎜코드 예: 🎜rrreee- IQR
Quantile()
함수를 사용하여 사분위수를 계산한 다음 IQR 공식을 사용하여 이상값이 있는지 확인할 수 있습니다. 🎜🎜코드 예: 🎜rrreee🎜 6. 데이터 유형 변환🎜🎜데이터 유형은 데이터의 저장 방법, 계산 방법 및 시각화 방법을 포함하는 데이터 세트의 중요한 속성입니다. Pandas에서는 astype()
함수를 사용하여 데이터 유형을 변환할 수 있습니다. 🎜🎜코드 예: 🎜rrreee🎜7. 기타 일반적인 작업🎜🎜위의 데이터 정리 기술 외에도 Pandas는 열 이름 바꾸기, 열 분할 및 열 병합을 포함하여 일반적으로 사용되는 몇 가지 다른 데이터 정리 작업도 제공합니다. 🎜- 열 이름 바꾸기
rename()
함수를 사용하여 데이터 세트의 열 이름을 바꿀 수 있습니다. 🎜🎜코드 예: 🎜rrreee- 열 분할
str.split()
함수를 사용하여 다음을 포함하는 열을 분할할 수 있습니다. 다중 값 열이 여러 열로 분할됩니다. 🎜🎜코드 예: 🎜rrreee- 열 병합
pd.merge()
함수를 사용하여 여러 열을 병합할 수 있습니다. 데이터 세트 열에 있습니다. 🎜🎜코드 예: 🎜rrreee🎜요약: 🎜이 문서에서는 일반적으로 사용되는 Pandas 데이터 정리 기술을 소개하고 구체적인 코드 예제를 제공합니다. 이러한 기술에는 누락된 값 처리, 중복 값 처리, 이상값 처리, 데이터 유형 변환 및 기타 일반적인 작업이 포함됩니다. 이러한 기술을 배우고 적용함으로써 독자는 데이터를 더 잘 처리하고 준비할 수 있으며 후속 데이터 분석 및 모델링을 위한 견고한 기반을 마련할 수 있습니다. 물론, 이 글에서 소개한 기술 외에도 pandas에는 다른 많은 기능과 방법이 있으며, 독자들은 이를 자신의 필요와 실제 상황에 따라 더 배우고 적용할 수 있습니다.
위 내용은 Pandas 데이터 정리에 대한 중요한 팁을 공개하세요!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Win11 팁 공유: Microsoft 계정 로그인을 건너뛰는 한 가지 요령 Windows 11은 Microsoft가 출시한 최신 운영 체제로, 새로운 디자인 스타일과 많은 실용적인 기능을 갖추고 있습니다. 그러나 일부 사용자의 경우 시스템을 부팅할 때마다 Microsoft 계정에 로그인해야 하는 것이 다소 성가실 수 있습니다. 당신이 그들 중 하나라면, Microsoft 계정 로그인을 건너뛰고 데스크탑 인터페이스로 직접 들어갈 수 있는 다음 팁을 시도해 볼 수도 있습니다. 먼저 로그인하려면 Microsoft 계정 대신 시스템에 로컬 계정을 만들어야 합니다. 이렇게 하면 장점은

우리는 엑셀로 표를 생성하고 편집하는 일이 많은데 이제 막 소프트웨어를 접한 초보자로서 엑셀을 이용해 표를 만드는 방법은 생각보다 쉽지 않습니다. 아래에서는 초보자, 즉 초보자가 마스터해야 할 테이블 생성의 몇 가지 단계에 대해 몇 가지 훈련을 수행합니다. 초보자를 위한 샘플 양식은 다음과 같습니다. 작성 방법을 살펴보겠습니다! 1. 새로운 엑셀 문서를 만드는 방법은 두 가지가 있습니다. [바탕화면] - [새로 만들기] - [xls] 파일의 빈 곳을 마우스 오른쪽 버튼으로 클릭하시면 됩니다. [시작]-[모든 프로그램]-[Microsoft Office]-[Microsoft Excel 20**]을 사용할 수도 있습니다. 2. 새 ex를 두 번 클릭합니다.

C 언어에서는 다른 변수의 주소를 저장하는 포인터를 나타내고, &는 변수의 메모리 주소를 반환하는 주소 연산자를 나타냅니다. 포인터 사용에 대한 팁에는 포인터 정의, 포인터 역참조 및 포인터가 유효한 주소를 가리키는지 확인하는 것이 포함됩니다. 주소 연산자 사용에 대한 팁에는 변수 주소 가져오기 및 배열 요소의 주소를 가져올 때 배열의 첫 번째 요소 주소 반환이 포함됩니다. . 문자열을 반전시키기 위해 포인터 및 주소 연산자를 사용하는 방법을 보여주는 실제 예입니다.

VSCode(Visual Studio Code)는 Microsoft에서 개발한 오픈 소스 코드 편집기로, 강력한 기능과 풍부한 플러그인 지원을 갖추고 있어 개발자가 선호하는 도구 중 하나입니다. 이 기사에서는 초보자가 VSCode 사용 기술을 빠르게 익히는 데 도움이 되는 소개 가이드를 제공합니다. 이번 글에서는 VSCode 설치 방법, 기본적인 편집 작업, 단축키, 플러그인 설치 등을 소개하고, 독자들에게 구체적인 코드 예시를 제공하겠습니다. 1. 먼저 VSCode를 설치하세요.

제목: PHP 프로그래밍 팁: 3초 안에 웹 페이지로 이동하는 방법 웹 개발을 하다 보면 일정 시간 내에 자동으로 다른 페이지로 이동해야 하는 상황이 자주 발생합니다. 이 기사에서는 PHP를 사용하여 3초 내에 페이지로 이동하는 프로그래밍 기술을 구현하는 방법을 소개하고 구체적인 코드 예제를 제공합니다. 먼저, 페이지 점프의 기본 원리는 HTTP 응답 헤더의 Location 필드를 통해 구현됩니다. 이 필드를 설정하면 브라우저가 지정된 페이지로 자동으로 이동할 수 있습니다. 다음은 P를 사용하는 방법을 보여주는 간단한 예입니다.

공개된 Win11 트릭: Microsoft 계정 로그인을 우회하는 방법 최근 Microsoft는 새로운 운영 체제인 Windows11을 출시하여 많은 관심을 받았습니다. 이전 버전에 비해 Windows 11은 인터페이스 디자인과 기능 개선 측면에서 많은 새로운 조정이 이루어졌지만 가장 눈길을 끄는 점은 사용자가 Microsoft 계정으로 시스템에 로그인하도록 강요한다는 것입니다. . 일부 사용자의 경우 로컬 계정으로 로그인하는 데 더 익숙하고 개인 정보를 Microsoft 계정에 바인딩하는 것을 꺼릴 수 있습니다.

양식은 웹 사이트나 응용 프로그램을 작성하는 데 있어 필수적인 부분입니다. 널리 사용되는 PHP 프레임워크인 Laravel은 풍부하고 강력한 양식 클래스를 제공하여 양식 처리를 보다 쉽고 효율적으로 만듭니다. 이 글에서는 개발 효율성을 향상시키는 데 도움이 되는 Laravel 폼 클래스 사용에 대한 몇 가지 팁을 소개합니다. 다음은 구체적인 코드 예시를 통해 자세히 설명합니다. 양식 생성하기 Laravel에서 양식을 생성하려면 먼저 뷰에 해당 HTML 양식을 작성해야 합니다. 양식 작업 시 Laravel을 사용할 수 있습니다.

Word 상자의 √ 기호를 사용하는 팁에 대한 자세한 설명. 일상 업무나 공부에서 문서 편집 및 조판을 위해 Word를 사용해야 하는 경우가 많습니다. 그 중 √ 기호는 흔히 "오른쪽"을 의미하는 일반적인 기호이다. Word 상자에 √ 기호를 사용하면 정보를 더욱 명확하게 표현하고 문서의 전문성과 아름다움을 향상시키는 데 도움이 됩니다. 다음으로, 모두에게 도움이 되길 바라면서 Word 상자에서 √ 기호를 사용하는 기술을 자세히 소개하겠습니다. 1. √ 기호 삽입 Word에서 √ 기호를 삽입하는 방법은 여러 가지가 있습니다. 하나
