Python 데이터 분석 라이브러리 pandas_python의 기본 작동 방법-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Python 데이터 분석 라이브러리 pandas_python의 기본 작동 방법

不言

Apr 08, 2018 am 11:35 AM

pandas python 데이터 분석

다음은 Python 데이터 분석 라이브러리 pandas의 기본 작동 방법을 공유합니다. 이는 좋은 참고 가치가 있으며 모든 사람에게 도움이 되기를 바랍니다. 같이 구경가세요

판다란?

그럴까요?

. . . . 분명히 팬더는 이 사람만큼 귀엽지 않습니다. . . .

pandas의 공식 웹사이트가 어떻게 정의되어 있는지 살펴보겠습니다.

pandas는 오픈 소스이며 Python 프로그래밍 언어를 위한 사용하기 쉬운 데이터 구조 및 데이터 분석 도구입니다.

분명히 pandas는 매우 강력한 Python용 데이터 분석 라이브러리입니다!

배우자!

1.pandas 시퀀스

import numpy as np 
import pandas as pd 
 
s_data = pd.Series([1,3,5,7,np.NaN,9,11])#pandas中生产序列的函数，类似于我们平时说的数组 
print s_data

로그인 후 복사

2.pandas 데이터 구조 DataFrame

import numpy as np 
import pandas as pd 
 
#以20170220为基点向后生产时间点 
dates = pd.date_range(&#39;20170220&#39;,periods=6) 
#DataFrame生成函数，行索引为时间点，列索引为ABCD 
data = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list(&#39;ABCD&#39;)) 
print data 
print 
print data.shape 
print 
print data.values

로그인 후 복사

3. DataFrame의 일부 작업(1. )

import numpy as np
import pandas as pd
#设计一个字典
d_data = {&#39;A&#39;:1,&#39;B&#39;:pd.Timestamp(&#39;20170220&#39;),&#39;C&#39;:range(4),&#39;D&#39;:np.arange(4)}
print d_data
#使用字典生成一个DataFrame
df_data = pd.DataFrame(d_data)
print df_data
#DataFrame中每一列的类型
print df_data.dtypes
#打印A列
print df_data.A
#打印B列
print df_data.B
#B列的类型
print type(df_data.B)

로그인 후 복사

4. DataFrame의 일부 작업 (2)

import numpy as np 
import pandas as pd 
 
dates = pd.date_range(&#39;20170220&#39;,periods=6) 
data = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list(&#39;ABCD&#39;)) 
print data 
print 
#输出DataFrame头部数据，默认为前5行 
print data.head() 
#输出输出DataFrame第一行数据 
print data.head(1) 
#输出DataFrame尾部数据，默认为后5行 
print data.tail() 
#输出输出DataFrame最后一行数据 
print data.tail(1) 
#输出行索引 
print data.index 
#输出列索引 
print data.columns 
#输出DataFrame数据值 
print data.values 
#输出DataFrame详细信息 
print data.describe()

로그인 후 복사

5 .DataFrame의 일부 작업(3)

import numpy as np 
import pandas as pd 
 
dates = pd.date_range(&#39;20170220&#39;,periods=6) 
data = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list(&#39;ABCD&#39;)) 
print data 
print 
#转置 
print data.T 
#输出维度信息 
print data.shape 
#转置后的维度信息 
print data.T.shape 
#将列索引排序 
print data.sort_index(axis = 1) 
#将列索引排序，降序排列 
print data.sort_index(axis = 1,ascending=False) 
#将行索引排序，降序排列 
print data.sort_index(axis = 0,ascending=False) 
#按照A列的值进行升序排列 
print data.sort_values(by=&#39;A&#39;)

로그인 후 복사

6. DataFrame의 일부 작업(4)

import numpy as np 
import pandas as pd 
 
dates = pd.date_range(&#39;20170220&#39;,periods=6) 
data = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list(&#39;ABCD&#39;)) 
print data 
#输出A列 
print data.A 
#输出A列 
print data[&#39;A&#39;] 
#输出3,4行 
print data[2:4] 
#输出3，4行 
print data[&#39;20170222&#39;:&#39;20170223&#39;] 
#输出3,4行 
print data.loc[&#39;20170222&#39;:&#39;20170223&#39;] 
#输出3,4行 
print data.iloc[2:4] 
输出B,C两列 
print data.loc[:,[&#39;B&#39;,&#39;C&#39;]]

로그인 후 복사

import numpy as np 
import pandas as pd 
 
dates = pd.date_range(&#39;20170220&#39;,periods=6) 
data = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list(&#39;ABCD&#39;)) 
print data 
#输出A列中大于0的行 
print data[data.A > 0] 
#输出大于0的数据，小于等于0的用NaN补位 
print data[data > 0] 
#拷贝data 
data2 = data.copy() 
print data2 
tag = [&#39;a&#39;] * 2 + [&#39;b&#39;] * 2 + [&#39;c&#39;] * 2 
#在data2中增加TAG列用tag赋值 
data2[&#39;TAG&#39;] = tag 
print data2 
#打印TAG列中为a,c的行 
print data2[data2.TAG.isin([&#39;a&#39;,&#39;c&#39;])]

로그인 후 복사

8. DataFrame의 일부 작업(6)

import numpy as np 
import pandas as pd 
 
dates = pd.date_range(&#39;20170220&#39;,periods=6) 
data = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list(&#39;ABCD&#39;)) 
print data 
#将第一行第一列元素赋值为100 
data.iat[0,0] = 100 
print data 
#将A列元素用range(6)赋值 
data.A = range(6) 
print data 
#将B列元素赋值为200 
data.B = 200 
print data 
#将3,4列元素赋值为1000 
data.iloc[:,2:5] = 1000 
print data

로그인 후 복사

import numpy as np 
import pandas as pd 
 
dates = pd.date_range(&#39;20170220&#39;,periods = 6) 
df = pd.DataFrame(np.random.randn(6,4) , index = dates , columns = list(&#39;ABCD&#39;)) 
print df 
#重定义索引，并添加E列 
dfl = df.reindex(index = dates[0:4],columns = list(df.columns)+[&#39;E&#39;]) 
print dfl 
#将E列中的2,3行赋值为2 
dfl.loc[dates[1:3],&#39;E&#39;] = 2 
print dfl 
#去掉存在NaN元素的行 
print dfl.dropna() 
#将NaN元素赋值为5 
print dfl.fillna(5) 
#判断每个元素是否为NaN 
print pd.isnull(dfl) 
#求列平均值 
print dfl.mean() 
#对每列进行累加 
print dfl.cumsum()

로그인 후 복사

10. DataFrame의 일부 작업(8)

import numpy as np 
import pandas as pd 
dates = pd.date_range(&#39;20170220&#39;,periods = 6) 
df = pd.DataFrame(np.random.randn(6,4) , index = dates , columns = list(&#39;ABCD&#39;)) 
print df 
dfl = df.reindex(index = dates[0:4],columns = list(df.columns)+[&#39;E&#39;]) 
print dfl 
#针对行求平均值 
print dfl.mean(axis=1) 
#生成序列并向右平移两位 
s = pd.Series([1,3,5,np.nan,6,8],index = dates).shift(2) 
print s 
#df与s做减法运算 
print df.sub(s,axis = &#39;index&#39;) 
#每列进行累加运算 
print df.apply(np.cumsum) 
#每列的最大值减去最小值 
print df.apply(lambda x: x.max() - x.min())

로그인 후 복사

11. DataFrame의 일부 작업(9)

import numpy as np 
import pandas as pd 
dates = pd.date_range(&#39;20170220&#39;,periods = 6) 
df = pd.DataFrame(np.random.randn(6,4) , index = dates , columns = list(&#39;ABCD&#39;)) 
print df 
#定义一个函数 
def _sum(x): 
 print(type(x)) 
 return x.sum() 
#apply函数可以接受一个函数作为参数 
print df.apply(_sum) 
s = pd.Series(np.random.randint(10,20,size = 15)) 
print s 
#统计序列中每个元素出现的次数 
print s.value_counts() 
#返回出现次数最多的元素 
print s.mode()

로그인 후 복사

12 .DataFrame의 일부 작업(10)

import numpy as np 
import pandas as pd 
 
df = pd.DataFrame(np.random.randn(10,4) , columns = list(&#39;ABCD&#39;)) 
print df 
#合并函数 
dfl = pd.concat([df.iloc[:3],df.iloc[3:7],df.iloc[7:]]) 
print dfl 
#判断两个DataFrame中元素是否相等 
print df == dfl

로그인 후 복사

13 DataFrame의 일부 작업(11)

import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randn(10,4) , columns = list(&#39;ABCD&#39;))
print df
left = pd.DataFrame({&#39;key&#39;:[&#39;foo&#39;,&#39;foo&#39;],&#39;lval&#39;:[1,2]})
right = pd.DataFrame({&#39;key&#39;:[&#39;foo&#39;,&#39;foo&#39;],&#39;rval&#39;:[4,5]})
print left
print right
#通过key来合并数据
print pd.merge(left,right,on=&#39;key&#39;)
s = pd.Series(np.random.randint(1,5,size = 4),index = list(&#39;ABCD&#39;))
print s
#通过序列添加一行
print df.append(s,ignore_index = True)

로그인 후 복사

14.DataFrame의 일부 작업(12)

import numpy as np 
import pandas as pd 
df = pd.DataFrame({&#39;A&#39;: [&#39;foo&#39;,&#39;bar&#39;,&#39;foo&#39;,&#39;bar&#39;, 
       &#39;foo&#39;,&#39;bar&#39;,&#39;foo&#39;,&#39;bar&#39;], 
     &#39;B&#39;: [&#39;one&#39;,&#39;one&#39;,&#39;two&#39;,&#39;three&#39;, 
       &#39;two&#39;,&#39;two&#39;,&#39;one&#39;,&#39;three&#39;], 
     &#39;C&#39;: np.random.randn(8), 
     &#39;D&#39;: np.random.randn(8)}) 
print df 
print 
#根据A列的索引求和 
print df.groupby(&#39;A&#39;).sum() 
print 
#先根据A列的索引，在根据B列的索引求和 
print df.groupby([&#39;A&#39;,&#39;B&#39;]).sum() 
print 
#先根据B列的索引，在根据A列的索引求和 
print df.groupby([&#39;B&#39;,&#39;A&#39;]).sum()

로그인 후 복사

15. DataFrame의 일부 작업(13)

import pandas as pd 
import numpy as np 
#zip函数可以打包成一个个tuple 
tuples = list(zip(*[[&#39;bar&#39;, &#39;bar&#39;, &#39;baz&#39;, &#39;baz&#39;, 
      &#39;foo&#39;, &#39;foo&#39;, &#39;qux&#39;, &#39;qux&#39;], 
     [&#39;one&#39;, &#39;two&#39;, &#39;one&#39;, &#39;two&#39;, 
      &#39;one&#39;, &#39;two&#39;, &#39;one&#39;, &#39;two&#39;]])) 
print tuples 
#生成一个多层索引 
index = pd.MultiIndex.from_tuples(tuples, names=[&#39;first&#39;, &#39;second&#39;]) 
print index 
print 
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=[&#39;A&#39;, &#39;B&#39;]) 
print df 
print 
#将列索引变成行索引 
print df.stack()

로그인 후 복사

16. DataFrame의 일부 작업(14)

import pandas as pd 
import numpy as np 
 
tuples = list(zip(*[[&#39;bar&#39;, &#39;bar&#39;, &#39;baz&#39;, &#39;baz&#39;, 
      &#39;foo&#39;, &#39;foo&#39;, &#39;qux&#39;, &#39;qux&#39;], 
     [&#39;one&#39;, &#39;two&#39;, &#39;one&#39;, &#39;two&#39;, 
      &#39;one&#39;, &#39;two&#39;, &#39;one&#39;, &#39;two&#39;]])) 
index = pd.MultiIndex.from_tuples(tuples, names=[&#39;first&#39;, &#39;second&#39;]) 
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=[&#39;A&#39;, &#39;B&#39;]) 
print df 
print 
stacked = df.stack() 
print stacked 
#将行索引转换为列索引 
print stacked.unstack() 
#转换两次 
print stacked.unstack().unstack()

로그인 후 복사

17. DataFrame의 일부 작업(15)

import pandas as pd 
import numpy as np 
df = pd.DataFrame({&#39;A&#39; : [&#39;one&#39;, &#39;one&#39;, &#39;two&#39;, &#39;three&#39;] * 3, 
     &#39;B&#39; : [&#39;A&#39;, &#39;B&#39;, &#39;C&#39;] * 4, 
     &#39;C&#39; : [&#39;foo&#39;, &#39;foo&#39;, &#39;foo&#39;, &#39;bar&#39;, &#39;bar&#39;, &#39;bar&#39;] * 2, 
     &#39;D&#39; : np.random.randn(12), 
     &#39;E&#39; : np.random.randn(12)}) 
print df 
#根据A，B索引为行，C的索引为列处理D的值 
print pd.pivot_table(df, values=&#39;D&#39;, index=[&#39;A&#39;, &#39;B&#39;], columns=[&#39;C&#39;]) 
#感觉A列等于one为索引，根据C列组合的平均值 
print df[df.A==&#39;one&#39;].groupby(&#39;C&#39;).mean()

로그인 후 복사

18.时间序列(1)

import pandas as pd 
import numpy as np 
 
#创建一个以20170220为基准的以秒为单位的向前推进600个的时间序列 
rng = pd.date_range(&#39;20170220&#39;, periods=600, freq=&#39;s&#39;) 
print rng 
#以时间序列为索引的序列 
print pd.Series(np.random.randint(0, 500, len(rng)), index=rng)

로그인 후 복사

19.时间序列(2)

import pandas as pd 
import numpy as np 
 
rng = pd.date_range(&#39;20170220&#39;, periods=600, freq=&#39;s&#39;) 
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng) 
#重采样，以2分钟为单位进行加和采样 
print ts.resample(&#39;2Min&#39;, how=&#39;sum&#39;) 
#列出2011年1季度到2017年1季度 
rng1 = pd.period_range(&#39;2011Q1&#39;,&#39;2017Q1&#39;,freq=&#39;Q&#39;) 
print rng1 
#转换成时间戳形式 
print rng1.to_timestamp() 
#时间加减法 
print pd.Timestamp(&#39;20170220&#39;) - pd.Timestamp(&#39;20170112&#39;) 
print pd.Timestamp(&#39;20170220&#39;) + pd.Timedelta(days=12)

로그인 후 복사

20.数据类别

import pandas as pd 
import numpy as np 
 
df = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":[&#39;a&#39;, &#39;b&#39;, &#39;b&#39;, &#39;a&#39;, &#39;a&#39;, &#39;e&#39;]}) 
print df 
#添加类别数据，以raw_grade的值为类别基础 
df["grade"] = df["raw_grade"].astype("category") 
print df 
#打印类别 
print df["grade"].cat.categories 
#更改类别 
df["grade"].cat.categories = ["very good", "good", "very bad"] 
print df 
#根据grade的值排序 
print df.sort_values(by=&#39;grade&#39;, ascending=True) 
#根据grade排序显示数量 
print df.groupby("grade").size()

로그인 후 복사

21.数据可视化

import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
 
ts = pd.Series(np.random.randn(1000), index=pd.date_range(&#39;20170220&#39;, periods=1000)) 
ts = ts.cumsum() 
print ts 
ts.plot() 
plt.show()

로그인 후 복사

22.数据读写

import pandas as pd 
import numpy as np 
 
df = pd.DataFrame(np.random.randn(10, 4), columns=list(&#39;ABCD&#39;)) 
#数据保存，相对路径 
df.to_csv(&#39;data.csv&#39;) 
#数据读取 
print pd.read_csv(&#39;data.csv&#39;, index_col=0)

로그인 후 복사

数据被保存到这个文件中：

打开看看：

핫 AI 도구

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7723

자바 튜토리얼

1643

Cakephp 튜토리얼

1396

라라벨 튜토리얼

1290

PHP 튜토리얼

1233

Related knowledge

PHP와 Python : 다른 패러다임이 설명되었습니다 Apr 18, 2025 am 12:26 AM

PHP는 주로 절차 적 프로그래밍이지만 객체 지향 프로그래밍 (OOP)도 지원합니다. Python은 OOP, 기능 및 절차 프로그래밍을 포함한 다양한 패러다임을 지원합니다. PHP는 웹 개발에 적합하며 Python은 데이터 분석 및 기계 학습과 같은 다양한 응용 프로그램에 적합합니다.

PHP와 Python 중에서 선택 : 가이드 Apr 18, 2025 am 12:24 AM

PHP는 웹 개발 및 빠른 프로토 타이핑에 적합하며 Python은 데이터 과학 및 기계 학습에 적합합니다. 1.PHP는 간단한 구문과 함께 동적 웹 개발에 사용되며 빠른 개발에 적합합니다. 2. Python은 간결한 구문을 가지고 있으며 여러 분야에 적합하며 강력한 라이브러리 생태계가 있습니다.

Python vs. JavaScript : 학습 곡선 및 사용 편의성 Apr 16, 2025 am 12:12 AM

Python은 부드러운 학습 곡선과 간결한 구문으로 초보자에게 더 적합합니다. JavaScript는 가파른 학습 곡선과 유연한 구문으로 프론트 엔드 개발에 적합합니다. 1. Python Syntax는 직관적이며 데이터 과학 및 백엔드 개발에 적합합니다. 2. JavaScript는 유연하며 프론트 엔드 및 서버 측 프로그래밍에서 널리 사용됩니다.

Windows 8에서 코드를 실행할 수 있습니다 Apr 15, 2025 pm 07:24 PM

VS 코드는 Windows 8에서 실행될 수 있지만 경험은 크지 않을 수 있습니다. 먼저 시스템이 최신 패치로 업데이트되었는지 확인한 다음 시스템 아키텍처와 일치하는 VS 코드 설치 패키지를 다운로드하여 프롬프트대로 설치하십시오. 설치 후 일부 확장은 Windows 8과 호환되지 않을 수 있으며 대체 확장을 찾거나 가상 시스템에서 새로운 Windows 시스템을 사용해야합니다. 필요한 연장을 설치하여 제대로 작동하는지 확인하십시오. Windows 8에서는 VS 코드가 가능하지만 더 나은 개발 경험과 보안을 위해 새로운 Windows 시스템으로 업그레이드하는 것이 좋습니다.

PHP와 Python : 그들의 역사에 깊은 다이빙 Apr 18, 2025 am 12:25 AM

PHP는 1994 년에 시작되었으며 Rasmuslerdorf에 의해 개발되었습니다. 원래 웹 사이트 방문자를 추적하는 데 사용되었으며 점차 서버 측 스크립팅 언어로 진화했으며 웹 개발에 널리 사용되었습니다. Python은 1980 년대 후반 Guidovan Rossum에 의해 개발되었으며 1991 년에 처음 출시되었습니다. 코드 가독성과 단순성을 강조하며 과학 컴퓨팅, 데이터 분석 및 기타 분야에 적합합니다.

Python에서 비주얼 스튜디오 코드를 사용할 수 있습니다 Apr 15, 2025 pm 08:18 PM

VS 코드는 파이썬을 작성하는 데 사용될 수 있으며 파이썬 애플리케이션을 개발하기에 이상적인 도구가되는 많은 기능을 제공합니다. 사용자는 다음을 수행 할 수 있습니다. Python 확장 기능을 설치하여 코드 완료, 구문 강조 및 디버깅과 같은 기능을 얻습니다. 디버거를 사용하여 코드를 단계별로 추적하고 오류를 찾아 수정하십시오. 버전 제어를 위해 git을 통합합니다. 코드 서식 도구를 사용하여 코드 일관성을 유지하십시오. 라인 도구를 사용하여 잠재적 인 문제를 미리 발견하십시오.

터미널 VSCODE에서 프로그램을 실행하는 방법 Apr 15, 2025 pm 06:42 PM

vs 코드에서는 다음 단계를 통해 터미널에서 프로그램을 실행할 수 있습니다. 코드를 준비하고 통합 터미널을 열어 코드 디렉토리가 터미널 작업 디렉토리와 일치하는지 확인하십시오. 프로그래밍 언어 (예 : Python의 Python Your_file_name.py)에 따라 실행 명령을 선택하여 성공적으로 실행되는지 여부를 확인하고 오류를 해결하십시오. 디버거를 사용하여 디버깅 효율을 향상시킵니다.

VScode 확장자가 악의적입니까? Apr 15, 2025 pm 07:57 PM

VS 코드 확장은 악의적 인 코드 숨기기, 취약성 악용 및 합법적 인 확장으로 자위하는 등 악성 위험을 초래합니다. 악의적 인 확장을 식별하는 방법에는 게시자 확인, 주석 읽기, 코드 확인 및주의해서 설치가 포함됩니다. 보안 조치에는 보안 인식, 좋은 습관, 정기적 인 업데이트 및 바이러스 백신 소프트웨어도 포함됩니다.

See all articles

Python 데이터 분석 라이브러리 pandas_python의 기본 작동 방법

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제