這篇文章帶給大家的內容是關於Python中簡單統計量的計算,有一定的參考價值,有需要的朋友可以參考一下,希望對你有幫助。
1、這些操作都要確保已經在電腦中安裝好了Anaconda整合庫,如果安裝好後運行出錯誤,可以將原來電腦中的python卸載重新安裝Anaconda,建議安裝時直接將新增環境變數打勾,否則以後得自行新增環境變量,在Pycharm中的編譯器選擇Anaconda安裝資料夾中的python。在Pycharm中新建一個data資料夾用來存放資料檔。
2.開啟Python Console。
3.首先在用python讀取數據,需要先輸入import pandas as pd引入pandas包,再輸入df=pd.read_csv("./data/CityData.csv")讀取數據,最後輸入df顯示數據。
4.分別輸入type(df)和type(df["cid"])可以發現兩個資料型別不同。
5.計算平均值:df.mean()或df["xid"].mean()
#6.計算中位數:輸入df.median( )或df["yid"].median
7.求四分位數:輸入df .quantile(q=0.25)
#8.求眾數:輸入df.mode()或df["xid"].mode( )
9.求標準差:輸入df.std()或df["yid"].std()
10.計算變異數:df.var()或df["xid"].var()
#11.求和:df. sum()或df["xid"].sum()
#12.計算偏態係數:df.skew()或df[ "yid"].skew()
#13.計算峰態係數:df.kurt()或df["yid"].kurt ()
14.產生常態分佈函數,pandas無法直接生成,需要先引入scipyimport scipy.stats as ss,再輸入ss. norm,這時產生的是一個常態分佈的對象,我們輸入ss.norm.stats(moments="mvsk")查看一下,mvsk分別代表的是平均值、變異數、偏態係數、峰態係數。
這時我們可以看到產生四個值,分別對應常態分配的mvsk分別為0、1、0、0。
15.ss.norm.pdf(0.0)表示橫座標為0時的縱座標的值。 ss.norm.ppf(0.9)表示從負無窮累積到傳回值時所得到的值為0.9,其中ppf後的值必須在0-1之間。 ss.norm.cdf(2)表示從負無窮積分到2時的回傳值,ss.norm.rvs(size=10)可以得到10個隨機的符合常態分佈的數字。
16.類似的,我們可以分別輸入ss.chi2和ss.t得到卡方分佈和T分佈。
17.此外我們也可以進行抽樣,輸入df.sample(n=10)從資料中抽取10個樣本,輸入df. sample(frac=0.1)從資料中抽取10%的樣本。
#
以上是Python中簡單統計量的計算的詳細內容。更多資訊請關注PHP中文網其他相關文章!