まず、Pandas ライブラリがインストールされていることを確認してください。そうでない場合は、次のコマンドを使用してインストールしてください。
pip install pandas
import pandas as pd
Pandas を使用すると、Pandas ライブラリを簡単に読み取ることができます。 CSV、Excel、JSON、HTMLなどの多彩なデータ形式以下は CSV ファイルの読み取りの例です:
data = pd.read_csv('data.csv')
Excel ファイルの読み取りなど、他のデータ形式の読み取り方法も同様です:
data = pd.read_excel('data.xlsx')
head()
関数を使用して、データの最初の数行 (デフォルトは 5 行) を表示できます。
print(data.head())
tail()
関数も使用できます。データの最後の数行を表示する関数、およびデータの統計情報を表示する info()
関数と describe()
関数:
print(data.tail()) print(data.info()) print(data.describe())
data を選択するにはさまざまな方法があります。一般的な方法のいくつかを次に示します:
列を選択します: data['column_name']
複数の列を選択: data[['column1', 'column2']]
行を選択: data.loc[row_index]
値を選択してください: data.loc[row_index, 'column_name']
条件で選択: data [data['column_name'] > value]
通常、データ分析の前に、データをクリーンアップする必要があります。一般的に使用されるデータ クリーニング方法の一部を次に示します。
null 値の削除: data.dropna()
Replace null 値 値: data.fillna(value)
列名の名前変更: data.rename(columns={'old_name': 'new_name'} )
データ型変換: data['column_name'].astype(new_type)
削除重複値: data.drop_duplicates()
Pandas は豊富なデータ分析機能を提供します。一般的な方法のいくつかを以下に示します。
平均値を計算します: data['column_name'].mean()
中央値を計算します: data['column_name'].median()
モードを計算します: data['column_name'].mode()
標準偏差の計算: data['column_name'].std()
相関関係の計算: data.corr( )
データのグループ化: data.groupby('column_name')
Pandas を使用すると、データを視覚的なグラフに簡単に変換できます。まず、Matplotlib ライブラリをインストールする必要があります:
pip install matplotlib
次に、次のコードを使用してグラフを作成します:
import matplotlib.pyplot as plt data['column_name'].plot(kind='bar') plt.show()
他の視覚化グラフの種類には、折れ線グラフ、円グラフ、ヒストグラムなどが含まれます。 :
data['column_name'].plot(kind='line') data['column_name'].plot(kind='pie') data['column_name'].plot(kind='hist') plt.show()
Pandas は、CSV、Excel、JSON、HTML などのさまざまな形式にデータをエクスポートできます。データを CSV ファイルにエクスポートする例を次に示します:
data.to_csv('output.csv', index=False)
Excel ファイルへのエクスポートなど、他のデータ形式のエクスポート方法も同様です:
data.to_excel('output.xlsx', index=False)
us すでに販売データ (sales_data.csv) があると仮定します。次の目標は、データを分析することです。まず、データを読み取る必要があります。
import pandas as pd data = pd.read_csv('sales_data.csv')
次に、データをクリーンアップして分析します。たとえば、各製品の売上を計算できます:
data['sales_amount'] = data['quantity'] * data['price']
次に、どの製品が最も売上が高いかを分析できます:
max_sales = data.groupby('product_name')['sales_amount'].sum().idxmax() print(f'最高销售额的产品是:{max_sales}')
最後に、結果を CSV ファイルにエクスポートできます:
rree以上がPython でのデータ分析に Pandas を使用する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。