ホームページ > バックエンド開発 > Python チュートリアル > PANDAS を使用したデータ探索: 初心者ガイド

PANDAS を使用したデータ探索: 初心者ガイド

Patricia Arquette
リリース: 2024-11-11 05:36:02
オリジナル
501 人が閲覧しました

DATA EXPLORATION WITH PANDAS: A BEGINNER

Pandas によるデータ探索: 初心者ガイド

はじめに

データ サイエンスの世界では、Pandas は Python でのデータ操作と分析のための最も強力なツールの 1 つです。
NumPy ライブラリ上に構築された Pandas は、データ構造と関数を提供します
データセットの読み込みから変換、要約まで、データ分析を迅速かつ簡単に行うことができます。

データ サイエンスや Python を初めて使用する場合は、このガイドで Pandas を使用したデータ探索の基本を紹介し、あらゆるデータ プロジェクトの基礎となる重要なテクニックをカバーします。

このガイドでは、以下について説明します。
•Pandas にデータをロードする方法
•データを検査および探索するための基本的な方法
•データのフィルタリング、並べ替え、要約のテクニック
•欠損値の処理

Pandas を使用したデータの探索に移りましょう!

データをロード中
データ分析プロジェクトの最初のステップは、データを Pandas DataFrame (
) にロードすることです。 Pandas の主要なデータ構造。

DataFrame は、スプレッドシートと同様に、データを行と列に格納する 2 次元構造です。

Python にパンダをインストールするには、次のコマンドを使用します:
py -m pip パンダをインストールします
(パンダをダウンロードするには、PC が WiFi に接続されていることを確認してください)

CSV および Excel ファイルの読み込み

データセットをロードするには、CSV ファイルの場合は pd.read_csv() 関数を使用するか、
の場合は pd.read_excel() を使用できます。 Excel ファイル。

パンダを pd としてインポート
CSV ファイルを読み込むには
df = pd.readcsv('path/to/your/file.csv')
Excel ファイルをロードするには
df = pd.readexcel('path/to/your/file.xlsx')
データをロードすると、DataFrame df にデータセットが含まれ、探索と操作の準備が整います。

データの探索
データがロードされたら、次のステップはデータを探索し、その構造、内容、潜在的な問題を把握することです。

データを検査するための基本的な方法をいくつか示します:

最初の数行を検査する
データセットの先頭を表示するには、head() メソッドを使用します。デフォルトでは、最初の 5 行が表示されますが、
別の番号を指定できます。
最初の 5 行を表示するには
print(df.head())
同様に、tail() を使用して最後の数行を表示できます。

データ構造と型の確認
列名、データ型、null 以外の値など、データセットの概要を表示するには、
info() メソッド。
DataFrame
の概要を取得するには print(df.info())

これにより、データセットの概要が簡単に得られ、データが欠落している列や予期しないデータ型を含む列を特定するのに役立ちます。

概要統計
数値データの場合、describe() は平均値、中央値、最小値、最大値などの概要統計を提供します。

概要統計を取得するには
print(df.describe())

基本的なデータ操作
データ探索では、多くの場合、洞察を得るためにデータのフィルタリング、並べ替え、および要約が必要になります。
Pandas では、いくつかの組み込みメソッドを使用してこれを簡単に実行できます。

データのフィルタリング
loc[] 関数を使用するか、DataFrame に直接条件を適用することで、条件に基づいて行をフィルターできます。

列が条件を満たす行をフィルターするには
filtereddf = df[df['列名'] >何らかの値]

または、loc[] を使用します。

filtered_df = df.loc[df['column_name'] >いくつかの値]

データの並べ替え
特定の列でデータを並べ替えるには、sort_values() メソッドを使用します。昇順または降順で並べ替えることができます。
列を昇順に並べ替えるには
sorted_df = df.sort_values(by='column_name')
列を降順に並べ替えるには
sorted_df = df.sort_values(by='column_name', ascending=False)

データの要約
groupby() 関数はデータを要約するのに役立ちます。たとえば、
の平均を計算できます。 各カテゴリの列は別の列にあります。

列でグループ化し、別の列の平均を計算するには
groupeddf = df.groupby('categorycolumn')['numericcolumn'].mean()

欠落データの処理
データの欠落は現実世界のデータセットでよくある問題であり、Pandas はそれを処理するいくつかの方法を提供します。

欠損値の削除
行または列に欠損値があり、それを削除したい場合は、dropna() を使用します。
欠損値のある行を削除
dfdropped = df.dropna()
欠損値のある列を削除
dfdropped = df.dropna(axis=1)
欠損値を埋める
欠損値を特定の値 (列の平均など) に置き換えるには、fillna() を使用します。

欠損値を列の平均値で埋める
df['列名'].fillna(df['列名'].mean(), inplace=True)
欠損データを適切に処理することは、エラーを回避し、分析の品質を保証するために非常に重要です。

結論

Pandas をマスターすることは、探索、クリーンアップ、および
を可能にするため、あらゆるデータ サイエンス プロジェクトにとって不可欠です。 データを効果的に変換します。このガイドでは、データのロード、検査、基本的なデータの実行方法について説明しました
操作、欠損値の処理など、データ探索のすべての基本的な手順です。先に進むと、
Pandas は、複雑なデータ分析と操作のためのさらに強力な機能を提供します。
さらに詳しく学習するには、Pandas の公式ドキュメントをチェックするか、
でさらにチュートリアルを探索してください。 Python の公式ドキュメント サイト。
これらの基本があれば、Pandas を使用したデータ探索の旅を始める準備が整いました。データセットを取得します
Kaggle や UCI Machine Learning Repository などのソースから取得し、これらのテクニックを実践してください。

作者:アニエクペノ・トンプソン
情熱的なデータ サイエンス愛好家 データ サイエンスの未来を一緒に探求しましょう

https//wwwlinkedincom/in/anekpenothompson80370a262

以上がPANDAS を使用したデータ探索: 初心者ガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:dev.to
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート