pandasを使った一連のデータ処理-Python チュートリアル-php.cn

pandasを使った一連のデータ処理

関連する学習の推奨事項: python チュートリアル

##Python では、今日から新しい A common の導入を開始します。使用されるコンピューティングツールライブラリは、有名な

Pandas です。

Pandas の正式名は Python Data Analysis Library で、Numpy

に基づく科学技術コンピューティングツールです。最大の特徴は構造化データをデータベースの表を操作するのと同じように操作できることであり、多くの複雑で高度な操作をサポートしており、Numpyの強化版とも言えます。 CSV または Excel テーブルから完全なデータを簡単に構築でき、多くのテーブルレベルのバッチデータ計算インターフェイスをサポートします。

を使用したインストールほとんどすべての Python パッケージと同様に、panda も pip を介してインストールできます。 Anaconda パッケージをインストールしていれば、numpy や pandas などのライブラリも自動的にインストールされていますが、インストールしていなくても、コマンド 1 行でインストールが完了します。

pip install pandas复制代码

ログイン後にコピー

Numpy と同様に、パンダを使用するときは通常、エイリアスを付けます。パンダのエイリアスは pd です。したがって、パンダの使用規則は次のとおりです。

import pandas as pd复制代码

ログイン後にコピー

この行を実行してもエラーが発生しない場合は、パンダがインストールされていることを意味します。一般に pandas と一緒に使用されるパッケージが他に 2 つあり、その 1 つは同じく Scipy と呼ばれる科学計算パッケージであり、もう 1 つは Matplotlib と呼ばれるデータを視覚化するためのツールパッケージです。 pip を使用してこれら 2 つのパッケージを一緒にインストールすることもできます。以降の記事で、これら 2 つのパッケージを使用する場合の使用方法を簡単に紹介します。

pip install scipy matplotlib复制代码

ログイン後にコピー

シリーズインデックスパンダでは最も一般的に使用される 2 つのデータ構造があります。1 つはシリーズで、もう 1 つはシリーズです。 1 つはデータフレームです。このうち、series は 1 次元のデータ構造

であり、単純に 1 次元の配列または 1 次元のベクトルとして理解できます。 DataFrame は本来、2 次元のデータ構造であり、テーブルまたは 2 次元の配列として理解できます。

まず Series について見てみましょう。Series に保存されるデータには主に 2 つのタイプがあります。1 つはデータのセットで構成される配列で、もう 1 つはこのデータのセットのインデックスまたはラベルです。シリーズを作成し、理解するために印刷するだけです。

です。作成時にインデックスを具体的に指定しなかったため、パンダは行番号インデックスを自動的に作成します。シリーズタイプの値とインデックスプロパティを通じて、シリーズに保存されたデータとインデックスを表示できます:

ここで出力される values 出力は Numpy 配列 . 前述したように、pandas は Numpy に基づいて開発された科学計算ライブラリであるため、これは驚くべきことではありません。 Numpy はその基礎となる層です。出力されたインデックス情報から、これが Range タイプのインデックス、その範囲とステップサイズであることがわかります。

インデックスは Series 構築関数のデフォルトパラメータです。これを入力しない場合は、デフォルトで Range インデックスが生成されます。これは、実際には ## の行番号です。＃データ。データのインデックスを自分で指定することもできます。たとえば、先ほどのコードにindexパラメータを追加すると、インデックスを自分で指定することができます。

文字型のインデックスを指定すると、index によって返される結果は RangeIndex ではなく Index になります。 pandas は内部的に数値インデックスと文字インデックスを区別することに注意してください。

インデックスを使用すると、要素を検索するために自然に使用されます。

インデックスを配列の添え字として直接使用することもできますが、この 2 つの効果は同じです。それだけでなく、インデックス配列も使用でき、複数のインデックスの値を直接クエリできます。

重複したインデックスも許可されます

。同様に、インデックスクエリを使用すると、複数の結果が得られます。

シリーズ計算

シリーズは多くの種類の計算をサポートしており、
加算、減算、乗算、除算の演算を直接使用できます。シリーズ全体の操作

Numpy の演算関数 を使用して複雑な数学演算を実行することもできますが、この計算の結果は Numpy 配列になります。

を使用してインデックスがシリーズにあるかどうかを判断することもできます

index

を指定することで、その順序を制御できます。

インデックスを指定するときに辞書に現れなかった追加のキーを渡しました。対応する値が辞書内に見つからないため、Series はそれを NAN として記録します(数値ではありません)。これは、不正な値または null 値 として理解できます。特徴やトレーニングデータを処理するとき、いくつかのエントリを持つデータの特定の特徴が空白である状況によく遭遇します。パンダを使用できます。isnull と notnull空き状況をチェックする機能。

もちろん、Series には isnull 関数もあり、これを呼び出すこともできます。

インデックスも変更できます。

、新しい値を直接割り当てることができます:

#概要

pandas のシリーズの中核は

レイヤーですNumpy 1 次元配列のカプセル化を行い、インデックス付けなどの関連関数を追加します。したがって、DataFrame は実際には Series 配列をカプセル化したものであり、さらにデータ処理関連の関数が追加されていると想像できます。核となる構造を理解したら、これらの API を 1 つずつ覚えるよりも、panda の機能全体を理解する方がはるかに役立ちます。

pandas は

Python データ処理に最適なツールです。資格のあるアルゴリズムエンジニアとして、これはほぼ必須の知識です。これは、機械学習や機械学習に Python を使用するための基礎でもあります。深い学習。調査データによると、アルゴリズムエンジニアの日常業務の 70% はデータ処理に費やされており、実際にモデルの実装とトレーニングに使用されているのは 30% 未満です。したがって、データ処理の重要性がわかりますが、業界で開発したい場合は、モデルを学ぶだけでは十分ではありません。 この記事では、組版に mdnice を使用しています

プログラミングについてさらに詳しく知りたい場合は、

php training