データ処理にパンダを使用する DataFrame
# 関連する学習の推奨事項:##これは
の 2 番目の記事では、パンダの最も重要なデータ構造である DataFrame について話しましょう。 前回の記事では、Series の使い方を紹介し、Series が一次元配列に相当することにも触れましたが、pandas には便利で使いやすい API が数多くカプセル化されています。 DataFrame は、
Series で構成される dictとして単純に理解でき、データが 2 次元のテーブルに結合されます。また、テーブルレベルのデータ処理とバッチデータ処理のための多くのインターフェイスも提供するため、データ処理の難しさが大幅に軽減されます。
Row インデックスがあります。と列インデックス DataFrame は表形式のデータ構造であり、2 つのインデックス、つまり
を使用すると、対応する行と列を簡単に取得できます。これにより、データ処理用のデータを見つける難しさが大幅に軽減されます。 まず、最も単純な DataFrame の作成方法から始めましょう。

jupyter で出力すると、DataFrame の内容が表形式で自動的に表示されます。
numpy データから作成
を作成します。作成時に、列フィールドの文字列のリストを渡して列名を指定します。 はその番号をインデックスとして使用して列
ファイルからの読み取り
pandas のもう 1 つの非常に強力な機能は、次のことです。 さまざまな形式のファイルからデータを読み取り、一般的に使用される Excel、CSV、さらにはデータベースなどの DataFrame を作成します。
Excel、csv、json などの構造化データの場合、pandas は特別な API を提供します。対応する API を見つけて使用できます。

特別な形式であっても問題ありませんが、さまざまなテキスト ファイルからデータを読み取り、区切り文字 やその他のパラメータを渡すことで作成が完了する read_table を使用します。たとえば、PCA の次元削減効果を検証した前回の記事では、.data 形式のファイルからデータを読み取りました。このファイルの列間の区切り文字はスペースであり、カンマや csv の表文字ではありません。 sep パラメータ から を渡し、区切り文字を指定してデータの読み取りを完了します。

このヘッダー パラメーターは、ファイルのどの行がデータの列名として使用されるかを示します。デフォルトの header=0 は、最初の行が列名として使用されます。データ内に列名が存在しない場合は、header=None を指定する必要があります。指定しないと問題が発生します。マルチレベルの列名を使用する必要があることはほとんどないため、一般に最も一般的に使用される方法は、デフォルト値を取得するか、デフォルト値を None に設定することです。
DataFrame を作成するこれらすべての メソッドの中で、最も一般的に使用されるのは最後のメソッド (ファイルからの読み取り) です。というのも、Kaggle で機械学習をしたり、コンペに参加したりするときは、データがあらかじめ用意されており、ファイルの形で渡されることが多く、自分でデータを作成する必要があるケースはほとんどありません。実際の作業シナリオの場合、データはファイルに保存されませんが、ソースが存在し、通常はいくつかのビッグ データ プラットフォームに保存され、モデルはこれらのプラットフォームからトレーニング データを取得します。
したがって、一般に、DataFrame を作成する他の方法を使用することはほとんどなく、ファイルから読み取る方法をある程度理解し、習得することに重点を置いています。
#一般的な操作
#パンダの一般的な操作をいくつか紹介します。これらの操作は、私がパンダの使い方を学ぶ前に実行したものです。体系的に、すでに理解されています。理解する理由も非常にシンプルで、あまりにも一般的に使われており、知っておくべき常識内容と言えるからです。
データの表示
Jupyter で DataFrame インスタンスを実行すると、DataFrame 内のすべてのデータが出力されますデータの行数が多すぎる場合、中央の部分が省略記号の形で省略されます。大量のデータを含む DataFrame の場合、通常はこのように直接出力して表示するのではなく、最初の数個または最後の数個のデータを表示することを選択します。ここでは 2 つの API が必要です。最初の数個のデータを表示するメソッドは head と呼ばれ、パラメータを受け取り、それを指定することで先頭から指定した数のデータを表示できます。

tail## と呼びます#。これにより、DataFrame 内の最後に指定した数のデータを表示できます。

DataFrame については、実際には Series で構成される dict と同等であると前述しました。 dict なので、キー値に基づいて指定された Series を自然に取得できます。
DataFrame で指定された列を取得するには 2 つの方法があります。
列名を追加するまたは find 要素を dict でクエリすることができます:

del を使用して不要な列を削除できます:

dict 割り当てと同じように、DataFrame に値を直接割り当てることができます:

配列も可能です:

numpy 配列に変換
#パンダを使用していて、対応する配列を取得したい場合に不便な場合があります。元のデータでは、直接.values を使用して、DataFrame に対応する numpy 配列を取得できます。

DataFrame の各列なので、別の型 を持ち、numpy 配列に変換された後、すべてのデータは同じ型を共有します。その後、パンダはすべての列に共通の型を見つけます。そのため、オブジェクト型が取得されることがよくあります。したがって、.values を使用する前に型をチェックして、型によるエラーが発生しないことを確認することをお勧めします。
概要
今日の記事では、DataFrame と Series の関係について学び、DataFrame についてもいくつか学びました。基本と一般的な使い方。 DataFrame は、Series で構成される辞書とほぼ見なすことができますが、実際には別のデータ構造として、多くの独自の API を持ち、多くの複雑な操作をサポートし、データを処理するための強力なツールでもあります。専門組織は統計を作成しています。アルゴリズム エンジニアの場合、時間の約 70% がデータ処理に費やされます。実際にモデルの作成やパラメータの調整に費やされる時間は 20% 未満である可能性があり、データ処理の必要性と重要性がわかります。 Python の分野において、pandas はデータ処理に最適なメスでありツールボックスですので、ぜひ皆さんにも使いこなしていただきたいと思います。
プログラミングについてさらに詳しく知りたい場合は、php training 列に注目してください。
以上がデータ処理にパンダを使用する DataFrameの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









PHPは主に手順プログラミングですが、オブジェクト指向プログラミング(OOP)もサポートしています。 Pythonは、OOP、機能、手続き上のプログラミングなど、さまざまなパラダイムをサポートしています。 PHPはWeb開発に適しており、Pythonはデータ分析や機械学習などのさまざまなアプリケーションに適しています。

PHPはWeb開発と迅速なプロトタイピングに適しており、Pythonはデータサイエンスと機械学習に適しています。 1.PHPは、単純な構文と迅速な開発に適した動的なWeb開発に使用されます。 2。Pythonには簡潔な構文があり、複数のフィールドに適しており、強力なライブラリエコシステムがあります。

VSコードはPythonの書き込みに使用でき、Pythonアプリケーションを開発するための理想的なツールになる多くの機能を提供できます。ユーザーは以下を可能にします。Python拡張機能をインストールして、コードの完了、構文の強調表示、デバッグなどの関数を取得できます。デバッガーを使用して、コードを段階的に追跡し、エラーを見つけて修正します。バージョンコントロールのためにGitを統合します。コードフォーマットツールを使用して、コードの一貫性を維持します。糸くずツールを使用して、事前に潜在的な問題を発見します。

VSコードはWindows 8で実行できますが、エクスペリエンスは大きくない場合があります。まず、システムが最新のパッチに更新されていることを確認してから、システムアーキテクチャに一致するVSコードインストールパッケージをダウンロードして、プロンプトとしてインストールします。インストール後、一部の拡張機能はWindows 8と互換性があり、代替拡張機能を探すか、仮想マシンで新しいWindowsシステムを使用する必要があることに注意してください。必要な拡張機能をインストールして、適切に動作するかどうかを確認します。 Windows 8ではVSコードは実行可能ですが、開発エクスペリエンスとセキュリティを向上させるために、新しいWindowsシステムにアップグレードすることをお勧めします。

VSコード拡張機能は、悪意のあるコードの隠れ、脆弱性の活用、合法的な拡張機能としての自慰行為など、悪意のあるリスクを引き起こします。悪意のある拡張機能を識別する方法には、パブリッシャーのチェック、コメントの読み取り、コードのチェック、およびインストールに注意してください。セキュリティ対策には、セキュリティ認識、良好な習慣、定期的な更新、ウイルス対策ソフトウェアも含まれます。

Pythonは、スムーズな学習曲線と簡潔な構文を備えた初心者により適しています。 JavaScriptは、急な学習曲線と柔軟な構文を備えたフロントエンド開発に適しています。 1。Python構文は直感的で、データサイエンスやバックエンド開発に適しています。 2。JavaScriptは柔軟で、フロントエンドおよびサーバー側のプログラミングで広く使用されています。

PHPは1994年に発信され、Rasmuslerdorfによって開発されました。もともとはウェブサイトの訪問者を追跡するために使用され、サーバー側のスクリプト言語に徐々に進化し、Web開発で広く使用されていました。 Pythonは、1980年代後半にGuidovan Rossumによって開発され、1991年に最初にリリースされました。コードの読みやすさとシンプルさを強調し、科学的コンピューティング、データ分析、その他の分野に適しています。

VSコードでは、次の手順を通じて端末でプログラムを実行できます。コードを準備し、統合端子を開き、コードディレクトリが端末作業ディレクトリと一致していることを確認します。プログラミング言語(pythonのpython your_file_name.pyなど)に従って実行コマンドを選択して、それが正常に実行されるかどうかを確認し、エラーを解決します。デバッガーを使用して、デバッグ効率を向上させます。
