Pandas は、データの読み取り、操作、分析に使用できるデータ処理ライブラリです。この記事では、Pandasを使ってtxtファイルを読み込む方法を紹介します。この記事は、Pandas を学習したい初心者を対象としています。
まず、Python で Pandas ライブラリをインポートします。
import pandas as pd
txt ファイルを読み取る前に、txt ファイルのいくつかの共通パラメータを理解する必要があります:
例: 「data」という名前のファイルがあるとします。 。TXT "。まず、read_table() 関数を使用して txt ファイルを読み取る必要があります。 read_table() は、テキスト データを読み取る非常に柔軟な方法を提供します。
data = pd.read_table('data.txt', delimiter=',', header=0)
.head()
関数を使用して、読み取られたデータの最初の数行を表示できます。デフォルトでは、データの最初の 5 行が表示されます。
print(data.head())
データを読み取った後、必要なクリーニングと変換をデータに対して実行する必要があります。これには通常、不要な列の削除、欠損値の削除、列名の変更、データ型の変換などが含まれます。ここでは、一般的なデータ クリーニング方法をいくつか紹介します。
data = data.drop(columns=['ID'])
data.dropna(inplace=True)
data = data.rename(columns={'OldName': 'NewName'})
data['ColumnName'] = data['ColumnName'].astype(str) data['ColumnName'] = data['ColumnName'].astype(int)
データ クリーニング後、データ処理分析を開始できます。 Pandas は、データを処理するための豊富なメソッドを提供します。
たとえば、特定の列の合計を計算するには:
total = data['ColumnName'].sum() print(total)
Pandas では、groupby() 関数を使用してデータをグループ化できます。たとえば、データを名前でグループ化し、グループ化後の平均を計算したいとします。
grouped_data = data.groupby(['Name']).mean() print(grouped_data.head())
最後に、データの視覚化を通じて、より多くのことを明確に行うことができます。データの傾向とパターンを理解します。
import matplotlib.pyplot as plt plt.bar(data['ColumnName'], data['Count']) plt.xlabel('ColumnName') plt.ylabel('Count') plt.title('ColumnName vs Count') plt.show()
要約すると、Pandas はデータの読み取り、クリーニング、分析を行うための便利で高速な方法を提供します。この記事を通じて、読者は Pandas を使用して txt ファイルを読み取る方法と、データのクリーニング、分析、視覚化を実行する方法を学ぶことができます。
以上がpandas で txt ファイルを読み取るためのクイック スタート ガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。