Python 正規表現は、テキスト データを処理するための強力なツールです。正規表現は、テキストからデータを抽出、変換、視覚化するのに役立ちます。この記事では、Python 正規表現を使用してデータを視覚化する方法を紹介します。
開始する前に、必要な Python ライブラリ (Pandas、Matplotlib、Re) をインストールする必要があります。 pipを使用してインストールできます。
pip install pandas matplotlib re
次に、これらのライブラリを Python ファイルにインポートする必要があります。
import pandas as pd import matplotlib.pyplot as plt import re
この記事では、インフルエンザのパンデミック中の収入と支出に関するデータを含むスプレッドシート ファイルを使用します。まず、pandas ライブラリの read_excel 関数を使用して、スプレッドシート ファイルのデータを読み取る必要があります。
df = pd.read_excel('data.xlsx')
正規表現を使用してデータを視覚化する前に、いくつかのデータ前処理操作を実行する必要があります。この記事では、次の 2 つの前処理手順について説明します。
次の関数はデータの書式を解除できます:
def strip_currency(val): return re.sub(r'[^d.]', '', val)
次の関数は特定のデータを抽出できます:
def extract_number(val): return re.findall(r'd+.?d*', val)[0]
次の関数は、apply 関数を使用してスプレッドシートに適用できます。それぞれの細胞。上記の関数を適用するコードは次のとおりです:
df['income'] = df['income'].apply(strip_currency).apply(extract_number).astype(float) df['expenses'] = df['expenses'].apply(strip_currency).apply(extract_number).astype(float)
各セルからデータをフォーマット解除して抽出したら、Matplotlib ライブラリを使用できるようになります。それを視覚化します。この記事では、散布図を使用して収入と支出の関係を表します。
plt.scatter(df['income'], df['expenses']) plt.xlabel('Income') plt.ylabel('Expenses') plt.show()
このコードは、横軸に収入、縦軸に支出をとった散布図を作成します。
これは、データ視覚化に Python 正規表現を使用する方法の基本的な手順です。データをより深く理解するために、必要に応じてデータの処理と視覚化を続けることができます。
以上がデータ視覚化に Python 正規表現を使用する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。