ホームページ > バックエンド開発 > Python チュートリアル > Pandas DataFrames で部分文字列マッチングを効率的に実行するにはどうすればよいですか?

Pandas DataFrames で部分文字列マッチングを効率的に実行するにはどうすればよいですか?

Patricia Arquette
リリース: 2024-12-16 15:15:15
オリジナル
878 人が閲覧しました

How Can I Efficiently Perform Partial String Matching in Pandas DataFrames?

Pandas DataFrames での部分文字列一致

文字列基準に基づいて DataFrame をフィルタリングすることは、データ分析における一般的なタスクです。文字列の完全一致は == 演算子を使用することで簡単に行えますが、文字列の部分一致には別のアプローチが必要です。

質問のコード スニペットで示されているように、正規表現を使用することが 1 つのオプションです。

re.search(pattern, cell_in_question)
ログイン後にコピー

ただし、大規模な DataFrame の場合、このアプローチは反復的な性質があるため非効率的になる可能性があります。

Pandas の Series.str メソッドを使用したベクトル化ソリューションが利用可能であり、パフォーマンス向上のために強く推奨されます:

df[df['A'].str.contains("hello")]
ログイン後にコピー

このメソッドは、組み込みの contains() 関数を使用して、一連の文字列に部分文字列が存在するかどうかを確認します。 DataFrame のフィルタリングに使用できるブール マスクを返します。

Pandas の以前のバージョン (0.8.1 より前) では、少し異なる構文が使用されていました。

df['A'].apply(lambda x: "hello" in x)
ログイン後にコピー

関係なくどのアプローチを選択しても、Pandas DataFrames の部分文字列一致は、データを効率的かつ効果的にフィルタリングするための強力なツールです。

以上がPandas DataFrames で部分文字列マッチングを効率的に実行するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート