パンダはどのようにしてグループ化されたデータフレーム内の用語を効率的にカウントできるのでしょうか?-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

パンダはどのようにしてグループ化されたデータフレーム内の用語を効率的にカウントできるのでしょうか?

Mary-Kate Olsen

Nov 28, 2024 am 02:36 AM

How Can Pandas Efficiently Count Terms within Grouped DataFrames?

グループ化された DataFrame での用語のカウント: Pandas ソリューション

この記事では、グループ内の用語をカウントし、その結果を DataFrame に要約するという課題について説明します。。 Pandas を使用すると、非効率的なループに頼ることなく、このタスクをエレガントに解決できます。次の DataFrame について考えてみましょう:

df = pd.DataFrame([
    (1, 1, 'term1'),
    (1, 2, 'term2'),
    (1, 1, 'term1'),
    (1, 1, 'term2'),
    (2, 2, 'term3'),
    (2, 3, 'term1'),
    (2, 2, 'term1')
])

ログイン後にコピー

目的は、「id」と「group」でグループ化し、各「term」の出現数をカウントすることです。これを実現するために、Pandas は簡潔なソリューションを提供します。

df.groupby(['id', 'group', 'term']).size().unstack(fill_value=0)

ログイン後にコピー

この操作は、DataFrame を 'id'、'group'、および 'term' 列でグループ化し、それぞれの一意の組み合わせの出現をカウントし、マルチインデックス列と、カウントを含む「size」という名前の単一値列を含む要約データフレーム。「unstack」関数は、以下に示すように、DataFrame をワイド形式に再形成し、一意の用語ごとに 1 つの列を含めます。

id  group term   size
1   1     term1  3
    1     term2  2
    2     term3  1
2   2     term1  3

ログイン後にコピー

タイミング分析

大きい場合データセットを使用するには、このソリューションのパフォーマンス特性を理解することが重要です。これを評価するには、次のコードを使用して生成された 100 万行の DataFrame を検討します:

df = pd.DataFrame(dict(id=np.random.choice(100, 1000000),
                       group=np.random.choice(20, 1000000),
                       term=np.random.choice(10, 1000000)))

ログイン後にコピー

グループ化およびカウント操作をプロファイリングすると、大規模なデータセットでも効率的に処理できることがわかります:

df.groupby(['id', 'group', 'term']).size().unstack(fill_value=0)

ログイン後にコピー

このパフォーマンスは、Pandas の基礎となるグループ化および集約メカニズムの最適化された性質に起因しており、Pandas は大規模な処理を効率的に行うための優れたツールとなっています。データセット。

以上がパンダはどのようにしてグループ化されたデータフレーム内の用語を効率的にカウントできるのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ホットトピック

Java チュートリアル

1667

CakePHP チュートリアル

1426

Laravel チュートリアル

1328

PHP チュートリアル

1273

C# チュートリアル

1255

Related knowledge

Python：ゲーム、GUIなど Apr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

Python vs. C：曲線と使いやすさの学習 Apr 19, 2025 am 12:20 AM

Pythonは学習と使用が簡単ですが、Cはより強力ですが複雑です。 1。Python構文は簡潔で初心者に適しています。動的なタイピングと自動メモリ管理により、使いやすくなりますが、ランタイムエラーを引き起こす可能性があります。 2.Cは、高性能アプリケーションに適した低レベルの制御と高度な機能を提供しますが、学習しきい値が高く、手動メモリとタイプの安全管理が必要です。

Pythonと時間：勉強時間を最大限に活用する Apr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python vs. C：パフォーマンスと効率の探索 Apr 18, 2025 am 12:20 AM

Pythonは開発効率でCよりも優れていますが、Cは実行パフォーマンスが高くなっています。 1。Pythonの簡潔な構文とリッチライブラリは、開発効率を向上させます。 2.Cのコンピレーションタイプの特性とハードウェア制御により、実行パフォーマンスが向上します。選択を行うときは、プロジェクトのニーズに基づいて開発速度と実行効率を比較検討する必要があります。

Python Standard Libraryの一部はどれですか：リストまたは配列はどれですか？ Apr 27, 2025 am 12:03 AM

PythonListSarePartOfThestAndardarenot.liestareBuilting-in、versatile、forStoringCollectionsのpythonlistarepart。

Python：自動化、スクリプト、およびタスク管理 Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1）自動化：OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2）スクリプトの書き込み：Psutilライブラリを使用してシステムリソースを監視します。 3）タスク管理：スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

Pythonの学習：2時間の毎日の研究で十分ですか？ Apr 18, 2025 am 12:22 AM

Pythonを1日2時間学ぶだけで十分ですか？それはあなたの目標と学習方法に依存します。 1）明確な学習計画を策定し、2）適切な学習リソースと方法を選択します。3）実践的な実践とレビューとレビューと統合を練習および統合し、統合すると、この期間中にPythonの基本的な知識と高度な機能を徐々に習得できます。