Python を使用してデータセットからデータをトレーニングおよびテストに分割する方法を学ぶ-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python を使用してデータセットからデータをトレーニングおよびテストに分割する方法を学ぶ

DDD

Oct 30, 2024 am 10:57 AM

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

まとめ

この記事では、データセットをトレーニングデータとテストデータに分割し、この分割を .pkl ファイルに保存する方法について説明します。これは、機械学習モデルを組織的にトレーニングおよび評価するために不可欠です。このプロセスでは sklearn ライブラリと pickle ライブラリを使用するため、処理されたデータを将来のプロジェクトで再利用できます。この記事は、データ前処理に関する一連のチュートリアルの次のステップです。

取り上げる主なトピック:

Google Colab でノートブックを準備
データセットをトレーニングデータとテストデータに分割する
除算のPythonコードの詳細説明
pickle を使用して分割を .pkl ファイルに保存する
将来の使用のために処理済みデータを保存する利点

重要: この記事を進めるには、まず以下の記事を推奨される順序でお読みください。各記事は次の記事を理解するために必要な基礎を提供し、ここまでのワークフロー全体を確実に理解できます。

記事 1: 機械学習の適用: 分類モデルとして始めるためのガイド

記事 2: 機械学習における分類の探索: 変数のタイプ

記事 3: Google Colab の探索: 機械学習モデルのコーディングの味方

記事 4: Google Colab で Python を使用してデータを探索する: Adult.csv データセットを使用した実践ガイド

記事 5: LabelEncoder と OneHotEncoder を使用したプレディクター、クラス分割、カテゴリ属性の処理をわかりやすく説明する

第 6 条: データスケーリング: 効率的なモデルの基礎

導入

この記事では、データセットをトレーニングとテストに分割する方法と、この分割を .pkl ファイルに保存する方法を学びます。このプロセスは、モデルのトレーニングに使用されるデータとそのパフォーマンスの評価に使用されるデータを明確に分離するために不可欠です。

Google Colab でプロセスを開始する

まず、このノートブックのリンクにアクセスし、ファイル > を選択します。 ドライブにコピーを保存。各チュートリアルでは新しいノートブックが作成され、この記事で紹介されている必要なコードのみが追加されますが、ノートブックにはこれまでに生成されたすべてのコード。ノートブックのコピーは Google ドライブの Colab Notebooks フォルダー内に保存され、プロセスが整理され継続的に行われます。

データセットをトレーニングとテストに分割するのはなぜでしょうか?

データセットの分割は、モデルがデータの一部から「学習」し (トレーニング)、これまでに見たことのない新しいデータで評価できるようにする (テスト) ため、あらゆる機械学習プロジェクトの基本的なステップです。この実践は、モデルの一般化を測定するために不可欠です。監視を容易にするために、次の変数を使用します:

X_social_treinamento: 予測子変数のトレーニング
X_social_teste: 予測子変数をテストします
y_social_treinamento: トレーニング対象変数
y_social_teste: テスト対象変数

データセットを分割するための Python コード

以下は、トレーニングデータとテストデータの分割を実行する Python コードです。

from sklearn.model_selection import train_test_split

X_adult_treinamento, X_adult_teste, y_adult_treinamento, y_adult_teste = train_test_split(X_adult, y_adult, test_size=0.2, random_state=0)

# Dados para o treinamento
X_adult_treinamento.shape, y_adult_treinamento.shape

# Dados para o teste
X_adult_teste.shape, y_adult_teste.shape

ログイン後にコピー

下の図は、前のコードと実行後の出力を示しています。

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

コードの説明:

train_test_split: データセットを分割する sklearn ライブラリの関数。
test_size=0.2: データの 20% がテスト用に予約され、残りの 80% がトレーニング用に予約されることを示します。
random_state=0: 除算が常に同じであることを保証し、実行ごとに一貫した結果を生成します。
shape: 分割後のデータの形状をチェックして、分割が正しく行われたことを確認します。

分割を .pkl ファイルに保存する

作業を容易にし、異なる実行間の一貫性を確保するために、トレーニング変数とテスト変数を .pkl ファイルに保存します。これにより、分割を再度行うことなく、必要なときにいつでもデータを再利用できるようになります。

pickle を使用して変数を保存するコード:

import pickle
with open('adult.pkl', mode='wb') as fl:
  pickle.dump([X_adult_treinamento, y_adult_treinamento, X_adult_teste, y_adult_teste], fl)

ログイン後にコピー

ノートブック上の Adult.pkl ファイルを表示するには、下の図に示すように、左側にあるフォルダーアイコンをクリックするだけです。

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

コードの説明:

pickle: オブジェクトをシリアル化するために使用される Python ライブラリ。これにより、複雑な変数をファイルに保存できます。
dump: 変数を Adult.pkl というファイルに保存します。このファイルは今後読み取られて、トレーニングとテストに分割されたデータセットを読み込み、ワークフローを最適化します。

結論

この記事では、データセットをトレーニングデータとテストデータに分割し、.pkl ファイルに保存する方法を学びました。このプロセスは機械学習プロジェクトの基本であり、組織的かつ効率的な構造を確保します。次の記事では、Naive Bayes アルゴリズムから始めて、開発を続けるために Adult.pkl ファイルを使用したモデルの作成について説明します。

私がお勧めする本

1.データサイエンティストのための実践的な統計
2. Python を使用したコンピューティングの概要
3. 2041年: 人工知能は今後数十年であなたの生活をどう変える
4. Python集中コース
5. アルゴリズムを理解する。プログラマーや興味のある人のための図解ガイド
6. 人工知能 - Kai-Fu Lee
7. 人工知能入門 - 非技術的なアプローチ - Tom Taulli

新しい Kindle

私は今年発売された新しい Kindle を詳細に分析し、主な革新性とデジタル読者にとっての利点を強調しました。次のリンクで全文を確認してください: デジタル読書の魅力的な世界: Kindle を持つ利点.

アマゾンプライム

Amazon プライムに参加すると、何千もの映画、シリーズ、音楽への無制限のアクセスや、何百万もの商品の送料無料、短納期など、一連の利点が得られます。メンバーはまた、Prime Video、Prime Music、Prime Reading などのサービスで限定オファー、プロモーションや特典への早期アクセスを享受し、ショッピングやエンターテイメントの体験をさらに便利で豊かなものにします。

ご興味がございましたら、次のリンクをご利用ください: AMAZON PRIME は、人工知能とコンピュータープログラミングの推進を継続するのに役立ちます。

以上がPython を使用してデータセットからデータをトレーニングおよびテストに分割する方法を学ぶの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1671

CakePHP チュートリアル

1428

Laravel チュートリアル

1331

PHP チュートリアル

1276

C# チュートリアル

1256

Related knowledge

Python vs. C：曲線と使いやすさの学習 Apr 19, 2025 am 12:20 AM

Pythonは学習と使用が簡単ですが、Cはより強力ですが複雑です。 1。Python構文は簡潔で初心者に適しています。動的なタイピングと自動メモリ管理により、使いやすくなりますが、ランタイムエラーを引き起こす可能性があります。 2.Cは、高性能アプリケーションに適した低レベルの制御と高度な機能を提供しますが、学習しきい値が高く、手動メモリとタイプの安全管理が必要です。

Pythonと時間：勉強時間を最大限に活用する Apr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python vs. C：パフォーマンスと効率の探索 Apr 18, 2025 am 12:20 AM

Pythonは開発効率でCよりも優れていますが、Cは実行パフォーマンスが高くなっています。 1。Pythonの簡潔な構文とリッチライブラリは、開発効率を向上させます。 2.Cのコンピレーションタイプの特性とハードウェア制御により、実行パフォーマンスが向上します。選択を行うときは、プロジェクトのニーズに基づいて開発速度と実行効率を比較検討する必要があります。

Pythonの学習：2時間の毎日の研究で十分ですか？ Apr 18, 2025 am 12:22 AM

Pythonを1日2時間学ぶだけで十分ですか？それはあなたの目標と学習方法に依存します。 1）明確な学習計画を策定し、2）適切な学習リソースと方法を選択します。3）実践的な実践とレビューとレビューと統合を練習および統合し、統合すると、この期間中にPythonの基本的な知識と高度な機能を徐々に習得できます。

Python vs. C：重要な違いを理解します Apr 21, 2025 am 12:18 AM

PythonとCにはそれぞれ独自の利点があり、選択はプロジェクトの要件に基づいている必要があります。 1）Pythonは、簡潔な構文と動的タイピングのため、迅速な開発とデータ処理に適しています。 2）Cは、静的なタイピングと手動メモリ管理により、高性能およびシステムプログラミングに適しています。

Python Standard Libraryの一部はどれですか：リストまたは配列はどれですか？ Apr 27, 2025 am 12:03 AM

PythonListSarePartOfThestAndardarenot.liestareBuilting-in、versatile、forStoringCollectionsのpythonlistarepart。

Python：自動化、スクリプト、およびタスク管理 Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1）自動化：OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2）スクリプトの書き込み：Psutilライブラリを使用してシステムリソースを監視します。 3）タスク管理：スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

科学コンピューティングのためのPython：詳細な外観 Apr 19, 2025 am 12:15 AM

科学コンピューティングにおけるPythonのアプリケーションには、データ分析、機械学習、数値シミュレーション、視覚化が含まれます。 1.numpyは、効率的な多次元配列と数学的関数を提供します。 2。ScipyはNumpy機能を拡張し、最適化と線形代数ツールを提供します。 3. Pandasは、データ処理と分析に使用されます。 4.matplotlibは、さまざまなグラフと視覚的な結果を生成するために使用されます。

See all articles

Python を使用してデータセットからデータをトレーニングおよびテストに分割する方法を学ぶ

まとめ

取り上げる主なトピック:

導入

Google Colab でプロセスを開始する

データセットをトレーニングとテストに分割するのはなぜでしょうか?

データセットを分割するための Python コード

コードの説明:

分割を .pkl ファイルに保存する

コードの説明:

結論

私がお勧めする本

新しい Kindle

アマゾンプライム

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック