ホームページ > バックエンド開発 > Python チュートリアル > プロジェクト - Python による教師あり学習 - 心臓発作の可能性を予測するためにロジスティック回帰を使用してみましょう

プロジェクト - Python による教師あり学習 - 心臓発作の可能性を予測するためにロジスティック回帰を使用してみましょう

DDD
リリース: 2025-01-18 22:14:11
オリジナル
197 人が閲覧しました

Project - Supervised Learning with Python - Lets use Logistic Regression for Predicting the chances of having a Heart Attack

このチュートリアルでは、Python と LogisticRegression アルゴリズムを使用して心臓発作の可能性を予測する機械学習プロジェクトを示します。 Kaggle から取得したデータセットは、予測モデルを構築するために分析されます。

主要な概念:

  • ロジスティック回帰
  • StandardScaler (sklearn.preprocessing)
  • fit_transform()
  • train_test_split()
  • model.predict()
  • model.predict_proba()
  • classification_report()
  • roc_auc_score()

プロジェクトの目標:

このプロジェクトは、患者データに基づいて心臓発作のリスクを予測する際のロジスティック回帰の実際的な応用を説明することを目的としています。 Python の機能を活用して、この予測モデルを構築して評価します。

Jupyter Notebook とデータセットはここから入手できます:

ノートブック: https://www.php.cn/link/aa3f874fb850d8908be9af3a69af4289

データセット: https://www.php.cn/link/4223a1d5b9e017dda51515829140e5d2 (Kaggle ソース: https://www.php.cn/link/5bb77e5c6d452aee283844d47756dc05)

将来の計画:

今後のチュートリアルでは、この Kaggle ロードマップで概説されているように、教師あり学習と教師なし学習に焦点を当てて、追加の機械学習の概念を検討します: https://www.php.cn/link/4bea9e07f447fd088811cc81697a4d4e [#Machine Learning Engineer] 2025 年のロードマップ]

対象読者:

このチュートリアルは、機械学習の学習に興味がある Python 愛好家、特にこの分野の初心者向けに設計されています。 これは、線形回帰を説明した以前のチュートリアルに基づいて構築されています。

ノートブックを自由に試して、さまざまな機械学習モデルを探索してください!

ステップバイステップガイド:

ステップ 1: データのロード

<code class="language-python">import pandas as pd

data = pd.read_csv('heart-disease-prediction.csv')
print(data.head())</code>
ログイン後にコピー
ログイン後にコピー

これにより、pandas を使用してデータセットがロードされます。

ステップ 2: 探索的データ分析 (EDA)

<code class="language-python">print(data.info())</code>
ログイン後にコピー
ログイン後にコピー

これは、データセットの構造とデータ型の概要を示します。

ステップ 3: 欠落データの処理

<code class="language-python">print(data.isnull().sum())
data.fillna(data.mean(), inplace=True)
print(data.isnull().sum())</code>
ログイン後にコピー
ログイン後にコピー

欠損値は特定され、各列の平均を使用して埋められます。

ステップ 4: データの前処理

<code class="language-python">X = data[['age', 'totChol','sysBP','diaBP', 'cigsPerDay','BMI','glucose']]
y = data['TenYearCHD']</code>
ログイン後にコピー
ログイン後にコピー

関連する特徴量 (X) とターゲット変数 (y) が選択されます。

ステップ 5: データの正規化

<code class="language-python">from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X = scaler.fit_transform(X)</code>
ログイン後にコピー
ログイン後にコピー

モデルのパフォーマンスを向上させるために、データは StandardScaler を使用して正規化されます。

ステップ 6: データ分割

<code class="language-python">import pandas as pd

data = pd.read_csv('heart-disease-prediction.csv')
print(data.head())</code>
ログイン後にコピー
ログイン後にコピー

データセットはトレーニング セットとテスト セットに分割されます (80/20 分割)。

ステップ 7: モデルのトレーニング

<code class="language-python">print(data.info())</code>
ログイン後にコピー
ログイン後にコピー

ロジスティック回帰モデルはトレーニング データを使用してトレーニングされます。

ステップ 8: モデルの評価

<code class="language-python">print(data.isnull().sum())
data.fillna(data.mean(), inplace=True)
print(data.isnull().sum())</code>
ログイン後にコピー
ログイン後にコピー

モデルのパフォーマンスは、classification_reportroc_auc_score を使用して評価されます。

ステップ 9: モデル予測

<code class="language-python">X = data[['age', 'totChol','sysBP','diaBP', 'cigsPerDay','BMI','glucose']]
y = data['TenYearCHD']</code>
ログイン後にコピー
ログイン後にコピー

訓練されたモデルは、新しい患者の心臓病のリスクを予測するために使用されます。

さらなる実践のために追加の患者データが提供されます:

<code class="language-python">from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X = scaler.fit_transform(X)</code>
ログイン後にコピー
ログイン後にコピー

以上がプロジェクト - Python による教師あり学習 - 心臓発作の可能性を予測するためにロジスティック回帰を使用してみましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート