このチュートリアルでは、Python と LogisticRegression アルゴリズムを使用して心臓発作の可能性を予測する機械学習プロジェクトを示します。 Kaggle から取得したデータセットは、予測モデルを構築するために分析されます。
StandardScaler
(sklearn.preprocessing)fit_transform()
train_test_split()
model.predict()
model.predict_proba()
classification_report()
roc_auc_score()
このプロジェクトは、患者データに基づいて心臓発作のリスクを予測する際のロジスティック回帰の実際的な応用を説明することを目的としています。 Python の機能を活用して、この予測モデルを構築して評価します。
Jupyter Notebook とデータセットはここから入手できます:
ノートブック: https://www.php.cn/link/aa3f874fb850d8908be9af3a69af4289
データセット: https://www.php.cn/link/4223a1d5b9e017dda51515829140e5d2 (Kaggle ソース: https://www.php.cn/link/5bb77e5c6d452aee283844d47756dc05)
今後のチュートリアルでは、この Kaggle ロードマップで概説されているように、教師あり学習と教師なし学習に焦点を当てて、追加の機械学習の概念を検討します: https://www.php.cn/link/4bea9e07f447fd088811cc81697a4d4e [#Machine Learning Engineer] 2025 年のロードマップ]
このチュートリアルは、機械学習の学習に興味がある Python 愛好家、特にこの分野の初心者向けに設計されています。 これは、線形回帰を説明した以前のチュートリアルに基づいて構築されています。
ノートブックを自由に試して、さまざまな機械学習モデルを探索してください!
<code class="language-python">import pandas as pd data = pd.read_csv('heart-disease-prediction.csv') print(data.head())</code>
これにより、pandas を使用してデータセットがロードされます。
<code class="language-python">print(data.info())</code>
これは、データセットの構造とデータ型の概要を示します。
<code class="language-python">print(data.isnull().sum()) data.fillna(data.mean(), inplace=True) print(data.isnull().sum())</code>
欠損値は特定され、各列の平均を使用して埋められます。
<code class="language-python">X = data[['age', 'totChol','sysBP','diaBP', 'cigsPerDay','BMI','glucose']] y = data['TenYearCHD']</code>
関連する特徴量 (X) とターゲット変数 (y) が選択されます。
<code class="language-python">from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X = scaler.fit_transform(X)</code>
モデルのパフォーマンスを向上させるために、データは StandardScaler
を使用して正規化されます。
<code class="language-python">import pandas as pd data = pd.read_csv('heart-disease-prediction.csv') print(data.head())</code>
データセットはトレーニング セットとテスト セットに分割されます (80/20 分割)。
<code class="language-python">print(data.info())</code>
ロジスティック回帰モデルはトレーニング データを使用してトレーニングされます。
<code class="language-python">print(data.isnull().sum()) data.fillna(data.mean(), inplace=True) print(data.isnull().sum())</code>
モデルのパフォーマンスは、classification_report
と roc_auc_score
を使用して評価されます。
<code class="language-python">X = data[['age', 'totChol','sysBP','diaBP', 'cigsPerDay','BMI','glucose']] y = data['TenYearCHD']</code>
訓練されたモデルは、新しい患者の心臓病のリスクを予測するために使用されます。
さらなる実践のために追加の患者データが提供されます:
<code class="language-python">from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X = scaler.fit_transform(X)</code>
以上がプロジェクト - Python による教師あり学習 - 心臓発作の可能性を予測するためにロジスティック回帰を使用してみましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。