Projek - Pembelajaran Terselia dengan Python - Mari gunakan Regresi Logistik untuk Meramalkan peluang mendapat Serangan Jantung-Tutorial Python-php.cn

Projek - Pembelajaran Terselia dengan Python - Mari gunakan Regresi Logistik untuk Meramalkan peluang mendapat Serangan Jantung

DDD

Lepaskan： 2025-01-18 22:14:11

asal

198 orang telah melayarinya

Project - Supervised Learning with Python - Lets use Logistic Regression for Predicting the chances of having a Heart Attack

Tutorial ini menunjukkan projek pembelajaran mesin menggunakan Python dan algoritma LogisticRegression untuk meramalkan kemungkinan serangan jantung. Set data, yang diperoleh daripada Kaggle, dianalisis untuk membina model ramalan.

Konsep Utama:

Regression Logistik
StandardScaler (sklearn.prapemprosesan)
fit_transform()
train_test_split()
model.predict()
model.predict_proba()
classification_report()
roc_auc_score()

Matlamat Projek:

Projek ini bertujuan untuk menggambarkan aplikasi praktikal Regresi Logistik dalam meramalkan risiko serangan jantung berdasarkan data pesakit. Kami akan memanfaatkan keupayaan Python untuk membina dan menilai model ramalan ini.

Buku Nota Jupyter dan set data tersedia di sini:

Buku nota: https://www.php.cn/link/aa3f874fb850d8908be9af3a69af4289

Set Data: https://www.php.cn/link/4223a1d5b9e017dda51515829140e5d2 (Sumber Kaggle: https://www.php.cn/link/5bb77e5c6d452aee283844d47756dc05)

Rancangan Masa Depan:

Tutorial masa hadapan akan meneroka konsep pembelajaran mesin tambahan, memfokuskan pada pembelajaran diselia dan tidak diselia, seperti yang digariskan dalam peta jalan Kaggle ini: https://www.php.cn/link/4bea9e07f447fd088811cc81697a4d4e Learning Engine [#er

Pelan hala tuju untuk 2025]

Sasaran Khalayak:

Tutorial ini direka untuk peminat Python yang berminat untuk mempelajari pembelajaran mesin, terutamanya mereka yang baru dalam bidang tersebut. Ia dibina berdasarkan tutorial sebelumnya yang meliputi Regresi Linear.

Jangan ragu untuk bereksperimen dengan buku nota dan teroka model pembelajaran mesin yang berbeza!

Panduan Langkah demi Langkah:

Langkah 1: Pemuatan Data

<code class="language-python">import pandas as pd

data = pd.read_csv('heart-disease-prediction.csv')
print(data.head())</code>

Salin selepas log masuk

Ini memuatkan set data menggunakan panda.

Langkah 2: Analisis Data Penerokaan (EDA)

<code class="language-python">print(data.info())</code>

Salin selepas log masuk

Ini menyediakan ringkasan struktur set data dan jenis data.

Langkah 3: Mengendalikan Data Yang Hilang

<code class="language-python">print(data.isnull().sum())
data.fillna(data.mean(), inplace=True)
print(data.isnull().sum())</code>

Salin selepas log masuk

Nilai yang tiada dikenal pasti dan diisi menggunakan min setiap lajur.

Langkah 4: Prapemprosesan Data

<code class="language-python">X = data[['age', 'totChol','sysBP','diaBP', 'cigsPerDay','BMI','glucose']]
y = data['TenYearCHD']</code>

Salin selepas log masuk

Ciri yang berkaitan (X) dan pembolehubah sasaran (y) dipilih.

Langkah 5: Penormalan Data

<code class="language-python">from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X = scaler.fit_transform(X)</code>

Salin selepas log masuk

StandardScalerData dinormalisasi menggunakan

untuk prestasi model yang lebih baik.

Langkah 6: Pemisahan Data

<code class="language-python">import pandas as pd

data = pd.read_csv('heart-disease-prediction.csv')
print(data.head())</code>

Salin selepas log masuk

Dataset dibahagikan kepada set latihan dan ujian (pembahagian 80/20).

Langkah 7: Latihan Model

<code class="language-python">print(data.info())</code>

Salin selepas log masuk

Model Regresi Logistik dilatih menggunakan data latihan.

Langkah 8: Penilaian Model

<code class="language-python">print(data.isnull().sum())
data.fillna(data.mean(), inplace=True)
print(data.isnull().sum())</code>

Salin selepas log masuk

Prestasi model dinilai menggunakan classification_report dan roc_auc_score.

Langkah 9: Ramalan Model

<code class="language-python">X = data[['age', 'totChol','sysBP','diaBP', 'cigsPerDay','BMI','glucose']]
y = data['TenYearCHD']</code>

Salin selepas log masuk

Model terlatih digunakan untuk meramalkan risiko penyakit jantung bagi pesakit baharu.

Data pesakit tambahan disediakan untuk amalan selanjutnya:

<code class="language-python">from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X = scaler.fit_transform(X)</code>

Salin selepas log masuk

Atas ialah kandungan terperinci Projek - Pembelajaran Terselia dengan Python - Mari gunakan Regresi Logistik untuk Meramalkan peluang mendapat Serangan Jantung. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!