Tutorial ini menunjukkan projek pembelajaran mesin menggunakan Python dan algoritma LogisticRegression untuk meramalkan kemungkinan serangan jantung. Set data, yang diperoleh daripada Kaggle, dianalisis untuk membina model ramalan.
StandardScaler
(sklearn.prapemprosesan)fit_transform()
train_test_split()
model.predict()
model.predict_proba()
classification_report()
roc_auc_score()
Projek ini bertujuan untuk menggambarkan aplikasi praktikal Regresi Logistik dalam meramalkan risiko serangan jantung berdasarkan data pesakit. Kami akan memanfaatkan keupayaan Python untuk membina dan menilai model ramalan ini.
Buku Nota Jupyter dan set data tersedia di sini:
Buku nota: https://www.php.cn/link/aa3f874fb850d8908be9af3a69af4289
Set Data: https://www.php.cn/link/4223a1d5b9e017dda51515829140e5d2 (Sumber Kaggle: https://www.php.cn/link/5bb77e5c6d452aee283844d47756dc05)
Tutorial masa hadapan akan meneroka konsep pembelajaran mesin tambahan, memfokuskan pada pembelajaran diselia dan tidak diselia, seperti yang digariskan dalam peta jalan Kaggle ini: https://www.php.cn/link/4bea9e07f447fd088811cc81697a4d4e Learning Engine [#er
Pelan hala tuju untuk 2025]Tutorial ini direka untuk peminat Python yang berminat untuk mempelajari pembelajaran mesin, terutamanya mereka yang baru dalam bidang tersebut. Ia dibina berdasarkan tutorial sebelumnya yang meliputi Regresi Linear.
Jangan ragu untuk bereksperimen dengan buku nota dan teroka model pembelajaran mesin yang berbeza!
<code class="language-python">import pandas as pd data = pd.read_csv('heart-disease-prediction.csv') print(data.head())</code>
Ini memuatkan set data menggunakan panda.
<code class="language-python">print(data.info())</code>
Ini menyediakan ringkasan struktur set data dan jenis data.
<code class="language-python">print(data.isnull().sum()) data.fillna(data.mean(), inplace=True) print(data.isnull().sum())</code>
Nilai yang tiada dikenal pasti dan diisi menggunakan min setiap lajur.
<code class="language-python">X = data[['age', 'totChol','sysBP','diaBP', 'cigsPerDay','BMI','glucose']] y = data['TenYearCHD']</code>
Ciri yang berkaitan (X) dan pembolehubah sasaran (y) dipilih.
<code class="language-python">from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X = scaler.fit_transform(X)</code>
StandardScaler
Data dinormalisasi menggunakan
<code class="language-python">import pandas as pd data = pd.read_csv('heart-disease-prediction.csv') print(data.head())</code>
Dataset dibahagikan kepada set latihan dan ujian (pembahagian 80/20).
<code class="language-python">print(data.info())</code>
Model Regresi Logistik dilatih menggunakan data latihan.
<code class="language-python">print(data.isnull().sum()) data.fillna(data.mean(), inplace=True) print(data.isnull().sum())</code>
Prestasi model dinilai menggunakan classification_report
dan roc_auc_score
.
<code class="language-python">X = data[['age', 'totChol','sysBP','diaBP', 'cigsPerDay','BMI','glucose']] y = data['TenYearCHD']</code>
Model terlatih digunakan untuk meramalkan risiko penyakit jantung bagi pesakit baharu.
Data pesakit tambahan disediakan untuk amalan selanjutnya:
<code class="language-python">from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X = scaler.fit_transform(X)</code>
Atas ialah kandungan terperinci Projek - Pembelajaran Terselia dengan Python - Mari gunakan Regresi Logistik untuk Meramalkan peluang mendapat Serangan Jantung. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!