Dieses Tutorial demonstriert ein maschinelles Lernprojekt mit Python und dem LogisticRegression-Algorithmus zur Vorhersage der Wahrscheinlichkeit eines Herzinfarkts. Der von Kaggle stammende Datensatz wird analysiert, um ein Vorhersagemodell zu erstellen.
StandardScaler
(sklearn.preprocessing)fit_transform()
train_test_split()
model.predict()
model.predict_proba()
classification_report()
roc_auc_score()
Dieses Projekt zielt darauf ab, die praktische Anwendung der logistischen Regression bei der Vorhersage des Herzinfarktrisikos basierend auf Patientendaten zu veranschaulichen. Wir werden die Fähigkeiten von Python nutzen, um dieses Vorhersagemodell zu erstellen und zu bewerten.
Das Jupyter-Notizbuch und der Datensatz sind hier verfügbar:
Notizbuch: https://www.php.cn/link/aa3f874fb850d8908be9af3a69af4289
Datensatz: https://www.php.cn/link/4223a1d5b9e017dda51515829140e5d2 (Kaggle-Quelle: https://www.php.cn/link/5bb77e5c6d452aee283844d47756dc05)
Zukünftige Tutorials werden weitere Konzepte des maschinellen Lernens untersuchen und sich dabei auf überwachtes und unüberwachtes Lernen konzentrieren, wie in dieser Kaggle-Roadmap beschrieben: https://www.php.cn/link/4bea9e07f447fd088811cc81697a4d4e [#Machine Learning Engineer Roadmap für 2025]
Dieses Tutorial richtet sich an Python-Enthusiasten, die sich für maschinelles Lernen interessieren, insbesondere für diejenigen, die neu auf diesem Gebiet sind. Es baut auf einem früheren Tutorial zur linearen Regression auf.
Fühlen Sie sich frei, mit dem Notebook zu experimentieren und verschiedene Modelle des maschinellen Lernens zu erkunden!
<code class="language-python">import pandas as pd data = pd.read_csv('heart-disease-prediction.csv') print(data.head())</code>
Dadurch wird der Datensatz mit Pandas geladen.
<code class="language-python">print(data.info())</code>
Dies bietet eine Zusammenfassung der Struktur und Datentypen des Datensatzes.
<code class="language-python">print(data.isnull().sum()) data.fillna(data.mean(), inplace=True) print(data.isnull().sum())</code>
Fehlende Werte werden anhand des Mittelwerts jeder Spalte identifiziert und aufgefüllt.
<code class="language-python">X = data[['age', 'totChol','sysBP','diaBP', 'cigsPerDay','BMI','glucose']] y = data['TenYearCHD']</code>
Relevante Merkmale (X) und die Zielvariable (y) werden ausgewählt.
<code class="language-python">from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X = scaler.fit_transform(X)</code>
Daten werden mit StandardScaler
normalisiert, um die Modellleistung zu verbessern.
<code class="language-python">import pandas as pd data = pd.read_csv('heart-disease-prediction.csv') print(data.head())</code>
Der Datensatz ist in Trainings- und Testsätze aufgeteilt (80/20-Aufteilung).
<code class="language-python">print(data.info())</code>
Anhand der Trainingsdaten wird ein logistisches Regressionsmodell trainiert.
<code class="language-python">print(data.isnull().sum()) data.fillna(data.mean(), inplace=True) print(data.isnull().sum())</code>
Die Leistung des Modells wird anhand von classification_report
und roc_auc_score
bewertet.
<code class="language-python">X = data[['age', 'totChol','sysBP','diaBP', 'cigsPerDay','BMI','glucose']] y = data['TenYearCHD']</code>
Das trainierte Modell wird verwendet, um das Risiko einer Herzerkrankung für einen neuen Patienten vorherzusagen.
Zusätzliche Patientendaten werden für die weitere Praxis bereitgestellt:
<code class="language-python">from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X = scaler.fit_transform(X)</code>
Das obige ist der detaillierte Inhalt vonProjekt – Überwachtes Lernen mit Python – Nutzen wir die logistische Regression zur Vorhersage der Wahrscheinlichkeit eines Herzinfarkts. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!