Python의 Naive Bayes 알고리즘 예

王林

풀어 주다： 2023-06-10 08:23:18

원래의

1448명이 탐색했습니다.

Naive Bayes 알고리즘은 고전적인 기계 학습 알고리즘 중 하나이며 특히 텍스트 분류 및 스팸 필터링과 같은 분야에서 널리 사용되며 정확도와 효율성이 높습니다. 이 기사에서는 Python에서 Naive Bayes 알고리즘의 구현을 소개하고 예제를 통해 해당 응용 프로그램을 설명합니다.

1. 나이브 베이즈 알고리즘 소개
나이브 베이즈 알고리즘은 베이즈 정리와 특징 독립 가정을 기반으로 하는 분류 알고리즘입니다. 기본 아이디어는 알려진 카테고리 데이터의 조건부 확률을 통해 새로운 데이터의 분류를 추론하는 것입니다. 구체적으로 분류하기 전에 모델을 훈련해야 합니다. 즉, 각 범주에 속한 각 특성의 조건부 확률이 계산됩니다. 이후 분류 과정에서 Bayes의 정리에 따라 새로운 데이터가 각 카테고리에 속할 확률을 계산하고, 최대 확률에 해당하는 카테고리를 예측 결과로 선택합니다. 특징이 독립적이라고 가정하므로 알고리즘 이름은 "Naive Bayes"입니다.

2. Python의 Naive Bayes 구현
Python에는 scikit-learn, nltk, gensim 등과 같이 Naive Bayes 알고리즘을 구현하는 데 사용할 수 있는 여러 라이브러리 또는 모듈이 있습니다. 이 기사에서는 scikit-learn 라이브러리를 사용하여 Naive Bayes 알고리즘을 구현하는 방법을 소개합니다.

1. 데이터 세트 준비
먼저 분류기를 훈련하고 테스트하기 위한 데이터 세트를 준비해야 합니다. 이 예에서는 UCI Machine Learning Repository에서 "Spambase 데이터 세트"를 선택합니다. 이 데이터 세트에는 4601개의 이메일이 포함되어 있으며 그 중 1813개는 스팸 이메일이고 2788개는 일반 이메일입니다. 이 데이터 세트는 CSV 형식으로 다운로드하여 저장할 수 있습니다.

2. 데이터를 가져오고 훈련 세트와 테스트 세트를 나눕니다.
Pandas 라이브러리의 read_csv 함수를 사용하여 CSV 파일을 DataFrame 형식으로 읽고 훈련 세트와 테스트 세트로 나눕니다.

import pdas as pd
from sklearn.model_selection import train_test_split

데이터 가져오기

df = pd.read_csv('spambase.csv')

훈련 세트와 테스트 세트 분할

X = df.iloc[:, :-1]
y = df .iloc[:, -1]
X_train, 모델을 분류하고 모델 학습에 학습 데이터를 사용합니다. 코드는 다음과 같습니다.

from sklearn.naive_bayes import MultinomialNB

Training model

clf = MultinomialNB()

clf.fit(X_train, y_train)

4. 모델 테스트
사용 테스트 세트는 분류기를 테스트하고 분류 정확도를 계산합니다.

from sklearn.metrics import Accuracy_score

테스트 모델

y_pred = clf.predict(X_test)

acc = Accuracy_score(y_test, y_pred)

print( '정확도: {:.2f}%'.format(acc*100))

5을 적용합니다. model
학습된 모델을 사용하여 새로운 데이터를 분류하고 예측 결과를 출력합니다. , 0.10, 0.05, 0.00, 0.02, 0.04, 0.00, 0.10, 0.05, 0.01, 0.04, 0.6 7, 2.16, 10.00, 136.00, 0.00, 0.96, 0.00, 0.00, 0.00, 0. 32, 0.01]]

예측 = clf. 예측(new_data)

print('Prediction:', 예측)

3. 분석 예시

이 예시는 이메일에 포함된 단어의 빈도를 특징으로 하며, 이메일을 스팸으로 분류하고, 일반 이메일. 훈련 후 분류에는 Naive Bayes 알고리즘을 사용하여 90.78%의 정확도를 얻었습니다. 특정 응용 상황에서 Naive Bayes의 분류 결과가 매우 우수하다는 결과를 확인할 수 있습니다.

4. 결론
Naive Bayes 알고리즘은 간단하고 효과적인 분류 방법으로, 특히 텍스트 분류, 스팸 필터링 및 기타 분야에서 널리 사용됩니다. Python의 scikit-learn 라이브러리는 모델의 훈련, 테스트 및 적용을 잘 지원할 수 있는 Naive Bayes 분류자의 편리한 구현을 제공합니다.

위 내용은 Python의 Naive Bayes 알고리즘 예의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!