백엔드 개발 파이썬 튜토리얼 Naive Bayes 알고리즘의 Python 구현

Naive Bayes 알고리즘의 Python 구현

Nov 07, 2016 pm 04:53 PM

알고리즘의 장점과 단점

장점: 데이터가 적을 때 여전히 효과적이며 다중 범주 문제를 처리할 수 있음

단점: 입력 데이터 준비 방식에 민감함

적용 가능한 데이터 유형: 명목 데이터

알고리즘 아이디어:

Naive Bayes

예를 들어 이메일이 스팸인지 확인하려면 우리가 아는 정보는 이메일에 있는 단어의 분포는 다음과 같습니다. 또한 베이즈 정리를 사용하여 얻을 수 있는 스팸 이메일에 있는 특정 단어의 빈도도 알아야 합니다.

나이브 베이즈 분류기의 가정은 모든 특징이 동일하게 중요하다는 것입니다

베이지안 분류는 모두 베이즈 정리를 기반으로 하는 분류 알고리즘 클래스의 일반적인 용어입니다. , 이를 통칭하여 베이지안 분류라고 합니다.

Function

loadDataSet()

여기서 데이터 세트는 단어를 쪼개어 만든 문장으로, 포럼에 올라온 사용자 댓글을 나타냅니다. 태그 1은 이것이 저주임을 의미합니다.

createVocabList(dataSet)

단어 벡터의 크기를 결정하기 위해 이 문장에 총 몇 개의 단어가 있는지 알아보세요

setOfWords2Vec (vocabList, inputSet)

여기에서는 문장을 단어에 따라 벡터로 변환합니다. 즉, 단어가 존재하는지 여부에만 사용됩니다.

bagOfWords2VecMN(vocabList, inputSet )

이것은 문장을 벡터로 변환하는 또 다른 모델, 특정 단어의 출현 횟수를 고려한 다항식 모델입니다

trainNB0(trainMatrix,trainCategory)

P를 계산합니다. (i) 및 P(w[i]|C[1]) 및 P(w[i]|C[0]) 여기에는 두 가지 트릭이 있습니다. 하나는 시작 분자와 분모가 모두 0으로 초기화되지 않는다는 것입니다. 그 중 하나가 0이 될 확률을 방지하기 위해 전체가 0이 되는 것을 방지하고, 나머지 하나는 나중에 곱셈 로그를 사용하여 정확도 문제로 인해 결과가 0이 되는 것을 방지합니다

classifyNB(vec2Classify, p0Vec , p1Vec, pClass1)

베이지안 공식에 따라 이를 계산합니다. 두 집합 중 벡터가

#coding=utf-8
from numpy import *
def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]    #1 is abusive, 0 not
    return postingList,classVec
#创建一个带有所有单词的列表
def createVocabList(dataSet):
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document)
    return list(vocabSet)
     
def setOfWords2Vec(vocabList, inputSet):
    retVocabList = [0] * len(vocabList)
    for word in inputSet:
        if word in vocabList:
            retVocabList[vocabList.index(word)] = 1
        else:
            print 'word ',word ,'not in dict'
    return retVocabList
#另一种模型    
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec
def trainNB0(trainMatrix,trainCatergory):
    numTrainDoc = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCatergory)/float(numTrainDoc)
    #防止多个概率的成绩当中的一个为0
    p0Num = ones(numWords)
    p1Num = ones(numWords)
    p0Denom = 2.0
    p1Denom = 2.0
    for i in range(numTrainDoc):
        if trainCatergory[i] == 1:
            p1Num +=trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num +=trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = log(p1Num/p1Denom)#处于精度的考虑,否则很可能到限归零
    p0Vect = log(p0Num/p0Denom)
    return p0Vect,p1Vect,pAbusive
     
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)    #element-wise mult
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else: 
        return 0
         
def testingNB():
    listOPosts,listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat=[]
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb)
    testEntry = ['stupid', 'garbage']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb)
     
     
def main():
    testingNB()
     
if __name__ == '__main__':
    main()
로그인 후 복사

에 속할 확률이 더 높은 집합은 무엇입니까?


본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

DeepSeek Xiaomi를 다운로드하는 방법 DeepSeek Xiaomi를 다운로드하는 방법 Feb 19, 2025 pm 05:27 PM

DeepSeek Xiaomi를 다운로드하는 방법? Xiaomi App Store에서 "Deepseek"을 검색하십시오. 요구 사항 (검색 파일, 데이터 분석)을 식별하고 DeepSeek 기능이 포함 된 해당 도구 (예 : 파일 관리자, 데이터 분석 소프트웨어)를 찾으십시오.

당신은 그에게 Deepseek에게 어떻게 물어 봐요 당신은 그에게 Deepseek에게 어떻게 물어 봐요 Feb 19, 2025 pm 04:42 PM

DeepSeek을 효과적으로 사용하는 열쇠는 질문을 명확하게 요청하는 것입니다. 질문을 직접 그리고 구체적으로 표현하십시오. 구체적인 세부 사항 및 배경 정보를 제공합니다. 복잡한 문의의 경우 여러 각도 및 반박 의견이 포함됩니다. 코드의 성능 병목 현상과 같은 특정 측면에 중점을 둡니다. 당신이 얻는 답변에 대한 비판적 사고를 유지하고 당신의 전문 지식을 바탕으로 판단하십시오.

DeepSeek을 검색하는 방법 DeepSeek을 검색하는 방법 Feb 19, 2025 pm 05:18 PM

강력한 시맨틱 분석 알고리즘과 함께 제공되는 검색 기능을 사용하면 검색 의도를 정확하게 이해하고 관련 정보를 제공 할 수 있습니다. 그러나 인기가없는 최신 정보 또는 고려해야 할 문제가있는 검색의 경우 키워드를 조정하거나보다 구체적인 설명을 사용하고 다른 실시간 정보 소스와 결합하며 DeepSeek이 필요한 도구라는 것을 이해해야합니다. 적극적이고 명확하며 세련된 검색 전략.

DeepSeek을 프로그래밍하는 방법 DeepSeek을 프로그래밍하는 방법 Feb 19, 2025 pm 05:36 PM

DeepSeek은 프로그래밍 언어가 아니라 깊은 검색 개념입니다. DeepSeek을 구현하려면 기존 언어를 기반으로 선택해야합니다. 다양한 응용 프로그램 시나리오의 경우 적절한 언어 및 알고리즘을 선택하고 기계 학습 기술을 결합해야합니다. 코드 품질, 유지 관리 및 테스트가 중요합니다. 귀하의 요구에 따라 올바른 프로그래밍 언어, 알고리즘 및 도구를 선택하고 고품질 코드를 작성하면 성공적으로 구현할 수 있습니다.

DeepSeek을 사용하여 계정을 해결하는 방법 DeepSeek을 사용하여 계정을 해결하는 방법 Feb 19, 2025 pm 04:36 PM

질문 : DeepSeek은 회계에 이용 가능합니까? 답변 : 아니요, 재무 데이터를 분석하는 데 사용할 수있는 데이터 마이닝 및 분석 도구이지만 회계 소프트웨어의 회계 기록 및 보고서 생성 기능이 없습니다. DeepSeek을 사용하여 재무 데이터를 분석하려면 데이터 구조, 알고리즘 및 DeepSeek API에 대한 지식으로 데이터를 처리하기 위해 코드를 작성해야합니다. 잠재적 문제 (예 : 프로그래밍 지식, 학습 곡선, 데이터 품질).

코딩의 핵심: 초보자를 위한 Python의 힘 활용 코딩의 핵심: 초보자를 위한 Python의 힘 활용 Oct 11, 2024 pm 12:17 PM

Python은 배우기 쉽고 강력한 기능을 통해 초보자에게 이상적인 프로그래밍 입문 언어입니다. 기본 사항은 다음과 같습니다. 변수: 데이터(숫자, 문자열, 목록 등)를 저장하는 데 사용됩니다. 데이터 유형: 변수의 데이터 유형(정수, 부동 소수점 등)을 정의합니다. 연산자: 수학 연산 및 비교에 사용됩니다. 제어 흐름: 코드 실행(조건문, 루프) 흐름을 제어합니다.

Python을 사용한 문제 해결: 초보 코더로서 강력한 솔루션 잠금 해제 Python을 사용한 문제 해결: 초보 코더로서 강력한 솔루션 잠금 해제 Oct 11, 2024 pm 08:58 PM

Python은 초보자에게 문제 해결 능력을 부여합니다. 사용자 친화적인 구문, 광범위한 라이브러리 및 변수, 조건문 및 루프 사용 효율적인 코드 개발과 같은 기능을 제공합니다. 데이터 관리에서 프로그램 흐름 제어 및 반복 작업 수행에 이르기까지 Python은 제공합니다.

DeepSeekapi에 액세스하는 방법 -Deepseekapi Access Call Tutorial DeepSeekapi에 액세스하는 방법 -Deepseekapi Access Call Tutorial Mar 12, 2025 pm 12:24 PM

DeepSeekapi Access and Call에 대한 자세한 설명 : 빠른 시작 안내서이 기사는 DeepSeekapi에 액세스하고 전화하는 방법에 대해 자세히 안내하여 강력한 AI 모델을 쉽게 사용할 수 있도록 도와줍니다. 1 단계 : API 키를 가져와 DeepSeek 공식 웹 사이트에 액세스하고 오른쪽 상단의 "오픈 플랫폼"을 클릭하십시오. 특정 수의 무료 토큰을 얻게됩니다 (API 사용량을 측정하는 데 사용됨). 왼쪽의 메뉴에서 "Apikeys"를 클릭 한 다음 "Apikey 만들기"를 클릭하십시오. Apikey (예 : "테스트")의 이름을 지정하고 생성 된 키를 즉시 복사하십시오. 한 번만 표시 되므로이 키를 올바르게 저장하십시오.

See all articles