Python을 사용하여 작은 텍스트 분류 시스템 구현
배경
텍스트 마이닝은 방대한 양의 텍스트 데이터에서 알려지지 않은, 이해 가능한, 궁극적으로 사용 가능한 지식을 추출하는 동시에 이 지식을 사용하여 향후 참조를 위해 정보를 더 잘 구성하는 프로세스를 말합니다. 즉, 구조화되지 않은 텍스트에서 지식을 찾아내는 과정이다.
현재 텍스트 마이닝의 주요 7개 분야는
·검색 및 정보 검색 IR
·텍스트 클러스터링 : 클러스터링 방법을 사용하여 단어, 단편, 단락 또는 파일을 그룹화하고 분류
· 텍스트 분류: 데이터 마이닝을 사용하여 단편, 단락 또는 파일을 그룹화하고 분류합니다. 분류 방법을 기반으로 훈련된 레이블이 있는 인스턴스 모델
· 웹 마이닝: 인터넷에서 데이터 및 텍스트 마이닝, 네트워크의 크기와 크기에 특히 주의합니다.
· 정보 추출 IE: 비정형 텍스트에서 관련 사실과 관계를 식별하고 추출합니다. 비정형 또는 반정형 텍스트에서 정형 추출을 추출합니다. 정형 데이터 프로세스
· 자연어 처리 NLP: 문법과 의미론적 관점에서 언어의 본질적인 구조와 표현된 의미를 발견
텍스트 분류 시스템(python 3.5)
중국어 텍스트 분류 기술 및 프로세스는 주로 다음 단계로 구성됩니다.
1. 전처리: HTML 태그 등 텍스트 노이즈 정보 제거, 텍스트 형식 변환, 문장 경계 감지
2. 중국어 단어 분할: 중국어 단어 분할을 사용하여 텍스트를 분할하고 중지 단어를 제거합니다.
3. 단어 벡터 공간 만들기: 텍스트 단어의 빈도를 계산하고 단어 벡터 공간을 생성합니다. text
4. 가중치 전략 - TF-IDF: 특징 단어를 발견하고 이를 문서 주제를 반영하는 특징으로 추출합니다.
5. 알고리즘을 사용하여 분류자 훈련
6. 분류 결과 평가
1. 전처리
a. 처리할 텍스트 범위를 선택
b. >
- ·Training set corpus
- · Test set corpus
xml을 사용합니다. HTML 태그를 제거하는 라이브러리
d. 문장 경계 감지: 문장 끝 표시2. 중국어 단어 분할 단어 분할은 다시 결합하는 과정입니다. 연속된 단어 순서를 특정 사양에 따라 단어 순서로 나누는 것은 한자(문장)의 순서를 독립된 단어로 나누는 것입니다. 결국, 확률 이론은 이 문제를 해결했습니다. 단어 분할은 자연어 처리에서 가장 기본적이고 가장 낮은 모듈입니다. 모듈은 텍스트나 문장의 구조적 표현이 언어 처리의 핵심 작업입니다. 현재 텍스트의 구조적 표현은 단어 벡터 공간, 주제 모델, 종속 트리 표현으로 구분됩니다. 구문,RDF의 그래프 표현.
다음은 중국어 단어 샘플 코드입니다.# -*- 코딩: utf-8
-*-import os
import jieba
def savefile(savepath, content):
fp = open(savepath,"w",encoding='gb2312', 오류='무시')
fp.write(content)
fp.close()
def readfile(path):
fp = open(path,"r", 인코딩= 'gb2312', 오류='무시')
content = fp.read()
fp.close()
return content
# corpus_path =
"train_small/" # 분할되지 않은 단어 분류를 위한 예측 라이브러리 경로
# seg_path = "train_seg/" # 단어 분할 후 분류 코퍼스 경로 corpus_path = "test_small/" # 분할되지 않은 단어 분류를 위한 예측 라이브러리 경로 seg_path = "test_seg/" # 단어 분할 후 분류 코퍼스 pathcatelist=
os.listdir(corpus_path) # 변경된 디렉토리 아래의 모든 하위 디렉토리를 가져옵니다. for mydir in catelist:
class_path = corpus_path + mydir + "/" # 카테고리 하위 디렉토리를 철자합니다. 경로
seg_dir = seg_path + mydir + "/" # 단어 분할을 철자한 후 카테고리 디렉토리를 예측합니다.
if not os.path.exists(seg_dir): # 존재 여부, 존재하지 않으면 생성하세요.
os.makedirs(seg_dir)
file_list = os.listdir(class_path)
for file_pathin file_list:
fullname = class_path + file_path
content =
readfile(fullname).strip() # 파일 읽기content
content = content.replace("rn", "").strip() # 줄 바꿈 및 추가 공백 제거
content_seg = jieba .cut(content)
savefile(seg_dir + file_path, " ".join(content_seg))
인쇄("단어 분할 끝")
이후 단어 생성용 벡터 공간 모델의 편의를 위해 Scikit-Learn 라이브러리의 Bunch 데이터 구조를 사용하여 이러한 분할된 텍스트 정보를 텍스트 벡터 정보로 변환하고 객체화해야 합니다. 구체적인 코드는 다음과 같습니다.
import os import pickle from sklearn.datasets.base import Bunch #Bunch 类提供了一种key,value的对象形式 #target_name 所有分类集的名称列表 #label 每个文件的分类标签列表 #filenames 文件路径 #contents 分词后文件词向量形式def readfile(path): fp = open(path, "r", encoding='gb2312', errors='ignore') content = fp.read() fp.close() return content bunch=Bunch(target_name=[],label=[],filenames=[],contents=[]) # wordbag_path="train_word_bag/train_set.dat" # seg_path="train_seg/"wordbag_path="test_word_bag/test_set.dat"seg_path="test_seg/"catelist=os.listdir(seg_path) bunch.target_name.extend(catelist)#将类别信息保存到Bunch对象for mydir in catelist: class_path=seg_path+mydir+"/" file_list=os.listdir(class_path) for file_path in file_list: fullname=class_path+file_path bunch.label.append(mydir)#保存当前文件的分类标签 bunch.filenames.append(fullname)#保存当前文件的文件路径 bunch.contents.append(readfile(fullname).strip())#保存文件词向量 #Bunch对象持久化file_obj=open(wordbag_path,"wb") pickle.dump(bunch,file_obj) file_obj.close() print("构建文本对象结束")
3 . 벡터 공간 모델
텍스트는 저장 벡터 공간에서 더 높은 차원을 가지므로 저장 공간을 절약하고 검색 효율성을 높이기 위해 텍스트 분류 전에 특정 단어를 자동으로 필터링합니다. 이러한 단어 또는 불용 단어로 알려진 이 비활성화 표는 여기에서 다운로드할 수 있습니다.
4. 가중치 전략: TF-IDF 방법
한 기사에서 자주 등장하고 다른 기사에서는 거의 등장하지 않는 단어나 문구가 있으면 이 단어를 고려하거나 카테고리 구분이 좋은 문구입니다. 능력이 있고 분류에 적합합니다.
이 코드 부분을 제공하기 전에 먼저 단어 빈도와 역파일 빈도의 개념을 살펴보겠습니다.
단어 빈도(TF): 파일에서 특정 단어의 발생을 나타냅니다. 빈도. 이 숫자는 긴 문서에 편향되는 것을 방지하기 위해 단어 수를 정규화한 것입니다. 특정 문서에 있는 단어의 중요성은 다음과 같이 표현할 수 있습니다.
분자는 문서에 있는 단어 수입니다. 문서 분모는 문서 내 모든 단어의 출현 횟수의 합입니다.
역문서 빈도(IDF)는 단어의 일반적인 중요도를 나타내는 척도입니다. 특정 단어의 IDF는 다음과 같이 계산할 수 있습니다. 총 문서 빈도 숫자를 단어가 포함된 파일 수로 나눈 다음 몫의 로그를 취합니다.
|D|는 말뭉치에 있는 총 파일 수, j는 파일 수 해당 단어를 포함하고 해당 단어가 말뭉치에 없으면 분모는 0이 되므로 일반적으로 단어 빈도와 역방향 파일 빈도의 곱을 계산하기 위해 분모에 1
을 추가합니다. 특정 파일에서 높은 단어의 빈도와 전체 문서 모음에서 낮은 문서 빈도에서 단어의 빈도는 높은 가중치의 TF-IDF를 생성할 수 있으므로 TF-IDF는 일반적인 단어를 필터링하고 중요한 단어를 유지하는 경향이 있습니다. 코드는 다음과 같습니다.
import os from sklearn.datasets.base import Bunch import pickle#持久化类from sklearn import feature_extraction from sklearn.feature_extraction.text import TfidfTransformer#TF-IDF向量转换类from sklearn.feature_extraction.text import TfidfVectorizer#TF-IDF向量生成类def readbunchobj(path): file_obj=open(path,"rb") bunch=pickle.load(file_obj) file_obj.close() return bunch def writebunchobj(path,bunchobj): file_obj=open(path,"wb") pickle.dump(bunchobj,file_obj) file_obj.close() def readfile(path): fp = open(path, "r", encoding='gb2312', errors='ignore') content = fp.read() fp.close() return content path="train_word_bag/train_set.dat"bunch=readbunchobj(path) #停用词stopword_path="train_word_bag/hlt_stop_words.txt"stpwrdlst=readfile(stopword_path).splitlines() #构建TF-IDF词向量空间对象tfidfspace=Bunch(target_name=bunch.target_name,label=bunch.label,filenames=bunch.filenames,tdm=[],vocabulary={}) #使用TfidVectorizer初始化向量空间模型vectorizer=TfidfVectorizer(stop_words=stpwrdlst,sublinear_tf=True,max_df=0.5) transfoemer=TfidfTransformer()#该类会统计每个词语的TF-IDF权值 #文本转为词频矩阵,单独保存字典文件tfidfspace.tdm=vectorizer.fit_transform(bunch.contents) tfidfspace.vocabulary=vectorizer.vocabulary_ #创建词袋的持久化space_path="train_word_bag/tfidfspace.dat"writebunchobj(space_path,tfidfspace)
5. Naive Bayes 분류 모듈 사용
일반적으로 사용되는 텍스트 분류 방법에는 kNN 최근접 이웃 방법, Naive Bayes 알고리즘 및 지원 벡터 머신 알고리즘이 포함됩니다.
kNN 알고리즘은 원래 가장 단순하고 분류 정확도가 허용되지만 속도가 가장 빠릅니다
Naive Bayes 알고리즘은 정확도가 높고 짧은 텍스트 분류에 가장 좋은 영향을 미칩니다
서포트 벡터 머신 알고리즘의 장점은 선형 비분리성의 경우를 지원하고 정확도는 평균이라는 점입니다
上文代码中进行操作的都是训练集的数据,下面是测试集(抽取字训练集),训练步骤和训练集相同,首先是分词,之后生成词向量文件,直至生成词向量模型,不同的是,在训练词向量模型时需要加载训练集词袋,将测试集产生的词向量映射到训练集词袋的词典中,生成向量空间模型,代码如下:
import os from sklearn.datasets.base import Bunch import pickle#持久化类from sklearn import feature_extraction from sklearn.feature_extraction.text import TfidfTransformer#TF-IDF向量转换类from sklearn.feature_extraction.text import TfidfVectorizer#TF-IDF向量生成类from TF_IDF import space_path def readbunchobj(path): file_obj=open(path,"rb") bunch=pickle.load(file_obj) file_obj.close() return bunch def writebunchobj(path,bunchobj): file_obj=open(path,"wb") pickle.dump(bunchobj,file_obj) file_obj.close() def readfile(path): fp = open(path, "r", encoding='gb2312', errors='ignore') content = fp.read() fp.close() return content #导入分词后的词向量bunch对象path="test_word_bag/test_set.dat"bunch=readbunchobj(path) #停用词stopword_path="train_word_bag/hlt_stop_words.txt"stpwrdlst=readfile(stopword_path).splitlines() #构建测试集TF-IDF向量空间testspace=Bunch(target_name=bunch.target_name,label=bunch.label,filenames=bunch.filenames,tdm=[],vocabulary={}) #导入训练集的词袋trainbunch=readbunchobj("train_word_bag/tfidfspace.dat") #使用TfidfVectorizer初始化向量空间vectorizer=TfidfVectorizer(stop_words=stpwrdlst,sublinear_tf=True,max_df=0.5,vocabulary=trainbunch.vocabulary) transformer=TfidfTransformer(); testspace.tdm=vectorizer.fit_transform(bunch.contents) testspace.vocabulary=trainbunch.vocabulary #创建词袋的持久化space_path="test_word_bag/testspace.dat"writebunchobj(space_path,testspace)
下面执行多项式贝叶斯算法进行测试文本分类并返回精度,代码如下:
import pickle from sklearn.naive_bayes import MultinomialNB # 导入多项式贝叶斯算法包 def readbunchobj(path): file_obj = open(path, "rb") bunch = pickle.load(file_obj) file_obj.close() return bunch # 导入训练集向量空间trainpath = "train_word_bag/tfidfspace.dat"train_set = readbunchobj(trainpath) # d导入测试集向量空间testpath = "test_word_bag/testspace.dat"test_set = readbunchobj(testpath) # 应用贝叶斯算法 # alpha:0.001 alpha 越小,迭代次数越多,精度越高clf = MultinomialNB(alpha=0.001).fit(train_set.tdm, train_set.label) # 预测分类结果predicted = clf.predict(test_set.tdm) total = len(predicted);rate = 0 for flabel, file_name, expct_cate in zip(test_set.label, test_set.filenames, predicted): if flabel != expct_cate: rate += 1 print(file_name, ": 实际类别:", flabel, "-->预测分类:", expct_cate) # 精度print("error_rate:", float(rate) * 100 / float(total), "%")
6.分类结果评估
机器学习领域的算法评估有三个基本指标:
· 召回率(recall rate,查全率):是检索出的相关文档数与文档库中所有相关文档的比率,衡量的是检索系统的查全率
召回率=系统检索到的相关文件/系统所有相关的文件综述
· 准确率(Precision,精度):是检索出的相关文档数于检索出的文档总数的比率,衡量的是检索系统的查准率
准确率=系统检索到的相关文件/系统所有的检索到的文件数
准确率和召回率是相互影响的,理想情况下是二者都高,但是一般情况下准确率高,召回率就低;召回率高,准确率就低
· F-Score():计算公式为:
当=1时就是最常见的-Measure
三者关系如下:
具体评估代码如下:
import numpy as np from sklearn import metrics #评估def metrics_result(actual,predict): print("精度:{0:.3f}".format(metrics.precision_score(actual,predict))) print("召回:{0:0.3f}".format(metrics.recall_score(actual,predict))) print("f1-score:{0:.3f}".format(metrics.f1_score(actual,predict))) metrics_result(test_set.label,predicted) 中文文本语料 中文停用词文本集合 工程全部代码 原文链接
위 내용은 Python을 사용하여 작은 텍스트 분류 시스템 구현의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











MySQL에는 무료 커뮤니티 버전과 유료 엔터프라이즈 버전이 있습니다. 커뮤니티 버전은 무료로 사용 및 수정할 수 있지만 지원은 제한되어 있으며 안정성이 낮은 응용 프로그램에 적합하며 기술 기능이 강합니다. Enterprise Edition은 안정적이고 신뢰할 수있는 고성능 데이터베이스가 필요하고 지원 비용을 기꺼이 지불하는 응용 프로그램에 대한 포괄적 인 상업적 지원을 제공합니다. 버전을 선택할 때 고려 된 요소에는 응용 프로그램 중요도, 예산 책정 및 기술 기술이 포함됩니다. 완벽한 옵션은없고 가장 적합한 옵션 만 있으므로 특정 상황에 따라 신중하게 선택해야합니다.

HADIDB : 가볍고 높은 수준의 확장 가능한 Python 데이터베이스 HadIDB (HADIDB)는 파이썬으로 작성된 경량 데이터베이스이며 확장 수준이 높습니다. PIP 설치를 사용하여 HADIDB 설치 : PIPINSTALLHADIDB 사용자 관리 사용자 만들기 사용자 : createUser () 메소드를 작성하여 새 사용자를 만듭니다. Authentication () 메소드는 사용자의 신원을 인증합니다. Fromhadidb.operationimportuseruser_obj = user ( "admin", "admin") user_obj.

해시 값으로 저장되기 때문에 MongoDB 비밀번호를 Navicat을 통해 직접 보는 것은 불가능합니다. 분실 된 비밀번호 검색 방법 : 1. 비밀번호 재설정; 2. 구성 파일 확인 (해시 값이 포함될 수 있음); 3. 코드를 점검하십시오 (암호 하드 코드 메일).

MySQL은 기본 데이터 저장 및 관리를위한 네트워크 연결없이 실행할 수 있습니다. 그러나 다른 시스템과의 상호 작용, 원격 액세스 또는 복제 및 클러스터링과 같은 고급 기능을 사용하려면 네트워크 연결이 필요합니다. 또한 보안 측정 (예 : 방화벽), 성능 최적화 (올바른 네트워크 연결 선택) 및 데이터 백업은 인터넷에 연결하는 데 중요합니다.

MySQL Workbench는 구성이 올바른 경우 MariadB에 연결할 수 있습니다. 먼저 커넥터 유형으로 "mariadb"를 선택하십시오. 연결 구성에서 호스트, 포트, 사용자, 비밀번호 및 데이터베이스를 올바르게 설정하십시오. 연결을 테스트 할 때는 마리아드 브 서비스가 시작되었는지, 사용자 이름과 비밀번호가 올바른지, 포트 번호가 올바른지, 방화벽이 연결을 허용하는지 및 데이터베이스가 존재하는지 여부를 확인하십시오. 고급 사용에서 연결 풀링 기술을 사용하여 성능을 최적화하십시오. 일반적인 오류에는 불충분 한 권한, 네트워크 연결 문제 등이 포함됩니다. 오류를 디버깅 할 때 오류 정보를 신중하게 분석하고 디버깅 도구를 사용하십시오. 네트워크 구성을 최적화하면 성능이 향상 될 수 있습니다

MySQL 데이터베이스 성능 최적화 안내서 리소스 집약적 응용 프로그램에서 MySQL 데이터베이스는 중요한 역할을 수행하며 대규모 트랜잭션 관리를 담당합니다. 그러나 응용 프로그램 규모가 확장됨에 따라 데이터베이스 성능 병목 현상은 종종 제약이됩니다. 이 기사는 일련의 효과적인 MySQL 성능 최적화 전략을 탐색하여 응용 프로그램이 고 부하에서 효율적이고 반응이 유지되도록합니다. 실제 사례를 결합하여 인덱싱, 쿼리 최적화, 데이터베이스 설계 및 캐싱과 같은 심층적 인 주요 기술을 설명합니다. 1. 데이터베이스 아키텍처 설계 및 최적화 된 데이터베이스 아키텍처는 MySQL 성능 최적화의 초석입니다. 몇 가지 핵심 원칙은 다음과 같습니다. 올바른 데이터 유형을 선택하고 요구 사항을 충족하는 가장 작은 데이터 유형을 선택하면 저장 공간을 절약 할 수있을뿐만 아니라 데이터 처리 속도를 향상시킬 수 있습니다.

MySQL 연결은 다음과 같은 이유로 인한 것일 수 있습니다. MySQL 서비스가 시작되지 않았고 방화벽이 연결을 가로 채고 포트 번호가 올바르지 않으며 사용자 이름 또는 비밀번호가 올바르지 않으며 My.cnf의 청취 주소가 부적절하게 구성되어 있습니다. 1. MySQL 서비스가 실행 중인지 확인합니다. 2. MySQL이 포트 3306을들을 수 있도록 방화벽 설정을 조정하십시오. 3. 포트 번호가 실제 포트 번호와 일치하는지 확인하십시오. 4. 사용자 이름과 암호가 올바른지 확인하십시오. 5. my.cnf의 바인드 아드 드레스 설정이 올바른지 확인하십시오.

데이터 전문가는 다양한 소스에서 많은 양의 데이터를 처리해야합니다. 이것은 데이터 관리 및 분석에 어려움을 겪을 수 있습니다. 다행히도 AWS Glue와 Amazon Athena의 두 가지 AWS 서비스가 도움이 될 수 있습니다.
