Python使用gensim计算文档相似性-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Python使用gensim计算文档相似性

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 10, 2016 pm 03:05 PM

python

pre_file.py

#-*-coding:utf-8-*-
import MySQLdb
import MySQLdb as mdb
import os,sys,string
import jieba
import codecs
reload(sys)
sys.setdefaultencoding('utf-8')
#连接数据库
try:
  conn=mdb.connect(host='127.0.0.1',user='root',passwd='kongjunli',db='test1',charset='utf8')
except Exception,e:
  print e
  sys.exit()
#获取cursor对象操作数据库
cursor=conn.cursor(mdb.cursors.DictCursor) #cursor游标
#获取内容
sql='SELECT link,content FROM test1.spider;'
cursor.execute(sql)   #execute()方法，将字符串当命令执行
data=cursor.fetchall()#fetchall()接收全部返回结果行
f=codecs.open('C:\Users\kk\Desktop\hello-result1.txt','w','utf-8')
 
for row in data:    #row接收结果行的每行数据
  seg='/'.join(list(jieba.cut(row['content'],cut_all='False')))
  f.write(row['link']+' '+seg+'\r\n')
f.close()
 
cursor.close()
      #提交事务，在插入数据时必须

Nach dem Login kopieren

jiansuo.py

#-*-coding:utf-8-*-
import sys
import string
import MySQLdb
import MySQLdb as mdb
import gensim
from gensim import corpora,models,similarities
from gensim.similarities import MatrixSimilarity
import logging
import codecs
reload(sys)
sys.setdefaultencoding('utf-8')
 
con=mdb.connect(host='127.0.0.1',user='root',passwd='kongjunli',db='test1',charset='utf8')
with con:
  cur=con.cursor()
  cur.execute('SELECT * FROM cutresult_copy')
  rows=cur.fetchall()
  class MyCorpus(object):
    def __iter__(self):
      for row in rows:
        yield str(row[1]).split('/')
#开启日志
logging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s',level=logging.INFO)
Corp=MyCorpus()
#将网页文档转化为tf-idf
dictionary=corpora.Dictionary(Corp)
corpus=[dictionary.doc2bow(text) for text in Corp] #将文档转化为词袋模型
#print corpus
tfidf=models.TfidfModel(corpus)#使用tf-idf模型得出文档的tf-idf模型
corpus_tfidf=tfidf[corpus]#计算得出tf-idf值
#for doc in corpus_tfidf:
  #print doc
###
'''
q_file=open('C:\Users\kk\Desktop\q.txt','r')
query=q_file.readline()
q_file.close()
vec_bow=dictionary.doc2bow(query.split(' '))#将请求转化为词带模型
vec_tfidf=tfidf[vec_bow]#计算出请求的tf-idf值
#for t in vec_tfidf:
 # print t
'''
###
query=raw_input('Enter your query:')
vec_bow=dictionary.doc2bow(query.split())
vec_tfidf=tfidf[vec_bow]
index=similarities.MatrixSimilarity(corpus_tfidf)
sims=index[vec_tfidf]
similarity=list(sims)
print sorted(similarity,reverse=True)

Nach dem Login kopieren

encodings.xml

<&#63;xml version="1.0" encoding="UTF-8"&#63;>
<project version="4">
 <component name="Encoding">
  <file url="PROJECT" charset="UTF-8" />
 </component>
</project>

Nach dem Login kopieren

misc.xml

<&#63;xml version="1.0" encoding="UTF-8"&#63;>
<project version="4">
 <component name="ProjectLevelVcsManager" settingsEditedManually="false">
  <OptionsSetting value="true" id="Add" />
  <OptionsSetting value="true" id="Remove" />
  <OptionsSetting value="true" id="Checkout" />
  <OptionsSetting value="true" id="Update" />
  <OptionsSetting value="true" id="Status" />
  <OptionsSetting value="true" id="Edit" />
  <ConfirmationsSetting value="0" id="Add" />
  <ConfirmationsSetting value="0" id="Remove" />
 </component>
 <component name="ProjectRootManager" version="2" project-jdk-name="Python 2.7.11 (C:\Python27\python.exe)" project-jdk-type="Python SDK" />
</project>

Nach dem Login kopieren

modules.xml

<&#63;xml version="1.0" encoding="UTF-8"&#63;>
<project version="4">
 <component name="ProjectModuleManager">
  <modules>
   <module fileurl="file://$PROJECT_DIR$/.idea/爬虫练习代码.iml" filepath="$PROJECT_DIR$/.idea/爬虫练习代码.iml" />
  </modules>
 </component>
</project>

Nach dem Login kopieren

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Repo: Wie man Teamkollegen wiederbelebt

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Wie lange dauert es, um Split Fiction zu schlagen?

3 Wochen vor By DDD

R.E.P.O. Dateispeicherspeicherort: Wo ist es und wie schützt sie?

3 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7318

Java-Tutorial

1625

CakePHP-Tutorial

1349

Laravel-Tutorial

1261

PHP-Tutorial

1209

Related knowledge

Sozugreifen Sie auf Deepseekapi - Deepseekapi Access Tutorial Tutorial Mar 12, 2025 pm 12:24 PM

Detaillierte Erläuterung von Deepseekapi -Zugriff und -anruf: Quick Start Guide In diesem Artikel können Sie ausführlich auf Deepseekapi zugreifen und anrufen und Ihnen helfen, leistungsstarke KI -Modelle problemlos zu verwenden. Schritt 1: Holen Sie sich den API -Schlüssel, um auf die offizielle Website von Deepseek zuzugreifen, und klicken Sie in der oberen rechten Ecke auf die "Plattform". Sie erhalten eine bestimmte Anzahl freier Token (zur Messung der API -Verwendung verwendet). Klicken Sie im Menü links auf "Apikeys" und dann auf "Apikey erstellen". Nennen Sie Ihren Apikey (z. B. "Test") und kopieren Sie den generierten Schlüssel sofort. Stellen Sie sicher, dass Sie diesen Schlüssel richtig speichern, da er nur einmal angezeigt wird

Quantitative Währungssoftware Mar 19, 2025 pm 04:06 PM

In diesem Artikel werden die quantitativen Handelsfunktionen der drei Hauptbörsen Binance, OKX und Gate.io untersucht, um quantitative Händler zu helfen, die richtige Plattform auszuwählen. Der Artikel stellt zunächst die Konzepte, Vorteile und Herausforderungen des quantitativen Handels ein und erklärt die Funktionen, dass eine hervorragende quantitative Handelssoftware wie API -Unterstützung, Datenquellen, Backtesting -Tools und Risikokontrollfunktionen haben sollte. Anschließend wurden die quantitativen Handelsfunktionen der drei Börsen ausführlich verglichen und analysiert, wobei sie auf ihre Vor- und Nachteile hingewiesen und schließlich Plattformauswahlvorschläge für quantitative Händler unterschiedlicher Erfahrungsstufen und Betonung der Bedeutung der Risikobewertung und des strategischen Backtests. Unabhängig davon

So implementieren Sie Anrufe mit Python - Deepseek Python Call Method Guide Mar 12, 2025 pm 12:51 PM

Deepseek Deep Learning Library Python Call Guide Deepseek ist eine leistungsstarke Deep -Learning -Bibliothek, mit der verschiedene neuronale Netzwerkmodelle erstellt und trainiert werden können. In diesem Artikel wird ausführlich vorgestellt, wie man Python verwendet, um Deepseek für Deep Learning Development anzurufen. Schritte, um Deepseek mit Python anzurufen. 1. Installieren Sie Deepseek stellen Sie sicher, dass die Python -Umgebung und die PIP -Tools installiert sind. Installieren Sie Deepseek mit dem folgenden Befehl: Pipinstalldeepseek2.

Was ist Binance Alpha Mar 25, 2025 pm 03:39 PM

Anbi Alpha ist eine Tool- und Serviceaggregationsplattform für professionelle Händler und Investoren auf der Binance -Plattform. Zu den Kernfunktionen gehören: 1. Strategy Square, das verschiedene Handelsstrategien zusammenbringt; 2. Strategy Builder, der benutzerdefinierte Handelsstrategien ermöglicht; 3.. Erweiterte Datenanalyse, Bereitstellung von Marktanalysetools; 4. Dienste auf institutioneller Ebene, um den Bedürfnissen professioneller Investoren zu erfüllen.

Welche Börsen können Optionsabsicherungsanweisungen über die Handelsseite senden Mar 28, 2025 pm 03:27 PM

Ab 2024 stützt der Mainstream-Kryptowährungsbörsen, die die direkte Sendung der Optionsabsicherungsanweisungen durch Handelsanschlüsse unterstützen: 1. Deribit unterstützt fortgeschrittene Strategien wie Delta-Absicherung und Gamma-Skalpaie und liefert Webversion/API One-Click-Absicherung. 2. OKX unterstützt Volatilitätsabsicherungs- und Strategie-Kombinationstools sowie ein integriertes Absicherungspanel im Web/der App. 3.. Binance unterstützt die Schutzabsicherung, die manuelle oder API -Kombinationspositionen erfordern. V. 5. Ledgerx, das Absicherungsinstrumente auf professioneller Ebene bietet und eine institutionelle Zertifizierung erfordert.

Wie kann man Node.js oder Python -Dienste in Lampenarchitektur effizient integrieren? Apr 01, 2025 pm 02:48 PM

Viele Website -Entwickler stehen vor dem Problem der Integration von Node.js oder Python Services unter der Lampenarchitektur: Die vorhandene Lampe (Linux Apache MySQL PHP) Architekturwebsite benötigt ...

Wie kann man mehrschichtige verschachtelte Klammern in Latexformeln effizient analysieren und in ein multidimensionales Wörterbuch umwandeln? Apr 01, 2025 am 08:57 AM

Python Parse Latex Multi-Layer-Klammern: Bauen Sie mehrdimensionales Wörterbuch viele Latex ...

Wie generiere ich nicht repetitive Permutationskombinationen basierend auf Charaktersatz und Anzahl der Ebenen und schließen alle Zeichen derselben Kombinationen aus? Apr 01, 2025 am 06:57 AM

Generieren Sie die Permutationskombination basierend auf Zeichensatz und Ebenenzahl. In diesem Artikel wird untersucht, wie die entsprechenden Ergebnisse der Permutationskombination basierend auf einem bestimmten Zeichensatz und einer bestimmten Schichtnummer generiert werden, um Duplikation zu vermeiden ...

See all articles