ホームページ バックエンド開発 Python チュートリアル Pythonでのキーワード抽出のサンプル説明

Pythonでのキーワード抽出のサンプル説明

Apr 28, 2018 pm 03:01 PM
python キーワード

以下は Python でキーワード抽出を実装する方法の例です。非常に参考になるので、皆さんのお役に立てれば幸いです。一緒に見に来てください

初心者がまたブログを書きます! ! !誰も不幸とは言っていません~~(>_<)~~

今日は簡単なキーワード抽出コードを作ります

記事コンテンツからのキーワード抽出は大きく3つのステップに分かれています:

(1) 単語の分割

(2) ストップワードの削除

(3) キーワードの抽出

ここでは、ストップワードを削除するために一般的に使用される吃音の分割を選択します。 , 私はストップワードリストの作成を使います。

具体的なコードは次のとおりです:

import jieba
import jieba.analyse
#第一步:分词,这里使用结巴分词全模式
text = &#39;&#39;&#39;新闻,也叫消息,是指报纸、电台、电视台、互联网经常使用的记录社会、传播信息、反映时代的一种文体,具有真实性、时效性、简洁性、可读性、准确性的特点。新闻概念有广义与狭义之分。就其广义而言,除了发表于报刊、广播、电视上的评论与专文外的常用文本都属于新闻之列,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等。狭义的新闻则专指消息,消息是用概括的叙述方式,比较简明扼要的文字,迅速及时地报道国内外新近发生的、有价值的的事实。新闻也分公众新闻和小道新闻等。每则新闻在结构上,一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分,后二者是辅助部分。写法上主要是叙述,有时兼有议论、描写、评论等。
&#39;&#39;&#39;
fenci_text = jieba.cut(text)
#print("/ ".join(fenci_text))
#第二步:去停用词
#这里是有一个文件存放要改的文章,一个文件存放停用表,然后和停用表里的词比较,一样的就删掉,最后把结果存放在一个文件中
stopwords = {}.fromkeys([ line.rstrip() for line in open(&#39;stopwords.txt&#39;) ])
final = ""
for word in fenci_text:
  if word not in stopwords:
    if (word != "。" and word != ",") :
      final = final + " " + word
print(final)
#第三步:提取关键词
a=jieba.analyse.extract_tags(text, topK = 5, withWeight = True, allowPOS = ())
print(a)
#text 为待提取的文本
# topK:返回几个 TF/IDF 权重最大的关键词,默认值为20。
# withWeight:是否一并返回关键词权重值,默认值为False。
# allowPOS:仅包括指定词性的词,默认值为空,即不进行筛选。
ログイン後にコピー

実行結果:

runfile(&#39;D:/Data/文本挖掘/xiaojieba.py&#39;, wdir=&#39;D:/Data/文本挖掘&#39;)
 新闻 消息 指 报纸 、 电台 、 电视台 、 互联网 记录 社会 、 传播 信息 、 时代 一种 文体 真实性 、 时效性 、 简洁性 、 可读性 、 准确性 新闻 概念 广义 狭义 之分 广义 发表 报刊 、 广播 、 电视 评论 专文 外 常用 文本 新闻 列 包括 消息 、 通讯 、 特写 、 速写 ( 速写 纳入 特写 列 ) 狭义 新闻 专指 消息 消息 概括 叙述 方式 简明扼要 文字 报道 国内外 新近 发生 、 价值 事实 新闻 分 公众 新闻 小道 新闻 每则 新闻 在结构上 包括 标题 、 导语 、 主体 、 背景 结语 五 前 三者 二者 辅助 写法 叙述 兼有 议论 、 描写 、 评论 
[(&#39;新闻&#39;, 0.4804811569680808), (&#39;速写&#39;, 0.2121107125313131), (&#39;消息&#39;, 0.20363211136040404), (&#39;特写&#39;, 0.20023623445272729), (&#39;狭义&#39;, 0.16168734917858588)]
ログイン後にコピー

とても簡単ですね。

関連する推奨事項:

ログログを実装するための Python のサンプルコード

Python は、任意の数のパラメーターを受け入れる関数を実装します

以上がPythonでのキーワード抽出のサンプル説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Deepseekapiにアクセスする方法-Deepseekapiアクセスコールチュートリアル Deepseekapiにアクセスする方法-Deepseekapiアクセスコールチュートリアル Mar 12, 2025 pm 12:24 PM

Deepseekapiアクセスと電話の詳細な説明:クイックスタートガイドこの記事では、Deepseekapiにアクセスして呼び出す方法を詳しく説明し、強力なAIモデルを簡単に使用するのに役立ちます。ステップ1:APIキーを取得して、DeepSeekの公式Webサイトにアクセスし、右上隅の「オープンプラットフォーム」をクリックします。一定数の無料トークン(API使用量を測定するために使用)が得られます。左側のメニューで、[apikeys]をクリックし、[Apikeyの作成]をクリックします。 Apikey(たとえば、「テスト」)に名前を付け、生成されたキーをすぐにコピーします。このキーは一度しか表示されないため、必ず適切に保存してください

定量通貨取引ソフトウェア 定量通貨取引ソフトウェア Mar 19, 2025 pm 04:06 PM

この記事では、3つの主要な交換、Binance、OKX、およびgate.ioの定量的取引機能を調査し、定量的トレーダーが適切なプラットフォームを選択できるようにすることを目指しています。この記事では、最初に定量的取引の概念、利点、課題を紹介し、APIサポート、データソース、バックテストツール、リスク制御機能など、優れた定量的取引ソフトウェアが持つべき機能を説明します。その後、3つの交換の定量的取引機能を比較し、詳細に分析し、それぞれその利点と短所を指摘し、最終的にさまざまなレベルの経験の定量的トレーダーにプラットフォーム選択の提案を提供し、リスク評価と戦略的バックテストの重要性を強調しました。 あなたが初心者であろうと経験豊富な定量的トレーダーであろうと、この記事はあなたに貴重なリファレンスを提供します

Pythonでコールを実装する方法-DeepseekPythonコールメソッドガイド Pythonでコールを実装する方法-DeepseekPythonコールメソッドガイド Mar 12, 2025 pm 12:51 PM

Deepseek Deep Learning Library Python Call Guide Deepseekは、さまざまなニューラルネットワークモデルの構築とトレーニングに使用できる強力なディープラーニングライブラリです。この記事では、Pythonを使用してDeepSeekを呼び出すためにDeep Learning Developmentを詳細に紹介します。 Python 1を使用してDeepseekを呼び出す手順。Python環境とPIPツールがインストールされていることを確認してください。次のコマンドを使用してDeepSeekをインストールします。PipinStallDeepSeek2をインポートします。

バイナンスアルファとは何ですか バイナンスアルファとは何ですか Mar 25, 2025 pm 03:39 PM

ANBI Alphaは、Binanceプラットフォームのプロのトレーダーや投資家向けのツールおよびサービス集約プラットフォームです。そのコア関数には、次のものが含まれます。1。戦略スクエアは、さまざまな取引戦略を結びつける。 2。カスタム取引戦略を許可する戦略ビルダー。 3.市場分析ツールを提供する高度なデータ分析。 4。専門的な投資家のニーズを満たすための機関レベルのサービス。

取引所を介してオプションヘッジ命令を送信できる交換 取引所を介してオプションヘッジ命令を送信できる交換 Mar 28, 2025 pm 03:27 PM

2024年の時点で、トレーディング端末を介してオプションヘッジングの指示を直接送信するサポートをサポートする主流の暗号通貨交換:1。デリビットは、デルタヘッジやガンマスカルピングなどの高度な戦略をサポートし、Webバージョン/APIワンクリックヘッジを提供します。 2。OKXは、ボラティリティヘッジと戦略の組み合わせツール、およびWeb/アプリに組み込みのヘッジパネルをサポートしています。 3. Binanceは保護ヘッジをサポートし、手動またはAPIの組み合わせ位置を必要とします。 4。CME、標準オプションを提供し、ブローカーを通じてアクセスを必要とする。 5。Ledgerx、専門レベルのヘッジツールを提供し、機関の認証を必要とします。

ランプアーキテクチャの下でnode.jsまたはPythonサービスを効率的に統合する方法は? ランプアーキテクチャの下でnode.jsまたはPythonサービスを効率的に統合する方法は? Apr 01, 2025 pm 02:48 PM

多くのウェブサイト開発者は、ランプアーキテクチャの下でnode.jsまたはPythonサービスを統合する問題に直面しています:既存のランプ(Linux Apache MySQL PHP)アーキテクチャWebサイトのニーズ...

ラテックスフォーミュラで多層ネストされた括弧を効率的に解析し、それらを多次元辞書に変換するにはどうすればよいですか? ラテックスフォーミュラで多層ネストされた括弧を効率的に解析し、それらを多次元辞書に変換するにはどうすればよいですか? Apr 01, 2025 am 08:57 AM

Pythonは、ラテックスマルチレイヤーブラケット:多次元辞書の多くのラテックスを構築します...

文字セットとレイヤー数に基づいて非反復的な順列の組み合わせを生成し、同じ組み合わせのすべての文字を除外する方法は? 文字セットとレイヤー数に基づいて非反復的な順列の組み合わせを生成し、同じ組み合わせのすべての文字を除外する方法は? Apr 01, 2025 am 06:57 AM

文字セットとレイヤー番号に基づいて、順列の組み合わせを生成します。この記事では、重複を避けるために、特定の文字セットとレイヤー番号に基づいて、対応する順列の組み合わせ結果を生成する方法を紹介します...

See all articles