ホームページ バックエンド開発 Python チュートリアル [PYTHON チュートリアル] 記事の要約を抽出する

[PYTHON チュートリアル] 記事の要約を抽出する

Feb 07, 2017 pm 04:11 PM
python

ブログシステムの記事リストでは、記事の内容をより効果的に提示し、読者がよりターゲットを絞った読みを選択できるようにするために、通常、記事のタイトルと要約が同時に提供されます。

記事のコンテンツはプレーンテキスト形式でも構いませんが、インターネットの普及に伴い、現在では HTML 形式が多くなっています。形式に関係なく、要約は通常、記事の冒頭の内容であり、指定された文字数に従って抽出できます。

プレーンテキストの概要

まず、プレーンテキストの概要を抽出します。プレーンテキストのドキュメントは長い文字列ですが、その概要を抽出するのは簡単です:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""Get a summary of the TEXT-format document"""

def get_summary(text, count):
u"""Get the first `count` characters from `text`

>>> text = u'Welcome 这是一篇关于Python的文章'
>>> get_summary(text, 12) == u'Welcome 这是一篇'
True
"""
assert(isinstance(text, unicode))
return text[0:count]

if __name__ == '__main__':
import doctest
doctest.testmod()
ログイン後にコピー

HTMLの概要

HTMLドキュメントには、多数のタグが含まれています(

など)、これらの文字はマーク命令であり、通常、単純なテキストのインターセプトによって HTML の文書構造が破壊され、要約が表示されます。ブラウザが不適切に表示されました。

HTML ドキュメントの構造に従いながらコンテンツをインターセプトするには、HTML ドキュメントを解析する必要があります。 Python では、これは標準ライブラリ HTMLParser を使用して実行できます。

最も単純な概要抽出関数の 1 つは、HTML タグを無視し、タグ内のネイティブ テキストのみを抽出することです。以下は、この関数と同様の Python 実装です:

上記は、記事の要約を抽出するための [PYTHON チュートリアル] の内容です。その他の関連コンテンツについては、PHP 中国語 Web サイト (www.php.cn) に注目してください。


このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

2時間のPython計画:現実的なアプローチ 2時間のPython計画:現実的なアプローチ Apr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー(条件付きステートメントとループ)、3。機能の定義と使用を理解する4。

Redisキューの読み方 Redisキューの読み方 Apr 10, 2025 pm 10:12 PM

Redisのキューを読むには、キュー名を取得し、LPOPコマンドを使用して要素を読み、空のキューを処理する必要があります。特定の手順は次のとおりです。キュー名を取得します:「キュー:キュー」などの「キュー:」のプレフィックスで名前を付けます。 LPOPコマンドを使用します。キューのヘッドから要素を排出し、LPOP Queue:My-Queueなどの値を返します。空のキューの処理:キューが空の場合、LPOPはnilを返し、要素を読む前にキューが存在するかどうかを確認できます。

Redisでサーバーを開始する方法 Redisでサーバーを開始する方法 Apr 10, 2025 pm 08:12 PM

Redisサーバーを起動する手順には、以下が含まれます。オペレーティングシステムに従ってRedisをインストールします。 Redis-Server(Linux/Macos)またはRedis-Server.exe(Windows)を介してRedisサービスを開始します。 Redis-Cli ping(Linux/macos)またはRedis-Cli.exePing(Windows)コマンドを使用して、サービスステータスを確認します。 Redis-Cli、Python、node.jsなどのRedisクライアントを使用して、サーバーにアクセスします。

ビジネスのニーズに応じてRedisメモリサイズを設定する方法は? ビジネスのニーズに応じてRedisメモリサイズを設定する方法は? Apr 10, 2025 pm 02:18 PM

Redisメモリサイズの設定は、次の要因を考慮する必要があります。データ量と成長傾向:保存されたデータのサイズと成長率を推定します。データ型:異なるタイプ(リスト、ハッシュなど)は異なるメモリを占めます。キャッシュポリシー:完全なキャッシュ、部分キャッシュ、フェージングポリシーは、メモリの使用に影響します。ビジネスピーク:トラフィックピークに対処するのに十分なメモリを残します。

Python vs. C:比較されたアプリケーションとユースケース Python vs. C:比較されたアプリケーションとユースケース Apr 12, 2025 am 12:01 AM

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

Redisメモリ構成パラメーターとは何ですか? Redisメモリ構成パラメーターとは何ですか? Apr 10, 2025 pm 02:03 PM

** Redisメモリ構成のコアパラメーターはMaxMemoryであり、Redisが使用できるメモリの量を制限します。この制限を超えると、Redisは、Maxmemory-Policyに従って除去戦略を実行します。これには、次のようになります。その他の関連パラメーターには、Maxmemory-Samples(LRUサンプル量)、RDB圧縮が含まれます

メモリに対するRedisの持続性の影響は何ですか? メモリに対するRedisの持続性の影響は何ですか? Apr 10, 2025 pm 02:15 PM

Redis Persistenceは余分なメモリを取り、RDBはスナップショットを生成するときに一時的にメモリの使用量を増加させ、AOFはログを追加するときにメモリを取り上げ続けます。影響要因には、データのボリューム、永続性ポリシー、Redis構成が含まれます。影響を緩和するために、RDBスナップショットポリシーを合理的に構成し、AOF構成を最適化し、ハードウェアをアップグレードし、メモリの使用量を監視できます。さらに、パフォーマンスとデータセキュリティのバランスを見つけることが重要です。

Redisのデータを読み取る方法 Redisのデータを読み取る方法 Apr 10, 2025 pm 07:30 PM

Redisのデータを読み取るには、次の手順に従うことができます。1。Redisサーバーに接続します。 2。(key)を使用してキーの値を取得します。 3.文字列値が必要な場合は、バイナリ値をデコードします。 4.使用(キー)を使用して、キーが存在するかどうかを確認します。 5。mget(キー)を使用して、複数の値を取得します。 6。タイプ(キー)を使用してデータ型を取得します。 7. Redisには、次のような他の読み取りコマンドがあります。すべてのキーを一致するパターンで取得し、カーソルを使用してキーを反復し、キー値を並べ替えます。

See all articles