HTML から TXT への方法
日常のインターネットの使用では、Web ページからコンテンツを取得してテキスト形式に変換する必要に遭遇することがよくあります。よくあるのは、オフラインで読むためやその他の目的で、Web サイトから記事のテキスト コンテンツを取得し、TXT ファイルとして保存したい場合です。ただし、HTML と TXT の間に互換性がないため、このプロセスの処理が混乱する人もいるかもしれません。この記事では、HTMLテキストをTXT形式に変換するいくつかの方法を紹介します。
方法 1: 手動でコピーして貼り付けます
これは最も簡単で直接的な方法です。変換する必要がある HTML テキストを選択し、マウスで右クリックして [コピー] を選択します。 」オプションを選択し、TXT ファイルまたは任意のテキスト エディタを開き、再度右クリックして [貼り付け] を選択します。ただし、コピーされたコンテンツには、フォント、色、スタイルなどのテキスト書式設定が含まれる場合があることに注意してください。したがって、TXT にコピーした後は慎重にクリーニングする必要があります。
特定の段落やテキスト行だけではなく、Web ページ全体のコンテンツをクロールする必要がある場合、この方法は時間がかかり、困難になります。この場合、次の 2 つの方法を考慮する必要があります。
方法 2: Python スクリプトを使用する
Python は、HTTP クライアント ライブラリを提供する非常に人気のあるプログラミング言語です。特定の Web ページの HTML コンテンツを簡単にスクレイピングします。 Python を使用して簡単なスクリプトを作成し、HTML を取得し、フォーマットをクリーンアップして TXT フォーマットに変換できます。
最初に、Python をインストールします。
次に、サードパーティ ライブラリ「BeautifulSoup」をインストールします:
pip install bs4
次に、Python スクリプトを作成します:
import requests from bs4 import BeautifulSoup url = 'https://example.com' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') text = soup.get_text() with open('example.txt', 'w') as f: f.write(text)
このスクリプトでは、最初にリクエストと BeautifulSoup ライブラリをインポートしました。次に、クロールする HTML Web ページのアドレスを指定します。リクエスト ライブラリは、Web ページのコンテンツの取得に役立ちます。取得した HTML コンテンツを BeautifulSoup ライブラリに渡し、HTML を解析する方法を指定します (ここでは「html.parser」を使用します)。 get_text() メソッドは、すべてのテキスト コンテンツを抽出し、すべての HTML タグと書式設定を削除して、オブジェクトを返します。最後に、このオブジェクトを新しい TXT ファイルに書き込みます。
方法 3: オンライン HTML to TXT ツール
次の Web サイトにアクセスすると、Web サイトが提供するオンライン ツールを使用して、HTML テキストを TXT 形式に変換できます:
https : //www.convertio.co/zh/html-txt/
https://www.aconvert.com/cn/document/html-to-txt/
HTML ファイルをアップロードするか、 HTMLコードを直接貼り付けて「変換開始」ボタンをクリックすると、HTMLテキストをTXT形式に簡単に変換できます。ただし、多くの HTML 書式設定とマークアップが含まれる長いテキストの場合、この方法は多くのコンテンツが失われる可能性があり、良い変換方法ではないことに注意してください。
概要
HTML テキストを TXT 形式に変換し、スタイルとタグをクリアすることは、特に研究や学習にインターネットを使用する場合に一般的な操作です。操作を手動でコピーするか、スクリプトやオンライン ツールを使用するかにかかわらず、プロセスを完了するには複数のオプションがあり、最適な方法を選択できます。
以上がhtmlからテキストへの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。