html kepada txt

PHPz
Lepaskan: 2023-05-27 21:28:06
asal
4163 orang telah melayarinya

Cara menukar HTML kepada TXT

Dalam penggunaan Internet harian, kita sering menghadapi keperluan untuk mengambil kandungan daripada halaman web dan menukarnya ke dalam format teks. Momen biasa mungkin ingin mengambil kandungan teks artikel daripada tapak web dan menyimpannya sebagai fail TXT untuk bacaan luar talian atau tujuan lain. Walau bagaimanapun, disebabkan ketidakserasian antara HTML dan TXT, menangani proses ini mungkin mengelirukan sesetengah orang. Dalam artikel ini, kami akan memperkenalkan beberapa kaedah untuk menukar teks HTML kepada format TXT.

Kaedah 1: Salin dan tampal secara manual

Ini ialah kaedah paling mudah dan langsung: pilih teks HTML yang perlu ditukar, kemudian klik kanan dan pilih pilihan "Salin", dan kemudian buka fail TXT atau mana-mana editor teks, klik kanan sekali lagi dan pilih "Tampal". Walau bagaimanapun, perlu diingatkan bahawa kandungan yang disalin mungkin mengandungi beberapa pemformatan teks, seperti fon, warna, gaya, dsb. Oleh itu, pembersihan berhati-hati diperlukan selepas menyalin ke TXT.

Kaedah ini menjadi lebih memakan masa dan sukar jika anda perlu merangkak kandungan keseluruhan halaman web, bukannya hanya perenggan atau baris teks tertentu. Dalam kes ini, kita perlu mempertimbangkan dua kaedah berikut:

Kaedah 2: Gunakan skrip Python

Python ialah bahasa pengaturcaraan yang sangat popular yang menyediakan perpustakaan klien HTTP kepada kami, yang membolehkan kami untuk mengikis kandungan HTML mana-mana halaman web tertentu dengan mudah. Kita boleh menulis skrip mudah menggunakan Python untuk mengambil HTML, membersihkan format dan menukarnya kepada format TXT.

Pertama, pasang Python;

Kedua, pasang pustaka pihak ketiga "BeautifulSoup":

pip install bs4
Salin selepas log masuk

Kemudian, tulis skrip Python:

import requests
from bs4 import BeautifulSoup

url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
text = soup.get_text()

with open('example.txt', 'w') as f:
    f.write(text)
Salin selepas log masuk

Dalam skrip ini, kami mula-mula mengimport permintaan dan perpustakaan BeautifulSoup. Seterusnya, kami menyediakan alamat halaman web HTML untuk dirangkak, dan perpustakaan permintaan akan membantu kami mendapatkan kandungan halaman web tersebut. Kami menghantar kandungan HTML yang diperoleh ke pustaka BeautifulSoup dan menentukan cara ia menghuraikan HTML (di sini kami menggunakan "html.parser"). Kaedah get_text() mengekstrak semua kandungan teks, mengalih keluar semua teg HTML dan pemformatan, dan mengembalikan objek. Akhir sekali, kami menulis objek ini pada fail TXT baharu.

Kaedah 3: Alat HTML ke TXT Dalam Talian

Jika anda melawati tapak web berikut, anda boleh menggunakan alatan dalam talian yang mereka sediakan untuk menukar teks HTML kepada format TXT:

https : //www.convertio.co/zh/html-txt/
https://www.aconvert.com/cn/document/html-to-txt/

Dengan memuat naik fail HTML atau menampal terus kod HTML dan klik butang "Mulakan Penukaran", anda boleh menukar teks HTML ke format TXT dengan mudah. Walau bagaimanapun, perlu diingat bahawa untuk teks panjang yang mengandungi banyak pemformatan dan penanda HTML, kaedah ini mungkin kehilangan banyak kandungan dan bukan cara yang baik untuk menukar.

Ringkasan

Menukar teks HTML kepada format TXT dan mengosongkan gaya serta teg ialah operasi biasa, terutamanya apabila menggunakan Internet untuk penyelidikan dan pembelajaran. Sama ada menyalin operasi secara manual atau menggunakan skrip dan alatan dalam talian, kami mempunyai pelbagai pilihan untuk melengkapkan proses dan boleh memilih kaedah yang paling sesuai untuk kami.

Atas ialah kandungan terperinci html kepada txt. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan