poi html 转 perkataan

WBOY
Lepaskan: 2023-05-15 22:56:39
asal
1502 orang telah melayarinya

Dengan perkembangan berterusan teknologi maklumat Internet, kami semakin perlu menukar halaman HTML kepada dokumen Word untuk mengedit, menaip, mencetak, dll. Artikel ini akan memperkenalkan cara menggunakan perpustakaan POI untuk menukar halaman HTML kepada dokumen Word dan menyediakan beberapa contoh kod praktikal.

1. Pengenalan kepada POI

POI ialah singkatan daripada "Poor Obfuscation Implementation". Ia adalah projek sumber terbuka di bawah Yayasan Perisian Apache dan didedikasikan untuk Microsoft Office (termasuk Word, Excel , PowerPoint dsb.) membangunkan satu set API Java. Pada masa ini, POI telah menjadi salah satu perpustakaan standard untuk mencipta, membaca/menulis dokumen Microsoft Office dalam pembangunan Java, dan banyak program Java menggunakannya untuk mengendalikan dokumen Office.

2. Proses asas mencipta dokumen Word dengan POI

Sebelum menggunakan POI untuk mencipta dokumen Word, kita perlu memahami proses asasnya untuk mencipta dokumen Word.

  1. Buat dokumen Word kosong

Buat dokumen Word kosong dengan menggunakan kelas XWPFDocument yang disediakan oleh POI.

XWPFDocument doc = new XWPFDocument();
Salin selepas log masuk
  1. Pengendalian kandungan dokumen Word

Pengendalian kandungan dokumen Word dilaksanakan melalui kelas XWPFParagraph dan XWPFRun yang disediakan oleh POI, khususnya termasuk:

(1 ) Buat perenggan

XWPFParagraph para = doc.createParagraph();
Salin selepas log masuk

(2) Cipta teks

XWPFRun run = para.createRun();
run.setText("Hello World!");
Salin selepas log masuk
  1. Tulis dokumen Word ke fail

Gunakan kaedah tulis yang disediakan oleh kelas XWPFDocument untuk menulis dokumen Word Tulis ke fail.

FileOutputStream out = new FileOutputStream("output.docx");
doc.write(out);
out.close();
Salin selepas log masuk

3. Tukar HTML kepada dokumen Word

Di atas kami telah memperkenalkan secara ringkas proses asas menggunakan POI untuk mencipta dokumen Word. Di bawah ini kami akan memperkenalkan cara menggunakan POI untuk menukar halaman HTML kepada dokumen Word.

  1. Dapatkan kandungan halaman HTML

Kita boleh menggunakan kelas URLConnection yang disediakan oleh Java untuk mendapatkan kandungan halaman HTML, seperti yang ditunjukkan di bawah:

String urlStr = "http://www.baidu.com";
URL url = new URL(urlStr);
URLConnection conn = url.openConnection();
InputStream is = conn.getInputStream();
BufferedReader br = new BufferedReader(new InputStreamReader(is));
String line = null;
StringBuffer sb = new StringBuffer();
while((line = br.readLine()) != null){
    sb.append(line);
}  
String html = sb.toString();
Salin selepas log masuk
  1. Penghuraian halaman HTML

Menghuraikan kandungan halaman HTML yang diperoleh dan menggunakan perpustakaan Jsoup untuk merealisasikan penghuraian halaman HTML, seperti yang ditunjukkan di bawah:

rreee
  1. Kandungan dokumen Word Buat

(1) Buat dokumen Word kosong dan gunakan kelas XWPFDocument POI

Document docHtml = Jsoup.parse(html);
Salin selepas log masuk

(2) Dapatkan semua perenggan dalam halaman HTML

XWPFDocument docx = new XWPFDocument();
Salin selepas log masuk

(3) Tukar perenggan halaman HTML kepada perenggan dokumen Word

Elements parags = docHtml.getElementsByTag("p");
Salin selepas log masuk
  1. Tulis dokumen Word ke cakera

Akhir sekali, kami akan menulis dokumen Word yang dibuat ke cakera untuk kegunaan seterusnya.

for(Element p : parags){
    XWPFParagraph paragraph = docx.createParagraph();// 新建一个段落
    XWPFRun run = paragraph.createRun();// 在该段落中创建一个文本片段,即 XWPFRun
    run.setText(p.text());// 设置该文本片段的文字内容
}
Salin selepas log masuk

4. Contoh kod lengkap

Berikut ialah contoh kod lengkap untuk menukar halaman HTML kepada dokumen Word:

OutputStream os = new FileOutputStream("output.docx");
docx.write(os);
os.close();
Salin selepas log masuk

5 >Lulus Daripada pengenalan di atas, kita dapat melihat bahawa menggunakan POI untuk menukar halaman HTML kepada dokumen Word adalah fungsi yang sangat praktikal Ia boleh membantu kita memproses pelbagai kandungan teks dengan cepat dan tepat dalam kerja harian kita. POI merangkum beberapa API Java untuk mengendalikan perisian Office, yang boleh membantu kami mengendalikan Word, Excel dan format dokumen lain dengan lebih mudah, meningkatkan kecekapan kerja kami dan membawa lebih banyak kemudahan kepada kerja kami.

Atas ialah kandungan terperinci poi html 转 perkataan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan