Dengan perkembangan berterusan teknologi maklumat Internet, kami semakin perlu menukar halaman HTML kepada dokumen Word untuk mengedit, menaip, mencetak, dll. Artikel ini akan memperkenalkan cara menggunakan perpustakaan POI untuk menukar halaman HTML kepada dokumen Word dan menyediakan beberapa contoh kod praktikal.
1. Pengenalan kepada POI
POI ialah singkatan daripada "Poor Obfuscation Implementation". Ia adalah projek sumber terbuka di bawah Yayasan Perisian Apache dan didedikasikan untuk Microsoft Office (termasuk Word, Excel , PowerPoint dsb.) membangunkan satu set API Java. Pada masa ini, POI telah menjadi salah satu perpustakaan standard untuk mencipta, membaca/menulis dokumen Microsoft Office dalam pembangunan Java, dan banyak program Java menggunakannya untuk mengendalikan dokumen Office.
2. Proses asas mencipta dokumen Word dengan POI
Sebelum menggunakan POI untuk mencipta dokumen Word, kita perlu memahami proses asasnya untuk mencipta dokumen Word.
Buat dokumen Word kosong dengan menggunakan kelas XWPFDocument yang disediakan oleh POI.
XWPFDocument doc = new XWPFDocument();
Pengendalian kandungan dokumen Word dilaksanakan melalui kelas XWPFParagraph dan XWPFRun yang disediakan oleh POI, khususnya termasuk:
(1 ) Buat perenggan
XWPFParagraph para = doc.createParagraph();
(2) Cipta teks
XWPFRun run = para.createRun(); run.setText("Hello World!");
Gunakan kaedah tulis yang disediakan oleh kelas XWPFDocument untuk menulis dokumen Word Tulis ke fail.
FileOutputStream out = new FileOutputStream("output.docx"); doc.write(out); out.close();
3. Tukar HTML kepada dokumen Word
Di atas kami telah memperkenalkan secara ringkas proses asas menggunakan POI untuk mencipta dokumen Word. Di bawah ini kami akan memperkenalkan cara menggunakan POI untuk menukar halaman HTML kepada dokumen Word.
Kita boleh menggunakan kelas URLConnection yang disediakan oleh Java untuk mendapatkan kandungan halaman HTML, seperti yang ditunjukkan di bawah:
String urlStr = "http://www.baidu.com"; URL url = new URL(urlStr); URLConnection conn = url.openConnection(); InputStream is = conn.getInputStream(); BufferedReader br = new BufferedReader(new InputStreamReader(is)); String line = null; StringBuffer sb = new StringBuffer(); while((line = br.readLine()) != null){ sb.append(line); } String html = sb.toString();
Menghuraikan kandungan halaman HTML yang diperoleh dan menggunakan perpustakaan Jsoup untuk merealisasikan penghuraian halaman HTML, seperti yang ditunjukkan di bawah:
rreee(1) Buat dokumen Word kosong dan gunakan kelas XWPFDocument POI
Document docHtml = Jsoup.parse(html);
(2) Dapatkan semua perenggan dalam halaman HTML
XWPFDocument docx = new XWPFDocument();
(3) Tukar perenggan halaman HTML kepada perenggan dokumen Word
Elements parags = docHtml.getElementsByTag("p");
Akhir sekali, kami akan menulis dokumen Word yang dibuat ke cakera untuk kegunaan seterusnya.
for(Element p : parags){ XWPFParagraph paragraph = docx.createParagraph();// 新建一个段落 XWPFRun run = paragraph.createRun();// 在该段落中创建一个文本片段,即 XWPFRun run.setText(p.text());// 设置该文本片段的文字内容 }
4. Contoh kod lengkap
Berikut ialah contoh kod lengkap untuk menukar halaman HTML kepada dokumen Word:
OutputStream os = new FileOutputStream("output.docx"); docx.write(os); os.close();
5 >Lulus Daripada pengenalan di atas, kita dapat melihat bahawa menggunakan POI untuk menukar halaman HTML kepada dokumen Word adalah fungsi yang sangat praktikal Ia boleh membantu kita memproses pelbagai kandungan teks dengan cepat dan tepat dalam kerja harian kita. POI merangkum beberapa API Java untuk mengendalikan perisian Office, yang boleh membantu kami mengendalikan Word, Excel dan format dokumen lain dengan lebih mudah, meningkatkan kecekapan kerja kami dan membawa lebih banyak kemudahan kepada kerja kami.
Atas ialah kandungan terperinci poi html 转 perkataan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!