Comment convertir un fichier HTML en fichier PDF en Java

PHPz
Libérer: 2023-04-21 11:37:37
original
3773 Les gens l'ont consulté

Avec l'avènement de l'ère Internet, les pages Web sont de plus en plus devenues le principal canal permettant aux gens d'obtenir des informations. Toutefois, les informations contenues dans les pages Web ne peuvent pas être enregistrées hors ligne et les utilisateurs doivent parfois consulter le contenu Web sans connexion réseau. À l’heure actuelle, la conversion de pages Web en fichiers PDF devient un bon choix.

Parmi de nombreux logiciels, Java possède des capacités de génération de PDF relativement puissantes et fournit aux développeurs de nombreuses bibliothèques d'opérations PDF. Ci-dessous, cet article explique comment convertir des fichiers HTML en fichiers PDF en Java.

1. Principe de la conversion du HTML en PDF

HTML est l'abréviation de Hypertext Markup Language et est un langage de balisage standard utilisé pour créer des pages Web. Les fichiers HTML sont essentiellement composés de texte et de langage de balisage, qui peuvent être reconnus et construits par un analyseur HTML pour construire un arbre de rendu, qui est finalement affiché sur la page Web.

PDF (Portable Document Format) est un format de document portable développé par Adobe. Il peut être affiché sur toutes les plateformes et conserve le contenu et le format d'origine du document inchangés. Contrairement au HTML, le PDF est un format de document statique dont le contenu est fixe.

Par conséquent, l'essence de la conversion de fichiers HTML en fichiers PDF est de restituer le contenu HTML dynamique en documents PDF statiques, ce qui doit résoudre le problème des différentes arborescences de rendu HTML et des mises en page PDF.

2. Utilisez iText pour convertir du HTML en PDF

iText est une bibliothèque de génération de PDF Java qui peut utiliser du code Java pour générer des documents PDF. L'avantage d'iText réside dans son API diversifiée et sa large gamme d'applications, notamment la création, la fusion, la découpe, le cryptage, l'extraction de texte de PDF et d'autres opérations. Ensuite, nous utiliserons la bibliothèque de classes iText pour implémenter la fonction HTML vers PDF.

  1. Ajouter des dépendances

Vous devez d'abord ajouter la dépendance de la bibliothèque de classes iText au projet, maven :

<dependency>
   <groupId>com.itextpdf</groupId>
   <artifactId>itextpdf</artifactId>
   <version>5.5.13</version>
</dependency>
Copier après la connexion
  1. Écrivez du code Java pour implémenter la fonction de conversion HTML en PDF

Ce qui suit est un code Java exemple :

import java.io.File;
import java.io.FileOutputStream;
import com.itextpdf.text.Document;
import com.itextpdf.text.PageSize;
import com.itextpdf.text.html.simpleparser.HTMLWorker;
import com.itextpdf.text.pdf.PdfWriter;

public class HtmlToPdfUtil {
    private static final String CHARSET = "UTF-8";

    /**
     * 将HTML内容转换为PDF文档
     * 
     * @param htmlContent HTML内容
     * @param filePath    PDF输出路径
     * @throws Exception
     */
    public static void convertHtmlToPdf(String htmlContent, String filePath) throws Exception {
        Document document = new Document(PageSize.A4, 20, 20, 20, 20);
        PdfWriter.getInstance(document, new FileOutputStream(new File(filePath)));
        document.open();
        HTMLWorker htmlWorker = new HTMLWorker(document);
        // 解析HTML文件
        htmlWorker.parse(new StringReader(htmlContent));
        document.close();
    }
}
Copier après la connexion

Ci-dessus Le code crée un objet de document PDF via l'API fournie par iText, ouvre le document, définit la taille de la page PDF et définit le chemin de sortie PDF. Ensuite, utilisez la méthode parse de la classe HTMLWorker pour analyser et ajouter le contenu du fichier HTML au document PDF, et enfin fermez le document.

3. Résumé

Cet article présente comment Java convertit les fichiers HTML en fichiers PDF via iText. En analysant le HTML et en le convertissant en documents PDF statiques, il réalise la fonction d'enregistrement du contenu des pages Web hors ligne. HTML en PDF est une méthode de conversion de documents couramment utilisée, qui présente une valeur d'application pratique pour les utilisateurs qui ont besoin de visualiser du contenu Web dans un environnement hors ligne.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal