用 Java 读取 PDF 遇到中文标签该怎么处理-PHP中国語ネットワークQ&A

コミュニティ

学ぶ

ツールライブラリ

AIツール

レジャー

日本語

用 Java 读取 PDF 遇到中文标签该怎么处理

黄舟 2017-04-17 11:43:26

694

我使用 iText 去读取 PDF 内的信息，使用如下方法可以将有标签的 PDF 转换成 xml，可是遇到中文标签（不是正文中出现中文）的时候会出现乱码

TaggedPdfReaderTool readertool = new TaggedPdfReaderTool();
PdfReader reader = new PdfReader(pdfPath);
readertool.convertToXml(reader, new FileOutputStream(xmlPath));
reader.close();

出现的内容类似于

<？？-？？-？？>标题</??-??-??>

正确的应该是

<标题>标题</标题>

有什么方法可以处理掉这些乱码内容

黄舟

人生最曼妙的风景，竟是内心的淡定与从容！

全員に返信(0)

人気のトピック

詳細>