首页 后端开发 Python教程 如何使用 PyMuPDFM 将 PDF 转换为 Markdown 及其评估

如何使用 PyMuPDFM 将 PDF 转换为 Markdown 及其评估

Oct 07, 2024 pm 06:12 PM

PyMuPDF4LLM 是一个旨在将 PDF 转换为 Markdown 格式的库。在这里,我将分享我测试这个库的经验。

安装

首先使用以下命令安装库:


pip install pymupdf4llm


登录后复制

用法

基本用法非常简单,只需三行代码即可将 PDF 转换为 Markdown:


import pymupdf4llm
md_text = pymupdf4llm.to_markdown("input.pdf")
print(md_text)


登录后复制

您可以指定参数来调整内容的提取方式。

按页提取文本

默认情况下,整个 PDF 会转换为单个文本输出。但是,您可以通过指定 page_chunks=True 逐页提取文本。


md_text = pymupdf4llm.to_markdown("input.pdf", page_chunks=True)


登录后复制

提取图像

要将图像提取为文件,请使用 write_images=True 选项:


md_text = pymupdf4llm.to_markdown("input.pdf", write_images=True)


登录后复制
登录后复制

也可以使用base64编码直接在Markdown中嵌入图像:


md_text = pymupdf4llm.to_markdown("input.pdf", embed_images=True)


登录后复制

转换结果评估

为了进行测试,使用了具有不同 Markdown 元素的各种 PDF。

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation

标头转换

标题已正确转换为 Markdown 格式。这是结果的一部分:


# Sample Markdown Guide

This is a sample markdown file that includes various features for quick reference.

## 1. Headers

...

## 3. Lists


登录后复制

粗体和斜体文本

粗体和斜体格式也已正确转换:


**Bold: **Bold Text****

_Italic: *Italic Text*_

**_Bold and Italic: ***Bold and Italic***_**


登录后复制

列表转换

第一级有序列表转换没有问题,但嵌套列表和无序列表转换不准确。

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


## 3. Lists

### Unordered List

Item 1

Item 2

Sub-item 1

Sub-item 2

### Ordered List

1. First item

2. Second item

1. Sub-item A

2. Sub-item B


登录后复制

链接转换

提取了链接的URL,但包含链接的整行变成了超链接,偏离了原始格式。

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


## 4. Links and Images

[You can add links using [Link Text](URL).](https://www.example.com/)


登录后复制

图像提取

默认情况下不会提取图像,但可以使用 write_images=True 将图像保存在本地。


md_text = pymupdf4llm.to_markdown("input.pdf", write_images=True)


登录后复制
登录后复制

然后在 Markdown 中引用保存的图像,如下所示:


<p>### Image Example</p>

<p>![](input.pdf-1-0.png)</p>

登录后复制




表转换

没有垂直边框的简单表格无法准确转换(可能是因为不明确的列边界导致表格被视为纯文本)。

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


<p>## 5. Tables</p>

<p>**Column 1** **Column 2** **Column 3**</p>

<p>Row 1 Data A Data B</p>

<p>Row 2 Data C Data D</p>

登录后复制




代码转换

代码块已正确转换,但语言规范(例如 python)未保留。内联代码转换也存在问题。

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


<p>## 6. Code</p>

<p>### Inline Code</p>

<p>Use backticks for inline code: print("Hello, world!")</p>

<p>### Code Block</p>

<p>Use triple backticks for code blocks:</p>

<p>```<br>
def greet(name):<br>
  return f"Hello, {name}!"<br>
print(greet("Markdown"))<br>
```</p>

登录后复制




多行文本

对于多行文本,换行符将按照原始 PDF 中的显示方式保留。

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


<p>Markdown is a lightweight and versatile markup language favored by developers, writers, and bloggers alike</p>

<p>due to its simplicity in formatting text, enabling users to create readable and well-structured documents—</p>

<p>whether for documentation, blog posts, or articles—without the complexity of HTML, while also offering the</p>

<p>ability to convert content seamlessly into other formats like HTML, PDF, and even slideshows, making it an</p>

<p>ideal choice for projects that require both clarity and flexibility in presentation.</p>

登录后复制




结论

尽管在准确转换列表和链接方面存在挑战,PyMuPDF4LLM 是将 PDF 转换为 Markdown 的有用工具。它可以在本地工作,无需外部语言模型,适合无法访问互联网的环境。

以上是如何使用 PyMuPDFM 将 PDF 转换为 Markdown 及其评估的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

如何在使用 Fiddler Everywhere 进行中间人读取时避免被浏览器检测到? 如何在使用 Fiddler Everywhere 进行中间人读取时避免被浏览器检测到? Apr 02, 2025 am 07:15 AM

使用FiddlerEverywhere进行中间人读取时如何避免被检测到当你使用FiddlerEverywhere...

在Linux终端中使用python --version命令时如何解决权限问题? 在Linux终端中使用python --version命令时如何解决权限问题? Apr 02, 2025 am 06:36 AM

Linux终端中使用python...

如何在10小时内通过项目和问题驱动的方式教计算机小白编程基础? 如何在10小时内通过项目和问题驱动的方式教计算机小白编程基础? Apr 02, 2025 am 07:18 AM

如何在10小时内教计算机小白编程基础?如果你只有10个小时来教计算机小白一些编程知识,你会选择教些什么�...

如何绕过Investing.com的反爬虫机制获取新闻数据? 如何绕过Investing.com的反爬虫机制获取新闻数据? Apr 02, 2025 am 07:03 AM

攻克Investing.com的反爬虫策略许多人尝试爬取Investing.com(https://cn.investing.com/news/latest-news)的新闻数据时,常常�...

Python 3.6加载pickle文件报错ModuleNotFoundError: No module named '__builtin__'怎么办? Python 3.6加载pickle文件报错ModuleNotFoundError: No module named '__builtin__'怎么办? Apr 02, 2025 am 06:27 AM

Python3.6环境下加载pickle文件报错:ModuleNotFoundError:Nomodulenamed...

使用Scapy爬虫时,管道文件无法写入的原因是什么? 使用Scapy爬虫时,管道文件无法写入的原因是什么? Apr 02, 2025 am 06:45 AM

使用Scapy爬虫时管道文件无法写入的原因探讨在学习和使用Scapy爬虫进行数据持久化存储时,可能会遇到管道文�...

See all articles