深入了解 Microsoft MarkItDown-Python教程-PHP中文网

深入了解 Microsoft MarkItDown

Linda Hamilton

发布： 2024-12-26 16:14:20

原创

641 人浏览过

什么是 MarkItDown？

MarkItDown 是微软开发的一个 Python 包，旨在将多种文件格式转换为 Markdown。

自推出以来，该库的受欢迎程度直线上升，在短短两周内就获得了超过 25k 的 GitHub 星！？

Deep Dive into Microsoft MarkItDown

是什么让 MarkItDown 如此受欢迎？

MarkItDown 为多种文件类型提供强大的支持，例如：

办公格式：Word、PowerPoint、Excel
媒体文件：图像（带有 EXIF 数据和描述）、音频（带有转录支持）
网络和数据格式：HTML、JSON、XML、CSV
档案：ZIP 文件

它不仅能够处理 Word 等标准格式，还能够处理多模式数据，这使其脱颖而出。例如，它使用 OCR 和语音识别从图像和音频文件中提取内容。

将任何内容转换为 Markdown 的能力使 MarkItDown 成为 LLM 培训的强大工具。通过处理特定领域的文档，它提供了丰富的上下文，以便在 LLM 支持的应用程序中生成更准确和相关的响应。

开始使用 MarkItDown

使用 MarkItDown 非常简单 - 只需要 4 行代码：

from markitdown import MarkItDown

md = MarkItDown()
result = md.convert("test.xlsx")
print(result.text_content)

登录后复制

这是 MarkItDown 的一些用例。

转换 Word 文档会生成干净且准确的 Markdown：

Deep Dive into Microsoft MarkItDown

即使是多选项卡 Excel 电子表格也能轻松处理：

Deep Dive into Microsoft MarkItDown

ZIP 档案？没问题！该库递归地解析其中的所有文件：

Deep Dive into Microsoft MarkItDown

最初，图像提取可能不会产生任何结果：

Deep Dive into Microsoft MarkItDown

这是因为 MarkItDown 依赖于 LLM 来生成图像描述。通过集成LLM客户端，您可以启用此功能：

from openai import OpenAI

client = OpenAI(api_key="i-am-not-an-api-key")

md = MarkItDown(llm_client=client, llm_model="gpt-4o")

登录后复制

配置到位后，可以成功处理图像文件：

Deep Dive into Microsoft MarkItDown

注意：LLM 不会处理基于图像的 PDF。 PDF 需要 OCR 预处理来提取内容。

Deep Dive into Microsoft MarkItDown

但是，PDF 在提取时会丢失格式，因此无法区分标题和纯文本：

Deep Dive into Microsoft MarkItDown

局限性

MarkItDown 并非没有局限性：

没有 OCR 的 PDF 文件无法处理。
从 PDF 文件中提取时无法进行格式化。

尽管如此，作为一个开源项目，它是高度可定制的。由于其干净的代码库，开发人员可以轻松扩展其功能。

MarkItDown 的工作原理

MarkItDown 的架构简单且模块化。

它有一个DocumentConverter类，它定义了一个通用的convert()方法：

from markitdown import MarkItDown

md = MarkItDown()
result = md.convert("test.xlsx")
print(result.text_content)

登录后复制

各个转换器继承自该基类并动态注册：

from openai import OpenAI

client = OpenAI(api_key="i-am-not-an-api-key")

md = MarkItDown(llm_client=client, llm_model="gpt-4o")

登录后复制

这种模块化方法可以轻松添加对新文件类型的支持。

文件转换工作流程

办公文件

使用 mammoth、pandas 或 pptx 等库将 Office 文件转换为 HTML，然后使用 BeautifulSoup 转换为 Markdown。

Deep Dive into Microsoft MarkItDown

音频文件

音频是通过使用Google API 的speech_recognition 库转录的。

（微软，为什么这里没有 Azure？？）

Deep Dive into Microsoft MarkItDown

图片

图像处理涉及通过 LLM 提示生成标题：
“为这张图片写下详细的描述。”

Deep Dive into Microsoft MarkItDown

PDF 文件

PDF 由 pdfminer 库处理，但缺乏内置 OCR。您必须预处理 PDF 才能提取文本。

Deep Dive into Microsoft MarkItDown

将 MarkItDown 部署为 API

MarkItDown 可以在本地运行，但将其作为 API 托管可以释放额外的灵活性，使其可以轻松集成到 Zapier 和 n8n 等工作流程中。

这是使用 FastAPI 的 MarkItDown API 的简单示例：

class DocumentConverter:
    """Base class for all document converters."""

    def convert(
        self, local_path: str, **kwargs: Any
    ) -> Union[None, DocumentConverterResult]:
        raise NotImplementedError()

登录后复制

调用API：

self.register_page_converter(PlainTextConverter())
self.register_page_converter(HtmlConverter())
self.register_page_converter(DocxConverter())
self.register_page_converter(XlsxConverter())
self.register_page_converter(Mp3Converter())
self.register_page_converter(ImageConverter())
# ...

登录后复制