Skip to content

Latest commit

 

History

History
117 lines (79 loc) · 4.08 KB

README_CN.md

File metadata and controls

117 lines (79 loc) · 4.08 KB

pdfdeal

Package Testing on Python 3.8-3.13 on Win/Linux/macOS

Downloads GitHub License PyPI - Version GitHub Repo stars


📄 在线文档


ENGLISH | 🗺️ 简体中文

更轻松简单地处理 PDF,利用 Doc2X 强大的文档转换能力,进行保留格式文件转换/RAG 增强。

简介

Doc2X 支持

Doc2X是一款新型的通用的文档 OCR 工具,可将图像或 pdf 文件转换为带有公式和文本格式的 Markdown/LaTeX 文本,并且效果在大部分场景下优于同类型工具。pdfdeal提供了抽象包装好的类以使用 Doc2X 发起请求。

对 PDF 进行处理

使用多种 OCR 或者 PDF 识别工具来识别图像并将其添加到原始文本中。可以设置输出格式使用 pdf 格式,这将确保识别后的文本在新 PDF 中的页数与原始文本相同。同时提供了多种实用的文件处理工具。

对 PDF 使用 Doc2X 转换并预处理后,与知识库应用程序(例如graphragDifyFastGPT),可以显著提升召回率。

案例

graphrag

参见如何与 graphrag 结合使用其不支持识别 pdf,但你可以使用 CLI 工具doc2x将其转换为 txt 文档进行使用。

FastGPT/Dify 或其他 RAG 应用

或者对于知识库应用,你也可以使用pdfdeal内置的多种对文档进行增强,例如图片上传到远端储存服务,按段落添加分割符等。请参见与 RAG 应用集成

文档

详细请查看在线文档

你可以找到在线文档的开源储存库 pdfdeal-docs

快速开始

安装

使用 pip 安装:

pip install --upgrade pdfdeal

如你还需要使用文本预处理功能

pip install --upgrade "pdfdeal[rag]"

使用 Doc2X PDF API 处理指定文件夹中所有 PDF 文件

from pdfdeal import Doc2X

client = Doc2X(apikey="Your API key",debug=True)
success, failed, flag = client.pdf2file(
    pdf_file="tests/pdf",
    output_path="./Output",
    output_format="docx",
)
print(success)
print(failed)
print(flag)

使用 Doc2X PDF API 处理指定的 PDF 文件并指定导出的文件名

from pdfdeal import Doc2X

client = Doc2X(apikey="Your API key",debug=True)
success, failed, flag = client.pdf2file(
    pdf_file="tests/pdf/sample.pdf",
    output_path="./Output/test/single/pdf2file",
    output_names=["NAME.zip"],
    output_format="md_dollar",
)
print(success)
print(failed)
print(flag)

更多详细请参见在线文档。