更轻松简单地处理 PDF,利用 Doc2X 强大的文档转换能力,进行保留格式文件转换/RAG 增强。
Doc2X是一款新型的通用的文档 OCR 工具,可将图像或 pdf 文件转换为带有公式和文本格式的 Markdown/LaTeX 文本,并且效果在大部分场景下优于同类型工具。pdfdeal
提供了抽象包装好的类以使用 Doc2X 发起请求。
使用多种 OCR 或者 PDF 识别工具来识别图像并将其添加到原始文本中。可以设置输出格式使用 pdf 格式,这将确保识别后的文本在新 PDF 中的页数与原始文本相同。同时提供了多种实用的文件处理工具。
对 PDF 使用 Doc2X 转换并预处理后,与知识库应用程序(例如graphrag,Dify,FastGPT),可以显著提升召回率。
参见如何与 graphrag 结合使用,其不支持识别 pdf,但你可以使用 CLI 工具doc2x
将其转换为 txt 文档进行使用。
或者对于知识库应用,你也可以使用pdfdeal
内置的多种对文档进行增强,例如图片上传到远端储存服务,按段落添加分割符等。请参见与 RAG 应用集成
详细请查看在线文档。
你可以找到在线文档的开源储存库 pdfdeal-docs。
使用 pip 安装:
pip install --upgrade pdfdeal
如你还需要使用文本预处理功能:
pip install --upgrade "pdfdeal[rag]"
from pdfdeal import Doc2X
client = Doc2X(apikey="Your API key",debug=True)
success, failed, flag = client.pdf2file(
pdf_file="tests/pdf",
output_path="./Output",
output_format="docx",
)
print(success)
print(failed)
print(flag)
from pdfdeal import Doc2X
client = Doc2X(apikey="Your API key",debug=True)
success, failed, flag = client.pdf2file(
pdf_file="tests/pdf/sample.pdf",
output_path="./Output/test/single/pdf2file",
output_names=["NAME.zip"],
output_format="md_dollar",
)
print(success)
print(failed)
print(flag)
更多详细请参见在线文档。