Skip to main content
Open on GitHub

Dedoc

Dedoc is an open-source library/service that extracts texts, tables, attached files and document structure (e.g., titles, list items, etc.) from files of various formats.

Dedoc 支持 DOCXXLSXPPTXEMLHTMLPDF、图片及其他格式。 支持的格式完整列表可在此处找到 这里

安装与设置

Dedoc 库

您可以使用 Dedoc 安装 pip。 在这种情况下,您需要安装依赖项, 请单击 此处 获取更多信息。

pip install dedoc

Dedoc API

如果您要使用 Dedoc API,则无需安装 dedoc 库。 在这种情况下,您应该运行 Dedoc 服务,例如 Docker 容器(详情请参见 文档 ):

docker pull dedocproject/dedoc
docker run -p 1231:1231

文档加载器

  • 对于任何格式的文件(由 Dedoc 支持),您可以使用 DedocFileLoader

    from langchain_community.document_loaders import DedocFileLoader
  • 对于处理PDF文件(无论是否包含文本层),您可以使用 DedocPDFLoader

    from langchain_community.document_loaders import DedocPDFLoader
  • 无需安装库即可处理任何格式的文件, 您可以使用 Dedoc APIDedocAPIFileLoader

    from langchain_community.document_loaders import DedocAPIFileLoader

请参阅 使用示例 以获取更多详细信息。