Dedoc
Dedoc is an open-source library/service that extracts texts, tables, attached files and document structure (e.g., titles, list items, etc.) from files of various formats.
Dedoc 支持 DOCX、XLSX、PPTX、EML、HTML、PDF、图片及其他格式。
支持的格式完整列表可在此处找到 这里。
安装与设置
Dedoc 库
您可以使用 Dedoc 安装 pip。
在这种情况下,您需要安装依赖项,
请单击 此处
获取更多信息。
pip install dedoc
Dedoc API
如果您要使用 Dedoc API,则无需安装 dedoc 库。
在这种情况下,您应该运行 Dedoc 服务,例如 Docker 容器(详情请参见
文档
):
docker pull dedocproject/dedoc
docker run -p 1231:1231
文档加载器
-
对于任何格式的文件(由
Dedoc支持),您可以使用DedocFileLoader:from langchain_community.document_loaders import DedocFileLoader -
对于处理PDF文件(无论是否包含文本层),您可以使用
DedocPDFLoader:from langchain_community.document_loaders import DedocPDFLoader -
无需安装库即可处理任何格式的文件, 您可以使用
Dedoc API和DedocAPIFileLoader:from langchain_community.document_loaders import DedocAPIFileLoader
请参阅 使用示例 以获取更多详细信息。