Docling
Docling parses PDF, DOCX, PPTX, HTML, and other formats into a rich unified representation including document layout, tables etc., making them ready for generative AI workflows like RAG.
This integration provides Docling's capabilities via the
DoclingLoaderdocument loader.
安装与设置
只需从您的包管理器(例如 pip)安装 langchain-docling:
pip install langchain-docling
文档加载器
DoclingLoader 类在 langchain-docling 中无缝集成 Docling 到 LangChain,使您能够:
- 轻松快速地在您的大语言模型应用中使用各种文档类型,并
- 利用Docling丰富的表示形式实现高级的、以文档为中心的定位。
基本用法如下:
from langchain_docling import DoclingLoader
FILE_PATH = ["https://arxiv.org/pdf/2408.09869"] # Docling Technical Report
loader = DoclingLoader(file_path=FILE_PATH)
docs = loader.load()
有关端到端用法,请查看 此示例。