Skip to main content
Open on GitHub

Docling

Docling parses PDF, DOCX, PPTX, HTML, and other formats into a rich unified representation including document layout, tables etc., making them ready for generative AI workflows like RAG.

This integration provides Docling's capabilities via the DoclingLoader document loader.

安装与设置

只需从您的包管理器(例如 pip)安装 langchain-docling

pip install langchain-docling

文档加载器

DoclingLoader 类在 langchain-docling 中无缝集成 Docling 到 LangChain,使您能够:

  • 轻松快速地在您的大语言模型应用中使用各种文档类型,并
  • 利用Docling丰富的表示形式实现高级的、以文档为中心的定位。

基本用法如下:

from langchain_docling import DoclingLoader

FILE_PATH = ["https://arxiv.org/pdf/2408.09869"] # Docling Technical Report

loader = DoclingLoader(file_path=FILE_PATH)

docs = loader.load()

有关端到端用法,请查看 此示例

更多资源