AgentQLLoader

AgentQL 的文档加载器提供使用 AgentQL 查询从任何网页进行结构化数据提取的功能。AgentQL 可用于多种语言和网页，且不会随时间推移和变化而失效。

概览

AgentQLLoader 需要以下两个参数：

url: 您要提取数据的网页的URL。
query: 要执行的 AgentQL 查询。在文档中了解更多关于如何编写 AgentQL 查询的信息，或在AgentQL 游乐场中进行测试。

以下参数的设置是可选的：

api_key: 您的 AgentQL API 密钥来自 dev.agentql.com。 Optional。
timeout：请求超时前的等待秒数。默认值为 900。
is_stealth_mode_enabled: 是否启用实验性的反机器人规避策略。此功能可能并非在所有网站上始终有效。启用此模式后，数据提取可能需要更长时间才能完成。 默认值为 False。
wait_for: 在提取数据之前等待页面加载的秒数。 默认为 0。
is_scroll_to_bottom_enabled: 是否在提取数据之前滚动到页面底部。 默认为 False。
mode: "standard" 使用深度数据分析，而 "fast" 在一定程度上牺牲分析深度以换取速度，适用于大多数使用场景。在此指南中了解更多关于这些模式的信息。 默认为 "fast"。
is_screenshot_enabled: 是否在提取数据之前截取屏幕截图。以Base64字符串形式返回在“metadata”中。默认值为 False。

AgentQLLoader 是使用 AgentQL 的 REST API 实现的

集成详情

类	包	本地	可序列化的	JS 支持
AgentQLLoader	langchain-agentql	✅	❌	❌

加载器功能

源	文档延迟加载	原生异步支持
AgentQLLoader	✅	❌

设置

要使用 AgentQL 文档加载器，您需要配置AGENTQL_API_KEY环境变量，或使用api_key参数。您可以从我们的开发者门户获取 API 密钥。

安装

安装 langchain-agentql。

%pip install -qU langchain_agentql

设置凭证

import os

os.environ["AGENTQL_API_KEY"] = "YOUR_AGENTQL_API_KEY"

初始化

接下来实例化您的模型对象：

from langchain_agentql.document_loaders import AgentQLLoader

loader = AgentQLLoader(
    url="https://www.agentql.com/blog",
    query="""
    {
        posts[] {
            title
            url
            date
            author
        }
    }
    """,
    is_scroll_to_bottom_enabled=True,
)

加载

docs = loader.load()
docs[0]

Document(metadata={'request_id': 'bdb9dbe7-8a7f-427f-bc16-839ccc02cae6', 'generated_query': None, 'screenshot': None}, page_content="{'posts': [{'title': 'Launch Week Recap—make the web AI-ready', 'url': 'https://www.agentql.com/blog/2024-launch-week-recap', 'date': 'Nov 18, 2024', 'author': 'Rachel-Lee Nabors'}, {'title': 'Accurate data extraction from PDFs and images with AgentQL', 'url': 'https://www.agentql.com/blog/accurate-data-extraction-pdfs-images', 'date': 'Feb 1, 2025', 'author': 'Rachel-Lee Nabors'}, {'title': 'Introducing Scheduled Scraping Workflows', 'url': 'https://www.agentql.com/blog/scheduling', 'date': 'Dec 2, 2024', 'author': 'Rachel-Lee Nabors'}, {'title': 'Updates to Our Pricing Model', 'url': 'https://www.agentql.com/blog/2024-pricing-update', 'date': 'Nov 19, 2024', 'author': 'Rachel-Lee Nabors'}, {'title': 'Get data from any page: AgentQL’s REST API Endpoint—Launch week day 5', 'url': 'https://www.agentql.com/blog/data-rest-api', 'date': 'Nov 15, 2024', 'author': 'Rachel-Lee Nabors'}]}")

print(docs[0].metadata)

{'request_id': 'bdb9dbe7-8a7f-427f-bc16-839ccc02cae6', 'generated_query': None, 'screenshot': None}

懒加载

AgentQLLoader 目前一次仅加载一个 Document。因此，load() 和 lazy_load() 的行为相同：

pages = [doc for doc in loader.lazy_load()]
pages

[Document(metadata={'request_id': '06273abd-b2ef-4e15-b0ec-901cba7b4825', 'generated_query': None, 'screenshot': None}, page_content="{'posts': [{'title': 'Launch Week Recap—make the web AI-ready', 'url': 'https://www.agentql.com/blog/2024-launch-week-recap', 'date': 'Nov 18, 2024', 'author': 'Rachel-Lee Nabors'}, {'title': 'Accurate data extraction from PDFs and images with AgentQL', 'url': 'https://www.agentql.com/blog/accurate-data-extraction-pdfs-images', 'date': 'Feb 1, 2025', 'author': 'Rachel-Lee Nabors'}, {'title': 'Introducing Scheduled Scraping Workflows', 'url': 'https://www.agentql.com/blog/scheduling', 'date': 'Dec 2, 2024', 'author': 'Rachel-Lee Nabors'}, {'title': 'Updates to Our Pricing Model', 'url': 'https://www.agentql.com/blog/2024-pricing-update', 'date': 'Nov 19, 2024', 'author': 'Rachel-Lee Nabors'}, {'title': 'Get data from any page: AgentQL’s REST API Endpoint—Launch week day 5', 'url': 'https://www.agentql.com/blog/data-rest-api', 'date': 'Nov 15, 2024', 'author': 'Rachel-Lee Nabors'}]}")]

API 参考

有关如何使用此集成的更多信息，请参阅git 仓库或langchain 集成文档。

文档加载器概念指南
文档加载器操操作指南

概览​

集成详情​

加载器功能​

设置​

安装​

设置凭证​

初始化​

加载​

懒加载

API 参考​

相关​

概览

集成详情

加载器功能

设置

安装

设置凭证

初始化

加载

API 参考

相关