AirbyteLoader

Airbyte is a data integration platform for ELT pipelines from APIs, databases & files to warehouses & lakes. It has the largest catalog of ELT connectors to data warehouses and databases.

本文介绍如何将任意 Airbyte 数据源加载为 LangChain 文档。

安装

为了使用 AirbyteLoader，您需要安装 langchain-airbyte 集成包。

%pip install -qU langchain-airbyte

注意：目前，airbyte 库不支持 Pydantic v2。请降级到 Pydantic v1 以使用此包。

注意：此软件包目前还需要 Python 3.10 或更高版本。

加载文档

默认情况下，AirbyteLoader 将从流中加载任何结构化数据，并输出 YAML 格式的文档。

from langchain_airbyte import AirbyteLoader

loader = AirbyteLoader(
    source="source-faker",
    stream="users",
    config={"count": 10},
)
docs = loader.load()
print(docs[0].page_content[:500])

\`\`\`yaml
academic_degree: PhD
address:
  city: Lauderdale Lakes
  country_code: FI
  postal_code: '75466'
  province: New Jersey
  state: Hawaii
  street_name: Stoneyford
  street_number: '1112'
age: 44
blood_type: "O\u2212"
created_at: '2004-04-02T13:05:27+00:00'
email: bread2099+1@outlook.com
gender: Fluid
height: '1.62'
id: 1
language: Belarusian
name: Moses
nationality: Dutch
occupation: Track Worker
telephone: 1-467-194-2318
title: M.Sc.Tech.
updated_at: '2024-02-27T16:41:01+00:00'
weight: 6

您还可以指定自定义提示模板来格式化文档：

from langchain_core.prompts import PromptTemplate

loader_templated = AirbyteLoader(
    source="source-faker",
    stream="users",
    config={"count": 10},
    template=PromptTemplate.from_template(
        "My name is {name} and I am {height} meters tall."
    ),
)
docs_templated = loader_templated.load()
print(docs_templated[0].page_content)

API 参考：PromptTemplate

My name is Verdie and I am 1.73 meters tall.

惰性加载文档

AirbyteLoader 的强大功能之一是能够从上游来源加载大型文档。在处理大型数据集时，默认的 .load() 行为可能会缓慢且占用大量内存。为避免这种情况，您可以使用 .lazy_load() 方法以更节省内存的方式加载文档。

import time

loader = AirbyteLoader(
    source="source-faker",
    stream="users",
    config={"count": 3},
    template=PromptTemplate.from_template(
        "My name is {name} and I am {height} meters tall."
    ),
)

start_time = time.time()
my_iterator = loader.lazy_load()
print(
    f"Just calling lazy load is quick! This took {time.time() - start_time:.4f} seconds"
)

Just calling lazy load is quick! This took 0.0001 seconds

您可以遍历文档，因为它们会被逐个生成：

for doc in my_iterator:
    print(doc.page_content)

My name is Andera and I am 1.91 meters tall.
My name is Jody and I am 1.85 meters tall.
My name is Zonia and I am 1.53 meters tall.

您还可以使用.alazy_load()以异步方式延迟加载文档：

loader = AirbyteLoader(
    source="source-faker",
    stream="users",
    config={"count": 3},
    template=PromptTemplate.from_template(
        "My name is {name} and I am {height} meters tall."
    ),
)

my_async_iterator = loader.alazy_load()

async for doc in my_async_iterator:
    print(doc.page_content)

My name is Carmelina and I am 1.74 meters tall.
My name is Ali and I am 1.90 meters tall.
My name is Rochell and I am 1.83 meters tall.

配置

AirbyteLoader 可以通过以下选项进行配置：

source (str, required): 要加载的 Airbyte 源名称。
stream (str，必需): 要加载的流名称（Airbyte 源可以返回多个流）
config (字典，必填)：Airbyte 源的配置
template (PromptTemplate，可选)：用于格式化文档的自定义提示模板
include_metadata (布尔值，可选，默认为 True)：是否将所有字段作为元数据包含在输出文档中

大部分配置将在 config 中，您可以在 Airbyte 文档中每个来源的“配置字段参考”里找到具体的配置选项。

文档加载器概念指南
文档加载器操操作指南

安装​

加载文档​

惰性加载文档

配置​

相关​

安装

加载文档

配置

相关