Skip to main content
Open In ColabOpen on GitHub

自定义嵌入

LangChain 与许多第三方嵌入模型集成。在本指南中,我们将展示如何创建一个自定义 Embedding 类,以防内置的尚未存在。嵌入在自然语言处理应用中至关重要,因为它们将文本转换为算法可以理解的数值形式,从而支持各种应用,如相似性搜索、文本分类和聚类。

使用标准的 Embeddings 接口实现嵌入(embeddings),将允许您的嵌入被用于现有的 LangChain 抽象中(例如,作为驱动 VectorStore 的嵌入,或使用 CacheBackedEmbeddings 进行缓存)。

接口

当前的 Embeddings 抽象在 LangChain 中设计用于处理文本数据。在此实现中,输入为单个字符串或字符串列表,输出为数值数组(向量)列表,其中每个向量表示将输入文本嵌入到某个 n 维空间中的结果。

您的自定义嵌入模型必须实现以下方法:

方法/属性描述必需/可选
embed_documents(texts)Generates embeddings for a list of strings.Required
embed_query(text)Generates an embedding for a single text query.Required
aembed_documents(texts)Asynchronously generates embeddings for a list of strings.Optional
aembed_query(text)Asynchronously generates an embedding for a single text query.Optional

这些方法可确保您的嵌入模型能够无缝集成到 LangChain 框架中,提供同步和异步功能以实现可扩展性和性能优化。

注意

Embeddings 目前尚未实现 Runnable 接口,并且也不是 pydantic BaseModel 的实例。

嵌入查询与文档

embed_queryembed_documents 方法是必需的。这些方法均处理字符串输入。出于历史原因,Document.page_content 属性的访问由向量存储库使用嵌入模型来处理。

embed_query 接收单个字符串并返回单个嵌入向量,表示为浮点数列表。 如果您的模型在嵌入查询与底层文档之间存在不同的模式,您可以实现此方法来处理该情况。

embed_documents 接收一个字符串列表并返回一个嵌入列表,该列表为浮点数列表的列表。

注意

embed_documents 接收一个纯文本列表,而不是 LangChain Document 对象列表。此方法的名称在 LangChain 的未来版本中可能会更改。

实现

作为示例,我们将实现一个简单的嵌入模型,该模型返回一个常量向量。此模型仅用于说明目的。

from typing import List

from langchain_core.embeddings import Embeddings


class ParrotLinkEmbeddings(Embeddings):
"""ParrotLink embedding model integration.

# TODO: Populate with relevant params.
Key init args — completion params:
model: str
Name of ParrotLink model to use.

See full list of supported init args and their descriptions in the params section.

# TODO: Replace with relevant init params.
Instantiate:
.. code-block:: python

from langchain_parrot_link import ParrotLinkEmbeddings

embed = ParrotLinkEmbeddings(
model="...",
# api_key="...",
# other params...
)

Embed single text:
.. code-block:: python

input_text = "The meaning of life is 42"
embed.embed_query(input_text)

.. code-block:: python

# TODO: Example output.

# TODO: Delete if token-level streaming isn't supported.
Embed multiple text:
.. code-block:: python

input_texts = ["Document 1...", "Document 2..."]
embed.embed_documents(input_texts)

.. code-block:: python

# TODO: Example output.

# TODO: Delete if native async isn't supported.
Async:
.. code-block:: python

await embed.aembed_query(input_text)

# multiple:
# await embed.aembed_documents(input_texts)

.. code-block:: python

# TODO: Example output.

"""

def __init__(self, model: str):
self.model = model

def embed_documents(self, texts: List[str]) -> List[List[float]]:
"""Embed search docs."""
return [[0.5, 0.6, 0.7] for _ in texts]

def embed_query(self, text: str) -> List[float]:
"""Embed query text."""
return self.embed_documents([text])[0]

# optional: add custom async implementations here
# you can also delete these, and the base class will
# use the default implementation, which calls the sync
# version in an async executor:

# async def aembed_documents(self, texts: List[str]) -> List[List[float]]:
# """Asynchronous Embed search docs."""
# ...

# async def aembed_query(self, text: str) -> List[float]:
# """Asynchronous Embed query text."""
# ...
API 参考:嵌入向量

让我们测试它 🧪

embeddings = ParrotLinkEmbeddings("test-model")
print(embeddings.embed_documents(["Hello", "world"]))
print(embeddings.embed_query("Hello"))
[[0.5, 0.6, 0.7], [0.5, 0.6, 0.7]]
[0.5, 0.6, 0.7]

贡献

我们欢迎将嵌入模型贡献到 LangChain 代码库。

如果您旨在为新的提供者(例如,具有一组新的依赖项或 SDK)贡献一个嵌入模型,我们鼓励您将您的实现发布在单独的 langchain-* 集成包中。这将使您能够恰当地管理依赖项并版本化您的包。请参考我们的 贡献指南 以了解此过程的逐步说明。