如何进行按用户检索
本指南演示如何配置检索链的运行时属性。一个示例应用是根据用户限制 检索器 可用的文档。
在构建检索应用时,您通常需要同时考虑多个用户。这意味着您可能不仅存储一个用户的数据,而是为许多不同用户存储数据,且他们不应能看到彼此的数据。因此,您需要能够配置您的检索链,使其仅检索特定信息。这通常涉及两个步骤。
步骤 1:确保您使用的检索器支持多用户
目前,LangChain 中尚无统一的标志或过滤器。相反,每个向量存储和检索器可能都有自己的实现,且名称可能不同(如命名空间、多租户等)。对于向量存储,这通常作为关键字参数在 similarity_search 期间传入。请通过阅读文档或源代码,确定您使用的检索器是否支持多用户,如果支持,了解如何使用它。
注意:为不支持该功能(或未文档化)的检索器添加多用户文档和/或支持,是对 LangChain 做出巨大贡献的好方法
步骤 2:将该参数作为链的可配置字段添加
这将使您能够轻松调用链,并在运行时配置任何相关标志。有关配置的更多信息,请参阅此文档。
现在,在运行时您可以使用可配置的字段调用此链。
代码示例
让我们看一个代码中的具体示例。我们将在此示例中使用 Pinecone。
要配置 Pinecone,请设置以下环境变量:
PINECONE_API_KEY: 您的 Pinecone API 密钥
from langchain_openai import OpenAIEmbeddings
from langchain_pinecone import PineconeVectorStore
embeddings = OpenAIEmbeddings()
vectorstore = PineconeVectorStore(index_name="test-example", embedding=embeddings)
vectorstore.add_texts(["I worked at Kensho"], namespace="harrison")
vectorstore.add_texts(["I worked at Facebook"], namespace="ankush")
['f907aab7-77c7-4347-acc2-6859f8142f92']
namespace 的 pinecone kwarg 可用于分离文档
# This will only get documents for Ankush
vectorstore.as_retriever(search_kwargs={"namespace": "ankush"}).invoke(
"where did i work?"
)
[Document(id='f907aab7-77c7-4347-acc2-6859f8142f92', metadata={}, page_content='I worked at Facebook')]
# This will only get documents for Harrison
vectorstore.as_retriever(search_kwargs={"namespace": "harrison"}).invoke(
"where did i work?"
)
[Document(id='16061fc5-c6fc-4f45-a3b3-23469d7996af', metadata={}, page_content='I worked at Kensho')]
我们现在可以创建用于问答的链了。
让我们首先选择一个大型语言模型(LLM)。
pip install -qU "langchain[openai]"
import getpass
import os
if not os.environ.get("OPENAI_API_KEY"):
os.environ["OPENAI_API_KEY"] = getpass.getpass("Enter API key for OpenAI: ")
from langchain.chat_models import init_chat_model
llm = init_chat_model("gpt-4o-mini", model_provider="openai")
这将遵循来自 RAG 教程 的基本实现,但我们将允许检索步骤是可配置的。
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import ConfigurableField
template = """Answer the question based only on the following context:
{context}
Question: {question}
"""
prompt = ChatPromptTemplate.from_template(template)
retriever = vectorstore.as_retriever()
在此处我们将检索器标记为具有可配置字段。所有向量存储检索器都具有 search_kwargs 作为字段。这只是一个字典,包含与向量存储相关的特定字段。
这将允许我们在调用链时传入一个值为 search_kwargs 的参数。
configurable_retriever = retriever.configurable_fields(
search_kwargs=ConfigurableField(
id="search_kwargs",
name="Search Kwargs",
description="The search kwargs to use",
)
)
我们现在可以使用我们的可配置检索器来创建链。
from langchain_core.documents import Document
from langchain_core.runnables import RunnableConfig
from langgraph.graph import START, StateGraph
from typing_extensions import List, TypedDict
class State(TypedDict):
question: str
context: List[Document]
answer: str
def retrieve(state: State, config: RunnableConfig):
retrieved_docs = configurable_retriever.invoke(state["question"], config)
return {"context": retrieved_docs}
def generate(state: State):
docs_content = "\n\n".join(doc.page_content for doc in state["context"])
messages = prompt.invoke({"question": state["question"], "context": docs_content})
response = llm.invoke(messages)
return {"answer": response.content}
graph_builder = StateGraph(State).add_sequence([retrieve, generate])
graph_builder.add_edge(START, "retrieve")
graph = graph_builder.compile()
from IPython.display import Image, display
display(Image(graph.get_graph().draw_mermaid_png()))
我们现在可以使用可配置选项调用链。search_kwargs是可配置字段的ID。该值是用于Pinecone的搜索关键字参数。
result = graph.invoke(
{"question": "Where did the user work?"},
config={"configurable": {"search_kwargs": {"namespace": "harrison"}}},
)
result
{'question': 'Where did the user work?',
'context': [Document(id='16061fc5-c6fc-4f45-a3b3-23469d7996af', metadata={}, page_content='I worked at Kensho')],
'answer': 'The user worked at Kensho.'}
result = graph.invoke(
{"question": "Where did the user work?"},
config={"configurable": {"search_kwargs": {"namespace": "ankush"}}},
)
result
{'question': 'Where did the user work?',
'context': [Document(id='f907aab7-77c7-4347-acc2-6859f8142f92', metadata={}, page_content='I worked at Facebook')],
'answer': 'The user worked at Facebook.'}
有关操作您特定向量存储的详细信息,请参阅 集成页面。