Skip to main content
Open In ColabOpen on GitHub

构建聊天机器人

注意

本教程此前使用了 RunnableWithMessageHistory 抽象。您可以在 v0.2 文档 中访问该版本的文档。

自 LangChain v0.3 版本发布以来,我们建议 LangChain 用户利用 LangGraph 持久化 功能,将 memory 集成到新的 LangChain 应用中。

如果您的代码已经依赖于 RunnableWithMessageHistoryBaseChatMessageHistory,则无需进行任何更改。我们计划在近期不弃用此功能,因为它适用于简单的聊天应用程序,且使用 RunnableWithMessageHistory 的任何代码将继续按预期工作。

有关更多详细信息,请参阅如何迁移到 LangGraph Memory

概览

我们将通过一个示例来介绍如何设计和实现基于大语言模型(LLM)的聊天机器人。 该聊天机器人将能够与用户进行对话,并借助 聊天模型 记住之前的交互内容。

请注意,我们构建的这个聊天机器人将仅使用语言模型进行对话。 还有几个您可能在寻找的相关概念:

  • 对话式 RAG: 启用基于外部数据源的聊天机器人体验
  • 代理: 构建一个可以采取行动的聊天机器人

本教程将涵盖基础知识,这对学习那两个更高级的主题会有所帮助,但如果您愿意,也可以直接跳转到那些部分。

设置

Jupyter Notebook

本指南(以及文档中的大多数其他指南)使用 Jupyter notebooks,并假设读者也是如此。Jupyter notebooks 非常适合学习如何与 LLM 系统协作,因为很多时候可能会出现问题(输出意外、API 不可用等),而在交互式环境中逐步完成指南是更好地理解它们的绝佳方式。

此教程及其他教程最方便在 Jupyter notebook 中运行。有关如何安装的说明,请参见 此处

安装

本教程我们需要 langchain-corelanggraph。本指南需要 langgraph >= 0.2.28

pip install langchain-core langgraph>0.2.27

有关更多详细信息,请参阅我们的 安装指南

LangSmith

您使用 LangChain 构建的许多应用程序将包含多个步骤以及多次 LLM 调用。 随着这些应用程序变得越来越复杂,能够检查您的链或代理内部究竟发生了什么变得至关重要。 实现这一点的最佳方式是使用 LangSmith

在通过上述链接注册后,请确保设置您的环境变量以开始记录追踪:

export LANGSMITH_TRACING="true"
export LANGSMITH_API_KEY="..."

或者,如果在笔记本中,您可以这样设置:

import getpass
import os

os.environ["LANGSMITH_TRACING"] = "true"
os.environ["LANGSMITH_API_KEY"] = getpass.getpass()

快速开始

首先,让我们学习如何单独使用语言模型。LangChain 支持多种不同的语言模型,您可以互换使用——请在下方选择您想使用的模型!

pip install -qU "langchain[openai]"
import getpass
import os

if not os.environ.get("OPENAI_API_KEY"):
os.environ["OPENAI_API_KEY"] = getpass.getpass("Enter API key for OpenAI: ")

from langchain.chat_models import init_chat_model

model = init_chat_model("gpt-4o-mini", model_provider="openai")

让我们首先直接使用模型。ChatModel是LangChain“可运行对象”(Runnables)的实例,这意味着它们暴露了用于与它们交互的标准接口。若要简单地调用模型,我们可以将消息列表传递给.invoke方法。

from langchain_core.messages import HumanMessage

model.invoke([HumanMessage(content="Hi! I'm Bob")])
API 参考:人类消息
AIMessage(content='Hi Bob! How can I assist you today?', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 10, 'prompt_tokens': 11, 'total_tokens': 21, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_0705bf87c0', 'finish_reason': 'stop', 'logprobs': None}, id='run-5211544f-da9f-4325-8b8e-b3d92b2fc71a-0', usage_metadata={'input_tokens': 11, 'output_tokens': 10, 'total_tokens': 21, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

模型本身没有任何状态概念。例如,如果您提出一个后续问题:

model.invoke([HumanMessage(content="What's my name?")])
AIMessage(content="I'm sorry, but I don't have access to personal information about users unless it has been shared with me in the course of our conversation. How can I assist you today?", additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 34, 'prompt_tokens': 11, 'total_tokens': 45, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_0705bf87c0', 'finish_reason': 'stop', 'logprobs': None}, id='run-a2d13a18-7022-4784-b54f-f85c097d1075-0', usage_metadata={'input_tokens': 11, 'output_tokens': 34, 'total_tokens': 45, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

让我们来看看示例 LangSmith 追踪

我们可以看到它没有将之前的对话轮次纳入上下文,因此无法回答该问题。 这会导致极差的聊天机器人体验!

为了绕过这个问题,我们需要将整个对话历史传递给模型。让我们看看这样做会发生什么:

from langchain_core.messages import AIMessage

model.invoke(
[
HumanMessage(content="Hi! I'm Bob"),
AIMessage(content="Hello Bob! How can I assist you today?"),
HumanMessage(content="What's my name?"),
]
)
API 参考:AI 消息
AIMessage(content='Your name is Bob! How can I help you today, Bob?', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 14, 'prompt_tokens': 33, 'total_tokens': 47, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_0705bf87c0', 'finish_reason': 'stop', 'logprobs': None}, id='run-34bcccb3-446e-42f2-b1de-52c09936c02c-0', usage_metadata={'input_tokens': 33, 'output_tokens': 14, 'total_tokens': 47, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

现在我们可以看到我们得到了一个很好的响应!

这是支撑聊天机器人进行对话交互的基本理念。 那么我们该如何最好地实现这一点?

消息持久化

LangGraph 实现了内置的持久化层,使其非常适合支持多轮对话的聊天应用。

将我们的聊天模型封装到一个极简的 LangGraph 应用中,可以自动持久化消息历史,从而简化多轮应用的开发。

LangGraph 附带一个简单的内存检查点器,我们在下面使用了它。请查看其 文档 以了解更多细节,包括如何使用不同的持久化后端(例如 SQLite 或 Postgres)。

from langgraph.checkpoint.memory import MemorySaver
from langgraph.graph import START, MessagesState, StateGraph

# Define a new graph
workflow = StateGraph(state_schema=MessagesState)


# Define the function that calls the model
def call_model(state: MessagesState):
response = model.invoke(state["messages"])
return {"messages": response}


# Define the (single) node in the graph
workflow.add_edge(START, "model")
workflow.add_node("model", call_model)

# Add memory
memory = MemorySaver()
app = workflow.compile(checkpointer=memory)

我们现在需要创建一个config,并在每次传递给可运行对象时使用。此配置包含不直接属于输入但仍很有用的信息。在这种情况下,我们要包含一个thread_id。它应该看起来像这样:

config = {"configurable": {"thread_id": "abc123"}}

这使我们能够使用单个应用程序支持多个对话线程,这是当您的应用程序有多个用户时的常见需求。

我们可以随后调用该应用程序:

query = "Hi! I'm Bob."

input_messages = [HumanMessage(query)]
output = app.invoke({"messages": input_messages}, config)
output["messages"][-1].pretty_print() # output contains all messages in state
================================== Ai Message ==================================

Hi Bob! How can I assist you today?
query = "What's my name?"

input_messages = [HumanMessage(query)]
output = app.invoke({"messages": input_messages}, config)
output["messages"][-1].pretty_print()
================================== Ai Message ==================================

Your name is Bob! How can I help you today, Bob?

太好了!我们的聊天机器人现在能够记住关于我们的一些事情。如果我们更改配置以引用不同的 thread_id,就可以看到它重新开始对话。

config = {"configurable": {"thread_id": "abc234"}}

input_messages = [HumanMessage(query)]
output = app.invoke({"messages": input_messages}, config)
output["messages"][-1].pretty_print()
================================== Ai Message ==================================

I'm sorry, but I don't have access to personal information about you unless you've shared it in this conversation. How can I assist you today?

然而,我们总是可以回到原始对话(因为我们将其持久化在数据库中)

config = {"configurable": {"thread_id": "abc123"}}

input_messages = [HumanMessage(query)]
output = app.invoke({"messages": input_messages}, config)
output["messages"][-1].pretty_print()
================================== Ai Message ==================================

Your name is Bob. What would you like to discuss today?

这就是我们如何支持聊天机器人与许多用户进行对话的方式!

提示

对于异步支持,请将 call_model 节点更新为异步函数,并在调用应用程序时使用 .ainvoke

# Async function for node:
async def call_model(state: MessagesState):
response = await model.ainvoke(state["messages"])
return {"messages": response}


# Define graph as before:
workflow = StateGraph(state_schema=MessagesState)
workflow.add_edge(START, "model")
workflow.add_node("model", call_model)
app = workflow.compile(checkpointer=MemorySaver())

# Async invocation:
output = await app.ainvoke({"messages": input_messages}, config)
output["messages"][-1].pretty_print()

目前,我们只是围绕模型添加了一个简单的持久化层。通过引入提示模板,我们可以开始让聊天机器人变得更加复杂和个性化。

提示模板

提示模板有助于将原始用户信息转换为大语言模型(LLM)可以处理的格式。在这种情况下,原始用户输入只是一条消息,我们将其传递给 LLM。现在让我们让情况稍微复杂一些。首先,添加一条带有自定义指令的系统消息(但仍以消息作为输入)。接下来,除了消息之外,我们还要添加更多输入内容。

要添加系统消息,我们将创建一个 ChatPromptTemplate。我们将利用 MessagesPlaceholder 来传递所有消息。

from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder

prompt_template = ChatPromptTemplate.from_messages(
[
(
"system",
"You talk like a pirate. Answer all questions to the best of your ability.",
),
MessagesPlaceholder(variable_name="messages"),
]
)

我们现在可以更新我们的应用程序以整合此模板:

workflow = StateGraph(state_schema=MessagesState)


def call_model(state: MessagesState):
prompt = prompt_template.invoke(state)
response = model.invoke(prompt)
return {"messages": response}


workflow.add_edge(START, "model")
workflow.add_node("model", call_model)

memory = MemorySaver()
app = workflow.compile(checkpointer=memory)

我们以相同的方式调用应用程序:

config = {"configurable": {"thread_id": "abc345"}}
query = "Hi! I'm Jim."

input_messages = [HumanMessage(query)]
output = app.invoke({"messages": input_messages}, config)
output["messages"][-1].pretty_print()
================================== Ai Message ==================================

Ahoy there, Jim! What brings ye to these waters today? Be ye seekin' treasure, knowledge, or perhaps a good tale from the high seas? Arrr!
query = "What is my name?"

input_messages = [HumanMessage(query)]
output = app.invoke({"messages": input_messages}, config)
output["messages"][-1].pretty_print()
================================== Ai Message ==================================

Ye be called Jim, matey! A fine name fer a swashbuckler such as yerself! What else can I do fer ye? Arrr!

太棒了!现在让我们让提示词变得更复杂一些。假设现在的提示词模板看起来像这样:

prompt_template = ChatPromptTemplate.from_messages(
[
(
"system",
"You are a helpful assistant. Answer all questions to the best of your ability in {language}.",
),
MessagesPlaceholder(variable_name="messages"),
]
)

请注意,我们已为提示添加了一个新的 language 输入。我们的应用程序现在有两个参数——输入 messageslanguage。我们应该更新应用程序的状态以反映这一点:

from typing import Sequence

from langchain_core.messages import BaseMessage
from langgraph.graph.message import add_messages
from typing_extensions import Annotated, TypedDict


class State(TypedDict):
messages: Annotated[Sequence[BaseMessage], add_messages]
language: str


workflow = StateGraph(state_schema=State)


def call_model(state: State):
prompt = prompt_template.invoke(state)
response = model.invoke(prompt)
return {"messages": [response]}


workflow.add_edge(START, "model")
workflow.add_node("model", call_model)

memory = MemorySaver()
app = workflow.compile(checkpointer=memory)
config = {"configurable": {"thread_id": "abc456"}}
query = "Hi! I'm Bob."
language = "Spanish"

input_messages = [HumanMessage(query)]
output = app.invoke(
{"messages": input_messages, "language": language},
config,
)
output["messages"][-1].pretty_print()
================================== Ai Message ==================================

¡Hola, Bob! ¿Cómo puedo ayudarte hoy?

请注意整个状态都会被持久化,因此如果不需要更改,我们可以省略像 language 这样的参数:

query = "What is my name?"

input_messages = [HumanMessage(query)]
output = app.invoke(
{"messages": input_messages},
config,
)
output["messages"][-1].pretty_print()
================================== Ai Message ==================================

Tu nombre es Bob. ¿Hay algo más en lo que pueda ayudarte?

为了帮助您理解内部正在发生的事情,请查看 此 LangSmith 追踪

管理对话历史

构建聊天机器人时,需要理解的一个重要概念是如何管理对话历史。如果未进行管理,消息列表将无限增长,并可能导致超出大语言模型(LLM)的上下文窗口限制。因此,添加一个步骤来限制传入消息的大小非常重要。

重要的是,您需要在加载消息历史中的先前消息之后、但在提示模板之前执行此操作。

我们可以通过在提示词前添加一个简单的步骤来修改 messages 键,然后将这个新链包装在消息历史类中来实现。

LangChain 附带了一些用于管理消息列表的内置辅助工具。在本例中,我们将使用trim_messages辅助工具来减少发送给模型的消息数量。该修剪器允许我们指定要保留的令牌数量,以及其他参数,例如是否始终保留系统消息以及是否允许部分消息:

from langchain_core.messages import SystemMessage, trim_messages

trimmer = trim_messages(
max_tokens=65,
strategy="last",
token_counter=model,
include_system=True,
allow_partial=False,
start_on="human",
)

messages = [
SystemMessage(content="you're a good assistant"),
HumanMessage(content="hi! I'm bob"),
AIMessage(content="hi!"),
HumanMessage(content="I like vanilla ice cream"),
AIMessage(content="nice"),
HumanMessage(content="whats 2 + 2"),
AIMessage(content="4"),
HumanMessage(content="thanks"),
AIMessage(content="no problem!"),
HumanMessage(content="having fun?"),
AIMessage(content="yes!"),
]

trimmer.invoke(messages)
[SystemMessage(content="you're a good assistant", additional_kwargs={}, response_metadata={}),
HumanMessage(content='whats 2 + 2', additional_kwargs={}, response_metadata={}),
AIMessage(content='4', additional_kwargs={}, response_metadata={}),
HumanMessage(content='thanks', additional_kwargs={}, response_metadata={}),
AIMessage(content='no problem!', additional_kwargs={}, response_metadata={}),
HumanMessage(content='having fun?', additional_kwargs={}, response_metadata={}),
AIMessage(content='yes!', additional_kwargs={}, response_metadata={})]

要在我们的链中使用它,我们只需在将messages输入传递给提示之前运行修剪器。

workflow = StateGraph(state_schema=State)


def call_model(state: State):
trimmed_messages = trimmer.invoke(state["messages"])
prompt = prompt_template.invoke(
{"messages": trimmed_messages, "language": state["language"]}
)
response = model.invoke(prompt)
return {"messages": [response]}


workflow.add_edge(START, "model")
workflow.add_node("model", call_model)

memory = MemorySaver()
app = workflow.compile(checkpointer=memory)

现在,如果我们尝试向模型询问我们的名字,它不会知道,因为我们裁剪了聊天历史的那一部分:

config = {"configurable": {"thread_id": "abc567"}}
query = "What is my name?"
language = "English"

input_messages = messages + [HumanMessage(query)]
output = app.invoke(
{"messages": input_messages, "language": language},
config,
)
output["messages"][-1].pretty_print()
================================== Ai Message ==================================

I don't know your name. You haven't told me yet!

但如果我们询问最近几条消息中的信息,它会记得:

config = {"configurable": {"thread_id": "abc678"}}
query = "What math problem did I ask?"
language = "English"

input_messages = messages + [HumanMessage(query)]
output = app.invoke(
{"messages": input_messages, "language": language},
config,
)
output["messages"][-1].pretty_print()
================================== Ai Message ==================================

You asked what 2 + 2 equals.

如果您查看 LangSmith,您可以在 LangSmith 追踪 中清楚地看到底层正在发生的一切。

流式传输

现在我们已拥有一个功能正常的聊天机器人。然而,对于聊天机器人应用而言,一个非常重要的用户体验考虑因素是流式传输。大语言模型(LLM)有时需要较长时间才能响应,因此为了提升用户体验,大多数应用程序会采取的策略是:在生成每个令牌时将其流式返回给用户。这使得用户能够看到处理进度。

这实际上非常简单!

默认情况下,.stream 在我们的 LangGraph 应用中流式传输应用步骤——在本例中为模型响应的单个步骤。将值设置为 stream_mode="messages" 允许我们流式传输输出令牌:

config = {"configurable": {"thread_id": "abc789"}}
query = "Hi I'm Todd, please tell me a joke."
language = "English"

input_messages = [HumanMessage(query)]
for chunk, metadata in app.stream(
{"messages": input_messages, "language": language},
config,
stream_mode="messages",
):
if isinstance(chunk, AIMessage): # Filter to just model responses
print(chunk.content, end="|")
|Hi| Todd|!| Here|’s| a| joke| for| you|:

|Why| don|’t| skeleton|s| fight| each| other|?

|Because| they| don|’t| have| the| guts|!||

下一步

现在您已经了解了如何在 LangChain 中创建聊天机器人的基础知识,您可能感兴趣的更高级教程包括:

  • 对话式 RAG: 启用基于外部数据源的聊天机器人体验
  • 代理: 构建一个可以采取行动的聊天机器人

如果您想深入了解具体内容,值得关注的方面有: