如何流式传输来自 LLM 的响应
所有 LLMs 都实现了 Runnable 接口,该接口提供了标准可运行方法的默认实现(即 ainvoke, batch, abatch, stream, astream, astream_events)。
The 默认流式实现提供一个Iterator(或异步流式的AsyncIterator),它生成一个单一值:来自底层聊天模型提供者的最终输出。
输出是否支持按 token 流式传输,取决于该提供商是否已实现正确的流式支持。
在此查看支持逐 token 流式传输的集成。
注意
默认实现不支持逐 token 流式传输,但它确保模型可以替换为任何其他模型,因为它支持相同的标准接口。
同步流
下面我们使用一个 | 来帮助可视化令牌之间的分隔符。
from langchain_openai import OpenAI
llm = OpenAI(model="gpt-3.5-turbo-instruct", temperature=0, max_tokens=512)
for chunk in llm.stream("Write me a 1 verse song about sparkling water."):
print(chunk, end="|", flush=True)
API 参考:OpenAI
|Spark|ling| water|,| oh| so clear|
|Bubbles dancing|,| without| fear|
|Refreshing| taste|,| a| pure| delight|
|Spark|ling| water|,| my| thirst|'s| delight||
异步流式传输
让我们看看如何在异步设置中使用 astream 进行流式传输。
from langchain_openai import OpenAI
llm = OpenAI(model="gpt-3.5-turbo-instruct", temperature=0, max_tokens=512)
async for chunk in llm.astream("Write me a 1 verse song about sparkling water."):
print(chunk, end="|", flush=True)
API 参考:OpenAI
|Spark|ling| water|,| oh| so clear|
|Bubbles dancing|,| without| fear|
|Refreshing| taste|,| a| pure| delight|
|Spark|ling| water|,| my| thirst|'s| delight||
异步事件流
LLMs 还支持标准的 流式事件 方法。
提示
astream_events 在实现包含多个步骤的更大 LLM 应用(例如,涉及 agent 的应用)中的流式处理时最为有用。
from langchain_openai import OpenAI
llm = OpenAI(model="gpt-3.5-turbo-instruct", temperature=0, max_tokens=512)
idx = 0
async for event in llm.astream_events(
"Write me a 1 verse song about goldfish on the moon", version="v1"
):
idx += 1
if idx >= 5: # Truncate the output
print("...Truncated")
break
print(event)
API 参考:OpenAI