嵌入模型
这个概念概述专注于基于文本的嵌入模型。
嵌入模型也可以是多模态的,尽管目前 LangChain 尚不支持此类模型。
想象一下,能够将任何文本——推文、文档或书籍——的精髓捕捉到一个单一且紧凑的表示中。 这正是嵌入模型的力量所在,它们位于许多检索系统的核心。 嵌入模型将人类语言转换为机器可以理解和快速准确比较的格式。 这些模型以文本为输入,并生成一个固定长度的数字数组,即文本语义含义的数字指纹。 嵌入使搜索系统不仅能基于关键词匹配,还能基于语义理解来查找相关文档。
关键概念

(1) 将文本嵌入为向量: 嵌入技术将文本转换为数值向量表示。
(2) 测量相似度: 嵌入向量可以使用简单的数学运算进行比较。
嵌入
历史背景
多年来,嵌入模型的发展格局发生了显著变化。2018年是一个关键转折点,当时谷歌推出了BERT(来自Transformer的双向编码器表示)。BERT 将 transformer 模型应用于文本嵌入,将其表示为简单的向量形式,从而在各种自然语言处理任务中取得了前所未有的性能。然而,BERT 并未针对高效生成句子嵌入进行优化。这一局限性催生了 SBERT (Sentence-BERT) 的诞生,它改进了 BERT 架构以生成语义丰富的句子嵌入(embeddings),这些嵌入可通过余弦相似度等相似性度量指标轻松比较,并大幅降低了如查找相似句子等任务中的计算开销。如今,嵌入模型生态系统多种多样,众多提供商都提供了各自的实现方案。为了应对这种多样性,研究人员和从业者通常会转向如 Massive Text Embedding Benchmark (MTEB) 此处 等基准测试进行客观比较。
- 参见 开创性的 BERT 论文。
- 查看 Cameron Wolfe 的优秀综述关于嵌入模型的内容。
- 查看 大规模文本嵌入基准 (MTEB) 排行榜,以全面了解嵌入模型。
接口
LangChain 为与它们交互提供了通用接口,并提供了用于常见操作的标准方法。 该通用接口通过两个核心方法简化了与各种嵌入提供者的交互:
embed_documents: 用于嵌入多个文本(文档)embed_query: 用于嵌入单个文本(查询)
这种区分很重要,因为某些提供商对文档(待搜索的内容)和查询(搜索输入本身)采用不同的嵌入策略。
为了说明这一点,这里有一个使用 LangChain 的.embed_documents方法嵌入字符串列表的实用示例:
from langchain_openai import OpenAIEmbeddings
embeddings_model = OpenAIEmbeddings()
embeddings = embeddings_model.embed_documents(
[
"Hi there!",
"Oh, hello!",
"What's your name?",
"My friends call me World",
"Hello World!"
]
)
len(embeddings), len(embeddings[0])
(5, 1536)
为方便起见,您也可以使用 embed_query 方法来嵌入单段文本:
query_embedding = embeddings_model.embed_query("What is the meaning of life?")
- 查看完整的 LangChain 嵌入模型集成 列表。
- 查看这些操操作指南以了解如何使用嵌入模型。
集成
LangChain 提供了许多嵌入模型集成,您可以在嵌入模型集成页面中找到它们。
测量相似度
每个嵌入本质上是一组坐标,通常位于高维空间中。 在这个空间里,每个点(嵌入)的位置反映了其对应文本的含义。 就像同义词词典中相似的词彼此靠近一样,相似的概念在嵌入空间中也会彼此靠近。 这使得不同文本之间的直观比较成为可能。 通过将文本简化为这些数值表示,我们可以利用简单的数学运算快速衡量两段文本的相似程度,无论它们的原始长度或结构如何。 一些常见的相似度度量包括:
- 余弦相似度: 衡量两个向量之间夹角的余弦值。
- 欧几里得距离: 测量两点之间的直线距离。
- 点积: 衡量一个向量在另一个向量上的投影。
相似度度量的选择应基于所使用的模型。 例如,OpenAI 建议对其嵌入使用余弦相似度,这可以轻松实现:
import numpy as np
def cosine_similarity(vec1, vec2):
dot_product = np.dot(vec1, vec2)
norm_vec1 = np.linalg.norm(vec1)
norm_vec2 = np.linalg.norm(vec2)
return dot_product / (norm_vec1 * norm_vec2)
similarity = cosine_similarity(query_result, document_result)
print("Cosine Similarity:", similarity)
- 参见 Simon Willison 关于嵌入和相似度度量的优秀博客文章和视频。
- 请参阅 Google 关于在嵌入中考虑的相似性度量的此文档。
- 查看 Pinecone 关于相似度度量的博客文章。
- 查看 OpenAI 的 常见问题解答 (FAQ),了解在使用 OpenAI 嵌入时应采用何种相似度度量方法。