📄️ AI21SemanticTextSplitter
此示例介绍了如何在 LangChain 中使用 AI21SemanticTextSplitter。
📄️ Beautiful Soup
Beautiful Soup 是一个用于解析的 Python 包
📄️ Cross Encoder Reranker
本笔记本展示了如何在检索器中实现重排序器,使用您从 Hugging Face 的交叉编码器模型或实现了交叉编码器功能的 Hugging Face 模型(例如:BAAI/bge-reranker-base)加载自己的交叉编码器。SagemakerEndpointCrossEncoder 允许您在 Sagemaker 上加载这些 HuggingFace 模型。
📄️ DashScope Reranker
本笔记本展示了如何使用通义千问重排序模型进行文档压缩和检索。通义千问是阿里云(Aliyun)提供的生成式人工智能服务。
📄️ Doctran: extract properties
我们可以使用 Doctran 库提取文档的有用特征,该库利用 OpenAI 的函数调用功能来提取特定的元数据。
📄️ Doctran: interrogate documents
在向量存储知识库中使用的文档通常以叙述性或对话格式存储。然而,大多数用户的查询是以问题形式提出的。如果我们在将文档向量化之前,先将其转换为问答(Q&A)格式,就可以提高检索到相关文档的可能性,并降低检索到不相关文档的可能性。
📄️ Doctran: language translation
通过嵌入(embeddings)来比较文档的优势在于能够跨多种语言工作。“Harrison says hello”和“Harrison dice hola”会在向量空间中占据相似的位置,因为它们在语义上具有相同的含义。
📄️ Google Cloud Vertex AI Reranker
Vertex Search Ranking API 是 Vertex AI Agent Builder 中的一个独立 API。它接收一个文档列表,并根据这些文档与查询的相关性对其进行重新排序。与仅考虑文档和查询语义相似性的嵌入方法相比,排名 API 可以为文档回答特定查询的程度提供精确的评分。排名 API 可用于在检索初始候选文档集后提升搜索结果的质量。
📄️ Google Cloud Document AI
文档AI是Google Cloud提供的文档理解平台,用于将文档中的非结构化数据转换为结构化数据,使其更易于理解和分析。
📄️ Google Translate
谷歌翻译是由谷歌开发的多语言神经机器翻译服务,用于将文本、文档和网站从一种语言翻译成另一种语言。
📄️ HTML to text
html2text 是一个 Python 包,可将 HTML 页面转换为干净、易于阅读的纯 ASCII 文本。
📄️ Infinity Reranker
Infinity 是一个高吞吐量、低延迟的 REST API,用于提供文本嵌入、重排序模型和 CLIP。
📄️ Jina Reranker
本笔记本展示了如何使用 Jina Reranker 进行文档压缩和检索。
📄️ Markdownify
markdownify 是一个 Python 包,可将 HTML 文档转换为 Markdown 格式,并提供可自定义的选项来处理标签(链接、图片等)、标题样式及其他内容。
📄️ Nuclia
Nuclia 自动索引来自任何内部和外部源的非结构化数据,提供优化的搜索结果和生成式答案。它能够处理视频和音频转录、图像内容提取以及文档解析。
📄️ OpenAI metadata tagger
为已摄入的文档添加结构化元数据(例如文档的标题、语气或长度)通常非常有用,这样可以便于后续进行更有针对性的相似性搜索。然而,对于大量文档而言,手动执行此标记过程可能会很繁琐。
📄️ OpenVINO Reranker
OpenVINO™ 是一个开源工具包,用于优化和部署人工智能推理。OpenVINO™ 运行时支持多种硬件设备,包括 x86 和 ARM CPU 以及英特尔 GPU。它可以帮助提升计算机视觉、自动语音识别、自然语言处理以及其他常见任务中的深度学习性能。
📄️ RankLLM Reranker
RankLLM 是一个灵活的重排序框架,支持列表式、成对式和点式重排序模型。它包含 RankVicuna、RankZephyr、MonoT5、DuoT5、LiT5 和 FirstMistral,并集成了 FastChat、vLLM、SGLang 和 TensorRT-LLM 以实现高效的推理。RankLLM 针对检索和重排序任务进行了优化,利用了开源大语言模型以及像 RankGPT 和 RankGemini 这样的专有重排序器。它支持批量推理、首次令牌重排序以及通过 BM25 和 SPLADE 的检索。
📄️ Volcengine Reranker
本笔记本展示了如何使用火山引擎重排序器进行文档压缩和检索。火山引擎是由抖音母公司字节跳动开发的云服务平台。
📄️ VoyageAI Reranker
Voyage AI 提供先进的嵌入/向量化模型。