Azure Blob 存储容器
Azure Blob Storage is Microsoft's object storage solution for the cloud. Blob Storage is optimized for storing massive amounts of unstructured data. Unstructured data is data that doesn't adhere to a particular data model or definition, such as text or binary data.
Azure Blob Storage 专为以下用途设计:
- 直接向浏览器提供图像或文档。
- 存储文件以实现分布式访问。
- 流式视频和音频。
- 写入日志文件。
- 存储数据以用于备份与恢复、灾难恢复和归档。
- 存储数据以供本地部署或 Azure 托管的服务进行分析。
本笔记本介绍如何从 Azure Blob Storage 上的容器加载文档对象。
%pip install --upgrade --quiet azure-storage-blob
from langchain_community.document_loaders import AzureBlobStorageContainerLoader
loader = AzureBlobStorageContainerLoader(conn_str="<conn_str>", container="<container>")
loader.load()
[Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': '/var/folders/y6/8_bzdg295ld6s1_97_12m4lr0000gn/T/tmpaa9xl6ch/fake.docx'}, lookup_index=0)]
指定前缀
您还可以指定前缀,以更精细地控制要加载的文件。
loader = AzureBlobStorageContainerLoader(
conn_str="<conn_str>", container="<container>", prefix="<prefix>"
)
loader.load()
[Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': '/var/folders/y6/8_bzdg295ld6s1_97_12m4lr0000gn/T/tmpujbkzf_l/fake.docx'}, lookup_index=0)]