Diffbot
Diffbot is a suite of ML-based products that make it easy to structure and integrate web data.
安装与设置
获取一个免费的Diffbot API令牌 并 按照这些说明 来认证您的请求。
文档加载器
Diffbot的 提取API 是一种服务,可对网页数据进行结构化和标准化。
与传统的网络爬虫工具不同,Diffbot Extract 不需要任何规则即可读取页面内容。它使用计算机视觉模型将页面分类为20种可能类型之一,然后将原始HTML标记转换为JSON。生成的结构化JSON遵循一致的基于类型的本体,这使得可以使用相同的模式从多个不同的网页源中提取数据。
查看一个 使用示例。
from langchain_community.document_loaders import DiffbotLoader
API 参考:DiffbotLoader
图表
Diffbot的 自然语言处理API 可以从非结构化文本数据中提取实体、关系和语义含义。
查看一个 使用示例。
from langchain_experimental.graph_transformers.diffbot import DiffbotGraphTransformer
API 参考:DiffbotGraphTransformer