评估操操作指南
这些指南以“如何……?”的形式解答问题。 它们以目标为导向、内容具体,旨在帮助您完成特定任务。 如需概念性解释,请参阅概念指南。 如需端到端的实操演练,请参阅教程。 如需了解每个类和函数的完整说明,请参阅API 参考。
核心功能
- 创建数据集:使用SDK 或 通过用户界面
- 运行离线评估 使用SDK 或 通过用户界面
- 使用 大语言模型(LLM)作为评判者 和 自定义代码 评估器在线运行评估
- 在用户界面中分析评估结果
- 记录用户反馈(来自您的应用)
- 记录专家反馈 并使用标注队列
离线评估
在部署应用之前对其进行评估和优化。
运行评估
- 定义一个目标函数用于评估
- 使用SDK运行评估
- 异步运行评估
- 运行一项评估,比较两项实验
- 评估一个
langchain可运行对象 - 评估一个
langgraph图 - 评估现有实验(仅限Python)
- 从用户界面运行评估
- 通过 REST API 运行评估
- 使用多模态内容运行评估
定义一个评估器
配置评估数据
配置评估任务
向数据集添加默认评估器
为所有针对数据集的实验设置自动运行的评估器。
测试集成
使用您最喜爱的测试工具运行评估。
在线评估
在生产数据上评估和监控您系统的实时性能。
分析实验结果
使用 UI 和 API 来理解您的实验结果。
- 分析单个实验
- 使用对比视图比较实验
- 筛选实验
- 查看成对实验
- 在SDK中获取实验结果
- 使用 REST API 上传在 LangSmith 外部运行的实验
- 将实验结果下载为 CSV 文件
- 审核并修正评估器得分
- 重命名实验
数据集管理
管理 LangSmith 中用于评估的数据集。
- 从用户界面创建数据集
- 从用户界面导出数据集
- 从用户界面创建数据集划分
- 从用户界面筛选示例
- 使用SDK创建数据集
- 使用SDK获取数据集
- 使用SDK更新数据集
- 版本化数据集
- 数据集共享
- 将实验中筛选出的追踪记录导出为数据集
标注队列与人工反馈
收集领域专家和用户的反馈,以改进您的应用程序。