Skip to main content

评估操操作指南

这些指南以“如何……？”的形式解答问题。它们以目标为导向、内容具体，旨在帮助您完成特定任务。如需概念性解释，请参阅概念指南。如需端到端的实操演练，请参阅教程。如需了解每个类和函数的完整说明，请参阅API 参考。

核心功能

创建数据集：使用SDK 或通过用户界面
运行离线评估使用SDK 或通过用户界面
使用大语言模型（LLM）作为评判者和自定义代码评估器在线运行评估
在用户界面中分析评估结果
记录用户反馈（来自您的应用）
记录专家反馈并使用标注队列

离线评估

在部署应用之前对其进行评估和优化。

运行评估

定义一个评估器

配置评估数据

配置评估任务

向数据集添加默认评估器

为所有针对数据集的实验设置自动运行的评估器。

测试集成

使用您最喜爱的测试工具运行评估。

在线评估

在生产数据上评估和监控您系统的实时性能。

分析实验结果

使用 UI 和 API 来理解您的实验结果。

数据集管理

管理 LangSmith 中用于评估的数据集。

标注队列与人工反馈

收集领域专家和用户的反馈，以改进您的应用程序。

这个页面对你有帮助吗？

您可以留下详细的反馈在 GitHub 上.