Skip to main content

如何比较实验结果

在迭代您的大语言模型(LLM)应用时(例如更改模型或提示词),您通常希望对比不同实验的结果。

LangSmith 支持强大的对比视图,可帮助您精准定位不同实验之间的关键差异、性能退化及改进之处。

打开对比视图

要打开实验对比视图,请点击 数据集与实验 页面,选择相应的数据集,在“实验”标签页中选择两个或更多实验,然后点击“对比”。

调整表格显示

您可以通过点击页面顶部的“完整”或“紧凑”来切换不同的视图。

切换“全文”将显示每次运行的输入、输出及参考输出的完整文本。如果参考输出过长,无法在表格中完全显示,您可以点击“展开”以查看全部内容。

您还可以在显示设置下拉菜单中选择并隐藏单个反馈键或单个指标,以仅显示您希望查看的信息。

查看回归问题和改进项

在 LangSmith 比较视图中,相对于您的基线实验,在您指定的反馈键上出现退化的运行将被高亮显示为红色,而提升的运行则被高亮显示为绿色。在每列顶部,您可以查看该实验中有多少次运行优于基线实验,又有多少次运行劣于基线实验。

Regressions

筛选回归问题或改进项

点击每列顶部的“回归”或“改进”按钮,以筛选出在该特定实验中出现回归或改进的运行。

Regressions Filter

更新基线实验和指标

为了跟踪回归问题,您需要:

  1. 选择一个用于对比的基准实验以及一个衡量指标。默认情况下,最新进行的实验将被选为基准实验。
  2. 选择您希望重点对比的反馈键(评估指标)。系统将默认分配一个,但您可以根据需要进行调整。
  3. 配置所选反馈键的分数是否越高越好。此偏好设置将被保存。

Baseline

打开追踪

如果待评估的示例来自已摄入的运行,您可以将鼠标悬停在输出单元格上,然后点击跟踪图标以打开该运行的跟踪视图。这将在侧边栏中展开一个跟踪面板。

展开详细视图

在任意单元格中,您均可将鼠标悬停于展开图标上,然后点击该图标,以打开一个详细视图,其中显示针对该特定示例输入的所有实验结果,以及反馈键和对应分数。

查看汇总图表

您还可以通过点击页面顶部的“图表”标签来查看汇总图表。

使用实验元数据作为图表标签

您可以根据实验元数据来配置图表的X轴标签。

选择一个元数据键,以更改图表的 x 轴标签。


这个页面对你有帮助吗?


您可以留下详细的反馈 在 GitHub 上.