分析单个实验

运行实验后，您可以使用 LangSmith 的实验视图来分析结果，并深入了解实验的执行效果。

本指南将引导您查看实验结果，并重点介绍实验视图中可用的各项功能。

打开实验视图

要打开实验视图，请先从“数据集与实验”页面中选择相关数据集，然后选择您要查看的实验。

Open experiment view

查看实验结果

此表格显示您的实验结果，包括数据集中每个示例的输入、输出及参考输出。同时，表格还为每个配置的反馈项单独设置一列，并显示其对应的反馈得分。

开箱即用的指标（延迟、状态、成本和 Token 数量）也将分别显示在独立的列中。

在列下拉菜单中，您可以选择要隐藏或显示的列。

Experiment view

热力图视图

实验视图默认采用热力图视图，其中每次运行的反馈得分会以不同颜色高亮显示。红色表示得分较低，绿色表示得分较高。热力图可视化方式让您能够轻松识别模式、发现异常值，并一目了然地了解整个数据集中的得分分布情况。

Heatmap view

排序和筛选

如需对反馈评分进行排序或筛选，可使用列标题中的操作按钮。

Sort and filter

表格视图

根据您的分析需求，您可以通过在紧凑视图、完整视图和差异视图之间切换来更改表格的显示格式。

Compact 视图以单行形式显示每次运行，便于一目了然地比较各项得分。
Full 视图显示每次运行的完整输出，便于深入分析单次运行的详细信息。
Diff 视图显示参考输出与每次运行输出之间的文本差异。

Diff view

查看追踪记录

将鼠标悬停在任意输出单元格上，然后点击跟踪图标以查看该次运行的跟踪信息。这将在侧边栏中打开一个跟踪面板。

要查看完整的追踪项目，请点击页眉右上角的“查看项目”按钮。

View trace

查看评估器运行

对于评估器得分，您可将鼠标悬停在评估器得分单元格上，然后点击箭头图标，以查看该次运行的原始数据。这将在侧边栏中打开一个追踪记录。如果您正在运行基于大语言模型（LLM）的裁判型评估器，则可在此次运行中查看该评估器所使用的提示词。如果您的实验包含重复试验，您可以点击聚合平均分，以获取所有单次运行的链接。

View evaluator runs

按元数据对结果进行分组

您可以为示例添加元数据，以便对其进行分类和组织。例如，在评估问答数据集的事实准确性时，元数据可包含每个问题所属的学科领域。元数据既可通过用户界面添加，也可通过软件开发工具包（SDK）添加。

如需按元数据分析结果，请在实验视图右上角使用“按…分组”下拉菜单，并选择您所需的元数据键。这将显示每个元数据组的平均反馈得分、延迟、总 Token 数和成本。

信息

您仅能对2025年2月20日之后创建的实验，按示例元数据进行分组。在此日期之前的实验仍可按元数据分组，但前提是该元数据必须位于实验追踪（experiment traces）本身上。

Group by

重复

如果您使用重复次数运行了实验，则输出结果列中将显示箭头，以便您在表格中查看输出。要查看每次重复运行的结果，请将鼠标悬停在输出单元格上，然后点击展开视图。

当您运行包含重复次数的实验时，LangSmith 会在表格中显示每个反馈分数的平均值。单击反馈分数，可查看各次运行的反馈分数，或查看重复实验间的标准差。

Repetitions

与另一个实验进行比较

在实验视图的右上角，您可以选择另一个实验进行对比。这将打开对比视图，您可在其中查看两个实验的对比结果。如需了解有关对比视图的更多信息，请参阅如何对比实验结果。

Compare

分析单个实验

打开实验视图

查看实验结果

热力图视图

排序和筛选

表格视图

查看追踪记录

查看评估器运行

按元数据对结果进行分组

重复

与另一个实验进行比较

这个页面对你有帮助吗？

您可以留下详细的反馈在 GitHub 上.

打开实验视图​

查看实验结果​

热力图视图​

排序和筛选​

表格视图​

查看追踪记录​

查看评估器运行​

按元数据对结果进行分组​

重复​

与另一个实验进行比较​

这个页面对你有帮助吗？

您可以留下详细的反馈 在 GitHub 上.

打开实验视图

查看实验结果

热力图视图

排序和筛选

表格视图

查看追踪记录

查看评估器运行

按元数据对结果进行分组

重复

与另一个实验进行比较

您可以留下详细的反馈在 GitHub 上.