分析单个实验
运行实验后,您可以使用 LangSmith 的实验视图来分析结果,并深入了解实验的执行效果。
本指南将引导您查看实验结果,并重点介绍实验视图中可用的各项功能。
打开实验视图
要打开实验视图,请先从“数据集与实验”页面中选择相关数据集,然后选择您要查看的实验。

查看实验结果
此表格显示您的实验结果,包括数据集中每个示例的输入、输出及参考输出。同时,表格还为每个配置的反馈项单独设置一列,并显示其对应的反馈得分。
开箱即用的指标(延迟、状态、成本和 Token 数量)也将分别显示在独立的列中。
在列下拉菜单中,您可以选择要隐藏或显示的列。

热力图视图
实验视图默认采用热力图视图,其中每次运行的反馈得分会以不同颜色高亮显示。 红色表示得分较低,绿色表示得分较高。 热力图可视化方式让您能够轻松识别模式、发现异常值,并一目了然地了解整个数据集中的得分分布情况。

排序和筛选
如需对反馈评分进行排序或筛选,可使用列标题中的操作按钮。

表格视图
根据您的分析需求,您可以通过在紧凑视图、完整视图和差异视图之间切换来更改表格的显示格式。
Compact视图以单行形式显示每次运行,便于一目了然地比较各项得分。Full视图显示每次运行的完整输出,便于深入分析单次运行的详细信息。Diff视图显示参考输出与每次运行输出之间的文本差异。

查看追踪记录
将鼠标悬停在任意输出单元格上,然后点击跟踪图标以查看该次运行的跟踪信息。这将在侧边栏中打开一个跟踪面板。
要查看完整的追踪项目,请点击页眉右上角的“查看项目”按钮。

查看评估器运行
对于评估器得分,您可将鼠标悬停在评估器得分单元格上,然后点击箭头图标,以查看该次运行的原始数据。这将在侧边栏中打开一个追踪记录。如果您正在运行基于大语言模型(LLM)的裁判型评估器,则可在此次运行中查看该评估器所使用的提示词。 如果您的实验包含重复试验,您可以点击聚合平均分,以获取所有单次运行的链接。

按元数据对结果进行分组
您可以为示例添加元数据,以便对其进行分类和组织。例如,在评估问答数据集的事实准确性时,元数据可包含每个问题所属的学科领域。元数据既可通过用户界面添加,也可通过软件开发工具包(SDK)添加。
如需按元数据分析结果,请在实验视图右上角使用“按…分组”下拉菜单,并选择您所需的元数据键。这将显示每个元数据组的平均反馈得分、延迟、总 Token 数和成本。
您仅能对2025年2月20日之后创建的实验,按示例元数据进行分组。在此日期之前的实验仍可按元数据分组,但前提是该元数据必须位于实验追踪(experiment traces)本身上。

重复
如果您使用重复次数运行了实验,则输出结果列中将显示箭头,以便您在表格中查看输出。要查看每次重复运行的结果,请将鼠标悬停在输出单元格上,然后点击展开视图。
当您运行包含重复次数的实验时,LangSmith 会在表格中显示每个反馈分数的平均值。单击反馈分数,可查看各次运行的反馈分数,或查看重复实验间的标准差。

与另一个实验进行比较
在实验视图的右上角,您可以选择另一个实验进行对比。这将打开对比视图,您可在其中查看两个实验的对比结果。 如需了解有关对比视图的更多信息,请参阅 如何对比实验结果。
