Skip to main content

如何在特定数据集版本上进行评估

推荐阅读

在深入学习本内容之前,建议先阅读数据集版本控制指南。 此外,阅读示例获取指南也可能对您有所帮助。

使用 list_examples

您可以利用 evaluate / aevaluate 支持传入示例可迭代对象这一特性,从而在数据集的特定版本上执行评估。 只需使用 list_examples / listExamples 通过 as_of / asOf 获取特定版本标签下的示例,并将这些示例传入 data 参数即可。

from langsmith import Client

ls_client = Client()

# Assumes actual outputs have a 'class' key.
# Assumes example outputs have a 'label' key.
def correct(outputs: dict, reference_outputs: dict) -> bool:
return outputs["class"] == reference_outputs["label"]

results = ls_client.evaluate(
lambda inputs: {"class": "Not toxic"},
# Pass in filtered data here:
data=ls_client.list_examples(
dataset_name="Toxic Queries",
as_of="latest", # specify version here
),
evaluators=[correct],
)
  • 进一步了解如何获取数据集的视图,请点击此处

这个页面对你有帮助吗?


您可以留下详细的反馈 在 GitHub 上.