评估
评估是衡量您的 LLM 驱动应用的性能和有效性的过程。 它涉及将模型的响应与一组预定义的标准或基准进行测试,以确保其符合期望的质量标准并实现预期目的。 这一过程对于构建可靠的应用至关重要。

LangSmith 在以下几个方面帮助此过程:
- 它通过其跟踪和标注功能,使创建和管理数据集变得更加容易
- 它提供了一个评估框架,帮助您定义指标并使用数据集运行您的应用程序
- 它允许您随时间追踪结果,并自动按计划或在 CI/Code 流程中运行您的评估器
要了解更多信息,请查看 这份 LangSmith 指南。