跳到主要内容

评估

评估是评估您的 LLM 驱动应用程序的性能和有效性的过程。它涉及根据一组预定义的标准或基准测试模型的响应，以确保其满足所需的质量标准并实现预期的目的。此过程对于构建可靠的应用程序至关重要。

LangSmith 通过以下几种方式帮助完成此过程

它通过其跟踪和注释功能，使创建和管理数据集变得更加容易
它提供了一个评估框架，可帮助您定义指标并在数据集上运行您的应用程序
它允许您随时间跟踪结果，并自动按计划或作为 CI/代码的一部分运行您的评估器

要了解更多信息，请查看此 LangSmith 指南。

此页面对您有帮助吗？

您也可以留下详细的反馈在 GitHub 上.

© . This site is unofficial and not affiliated with LangChain, Inc.

这些文档随着 LangChain v1.0 在 2025 年 10 月的发布而弃用，并且不再维护。请访问 v1.0 文档