Use cases

Examples of common evaluation use cases

This section includes use case guides for a few common evaluation scenarios.

JSON evaluations: Validate JSON outputs from LLMs.
RAG evaluations: Verify LLM outputs end-to-end performance testing.
AI agent evaluations: Avoid unreliable reasoning, inconsistent data, and hallucinations.

See each guide for a complete walk through.

Updated 3 months ago