Experiment Management¶

Overview¶

Test cases in Strands Evals are organized into Experiment objects. This guide covers practical patterns for managing experiments and test cases.

Organizing Test Cases¶

Using Metadata for Organization¶

from strands_evals import Case

# Add metadata for filtering and organization
cases = [
    Case(
        name="easy-math",
        input="What is 2 + 2?",
        metadata={
            "category": "math",
            "difficulty": "easy",
            "tags": ["arithmetic"]
        }
    ),
    Case(
        name="hard-math",
        input="Solve x^2 + 5x + 6 = 0",
        metadata={
            "category": "math",
            "difficulty": "hard",
            "tags": ["algebra"]
        }
    )
]

# Filter by metadata
easy_cases = [c for c in cases if c.metadata.get("difficulty") == "easy"]

Naming Conventions¶

# Pattern: {category}-{subcategory}-{number}
Case(name="knowledge-geography-001", input="..."),
Case(name="math-arithmetic-001", input="..."),

Managing Multiple Experiments¶

Experiment Collections¶

from strands_evals import Experiment

experiments = {
    "baseline": Experiment(cases=baseline_cases, evaluators=[...]),
    "with_tools": Experiment(cases=tool_cases, evaluators=[...]),
    "edge_cases": Experiment(cases=edge_cases, evaluators=[...])
}

# Run all
for name, exp in experiments.items():
    print(f"Running {name}...")
    reports = exp.run_evaluations(task_function)

Combining Experiments¶

# Merge cases from multiple experiments
combined = Experiment(
    cases=exp1.cases + exp2.cases + exp3.cases,
    evaluators=[OutputEvaluator()]
)

Modifying Experiments¶

Adding Cases¶

# Add single case
experiment.cases.append(new_case)

# Add multiple
experiment.cases.extend(additional_cases)

Updating Evaluators¶

from strands_evals.evaluators import HelpfulnessEvaluator

# Replace evaluators
experiment.evaluators = [
    OutputEvaluator(),
    HelpfulnessEvaluator()
]

Session IDs¶

Each case gets a unique session ID automatically:

case = Case(input="test")
print(case.session_id)  # Auto-generated UUID

# Or provide custom
case = Case(input="test", session_id="custom-123")

Best Practices¶

1. Use Descriptive Names¶

# Good
Case(name="customer-service-refund-request", input="...")

# Less helpful
Case(name="test1", input="...")

2. Include Rich Metadata¶

Case(
    name="complex-query",
    input="...",
    metadata={
        "category": "customer_service",
        "difficulty": "medium",
        "expected_tools": ["search_orders"],
        "created_date": "2025-01-15"
    }
)

3. Version Your Experiments¶

experiment.to_file("experiment_v1.json")
experiment.to_file("experiment_v2.json")

# Or with timestamps
from datetime import datetime
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
experiment.to_file(f"experiment_{timestamp}.json")

Serialization: Save and load experiments
Experiment Generator: Generate experiments automatically
Quickstart Guide: Get started with experiments

Experiment Management¶

Overview¶

Organizing Test Cases¶

Using Metadata for Organization¶

Naming Conventions¶

Managing Multiple Experiments¶

Experiment Collections¶

Combining Experiments¶

Modifying Experiments¶

Adding Cases¶

Updating Evaluators¶

Session IDs¶

Best Practices¶

1. Use Descriptive Names¶

2. Include Rich Metadata¶

3. Version Your Experiments¶

Related Documentation¶