Claude VIDEO 23 May 2026

Evals for taste: Hill-climbing a slide-generation agent

Built rubric-driven replayable eval system from real user projects giving quality, cost, latency, error, token signals in under 6 hours per model change. Evolved into dev flywheel powered by real user dissatisfaction signals.

YouTube

Built rubric-driven replayable eval system from real user projects giving quality, cost, latency, error, token signals in under 6 hours per model change. Evolved into dev flywheel...

Built rubric-driven replayable eval system from real user projects giving quality, cost, latency, error, token signals in under 6 hours per model change. Evolved into dev flywheel powered by real user dissatisfaction signals.

More videos from Claude

All videos

Artifacts in Claude Code: share your work as it happens

Artifacts in Claude Code: share your work as it happens

Enterprise-managed auth for MCP connectors

Enterprise-managed auth for MCP connectors

The Briefing: Financial Services

The Briefing: Financial Services

Claude FM 🎵 music for thinking and building

Claude FM 🎵 music for thinking and building

Gemini komt eraan