Cheatsheet — Golden Set¶

Wat is een Golden Set?¶

Een Golden Set is een vaste verzameling van input-output-paren met bekende, correcte antwoorden. Het is de meetlat voor de kwaliteit van uw AI-systeem.

Minimale Samenstelling¶

Criterium	Minimale waarde	Aanbevolen
Aantal voorbeelden	50	200+
Dekking van use cases	80%	100%
Randgevallen (edge cases)	10% van set	20%
Beoordelaars per item	1	2–3 (inter-rater)
Updatefrequentie	Bij modelwissel	Kwartaal

Opbouw in 4 Stappen¶

1. Verzamel echte gebruikersvragen (of synthetisch indien geen data)
2. Laat domeinexperts de correcte output vaststellen
3. Categoriseer per use case + moeilijkheidsgraad
4. Vergrendel de set — wijzig alleen via formeel proces

Kwaliteitsdrempels¶

Metric	Drempelwaarde (Go)	Actie bij mislukken
Accuracy (classificatie)	≥ 85%	Hertraining of promptoptimalisatie
F1-score	≥ 0.80	Controleer klasse-imbalans
Menselijke beoordeling	≥ 4.0/5.0	Review promptontwerp
Hallucination rate	≤ 5%	RAG-kwaliteit verbeteren
Latency p95 (95e percentiel — 95% van alle verzoeken is sneller dan deze waarde)	≤ [budget] ms	Model tiering overwegen

Valkuilen¶

Vermijd deze fouten

Golden Set gebruiken als trainingsdata (contamination)
Set niet updaten na domeinwijziging (concept drift)
Enkel happy-path-gevallen opnemen (geen edge cases)
Eén beoordelaar per item (geen inter-rater agreement)

Bron volledige aanpak: Validatierapport template

Was deze pagina nuttig? Geef feedback