Ga naar inhoud

Cheatsheet — Golden Set

Bron: Validatierapport


Wat is een Golden Set?

Een Golden Set is een vaste verzameling van input-output-paren met bekende, correcte antwoorden. Het is de meetlat voor de kwaliteit van uw AI-systeem.


Minimale Samenstelling

Criterium Minimale waarde Aanbevolen
Aantal voorbeelden 50 200+
Dekking van use cases 80% 100%
Randgevallen (edge cases) 10% van set 20%
Beoordelaars per item 1 2–3 (inter-rater)
Updatefrequentie Bij modelwissel Kwartaal

Opbouw in 4 Stappen

1. Verzamel echte gebruikersvragen (of synthetisch indien geen data)
2. Laat domeinexperts de correcte output vaststellen
3. Categoriseer per use case + moeilijkheidsgraad
4. Vergrendel de set — wijzig alleen via formeel proces

Kwaliteitsdrempels

Metric Drempelwaarde (Go) Actie bij mislukken
Accuracy (classificatie) ≥ 85% Hertraining of promptoptimalisatie
F1-score ≥ 0.80 Controleer klasse-imbalans
Menselijke beoordeling ≥ 4.0/5.0 Review promptontwerp
Hallucination rate ≤ 5% RAG-kwaliteit verbeteren
Latency p95 (95e percentiel — 95% van alle verzoeken is sneller dan deze waarde) ≤ [budget] ms Model tiering overwegen

Valkuilen

Vermijd deze fouten

  • Golden Set gebruiken als trainingsdata (contamination)
  • Set niet updaten na domeinwijziging (concept drift)
  • Enkel happy-path-gevallen opnemen (geen edge cases)
  • Eén beoordelaar per item (geen inter-rater agreement)

Bron volledige aanpak: Validatierapport template