Ga naar inhoud

Cheatsheet β€” BewijsstandaardenΒΆ

Bron: Bewijsstandaarden


BewijsniveausΒΆ

Niveau Beschrijving Voorbeeld
L1 β€” Claim Bewering zonder onderbouwing "Het model is accuraat"
L2 β€” Indicatie Enkelvoudige meting of anekdote Één testresultaat
L3 β€” Bewijs Herhaalbare meting op representatieve set Golden Set score op 200 items
L4 β€” Sterk Bewijs Meerdere methoden, onafhankelijk gevalideerd Golden Set + menselijke review + A/B-test

Minimale eis voor Gate 2: niveau L3 of hoger.


Vereist Bewijs per ArtefactΒΆ

Artefact Minimaal niveau Methode
Outputkwaliteit L3 Golden Set + geautomatiseerde metric
Fairness L3 Gesegmenteerde analyse per groep
Veiligheid (Hoog Risico) L4 Red Teaming + onafhankelijke review
Latency L3 Load test (p95, p99) (p95 = 95e percentiel β€” 95% van alle verzoeken is sneller dan deze waarde)
Kostenprognose L2 Calculator + aannames gedocumenteerd
Traceerbaarheid L3 Audit trail gedemonstreerd

BewijsdocumentatieΒΆ

Elk bewijs moet minimaal bevatten:

  • Wat is gemeten (metric, definitie)
  • Hoe gemeten (methode, tool)
  • Wanneer gemeten (datum, versie)
  • Door wie beoordeeld (beoordelaar, onafhankelijkheid)
  • Resultaat (getal + vergelijking met drempelwaarde)

Veelgemaakte FoutenΒΆ

Onvoldoende bewijs

  • Metric gemeten op trainingsdata i.p.v. onafhankelijke testset
  • Geen baseline gedefinieerd ("beter dan voorheen" is geen bewijs)
  • Enkel positieve resultaten gerapporteerd (cherry picking)
  • Evaluatie uitgevoerd door ontwikkelteam zelf (geen onafhankelijkheid)

Bron: Bewijsstandaarden | Validatierapport