1. Drift Detectie (Drift Detection)¶

Doel

Methoden om kwaliteitsverslechtering (drift) in AI-systemen te detecteren, meten en hierop te reageren.

Wanneer gebruik je dit?

Je merkt dat je AI-systeem in productie anders presteert dan verwacht, of je wilt proactief monitoring inrichten om kwaliteitsverslechtering vroegtijdig te signaleren.

1. Doel¶

Drift (drift) is het fenomeen waarbij de kwaliteit van een AI-systeem over tijd verslechtert. Deze module beschrijft hoe wij drift detecteren, meten en hierop reageren.

2. Typen Drift¶

Data Drift¶

Wat: De input die het systeem ontvangt verandert t.o.v. de data waarop het getraind/getest is.

Voorbeelden:

Nieuwe productcategorieën die niet in de kennisbank staan
Veranderd taalgebruik door klanten
Seizoensgebonden vraagpatronen

Signalen:

Toename van "weet ik niet" antwoorden
Vragen over onbekende onderwerpen
Veranderende vraagverdeling

Concept Drift¶

Wat: De relatie tussen input en gewenste output verandert, ook al blijft de input vergelijkbaar.

Voorbeelden:

Prijswijzigingen die niet in kennisbank zijn bijgewerkt
Nieuw beleid dat andere antwoorden vereist
Veranderende klantverwachtingen

Signalen:

Correcte antwoorden worden als incorrect beoordeeld
Toename van klachten ondanks gelijke testresultaten
Gap tussen validatie en productie-feedback

Drift¶

Wat: Het model zelf verandert (bij updates door provider) of degradeert.

Voorbeelden:

Provider update naar nieuw model
Veranderingen in API-gedrag
Fine-tuned model verliest kwaliteit

Signalen:

Plotselinge verandering in outputstijl
Veranderde latency of tokengebruik
Regressie op eerder werkende scenario's

Aanname-drift¶

Wat: De aannames waarop het AI-systeem is gebouwd kloppen niet meer door veranderingen in de omgeving, het gebruik of de regelgeving.

Voorbeelden:

Gebruikersvolume groeit voorbij de aangenomen capaciteit
Datadistributie verschuift t.o.v. de oorspronkelijke aanname
Nieuwe regelgeving (bijv. EU AI Act-handhaving) maakt de huidige aanpak non-compliant
Kosten schalen anders dan aangenomen

Signalen:

Discrepantie tussen aangenomen en werkelijk gebruikersprofiel
Kostenoverschrijding zonder verandering in functionaliteit
Compliance-bevindingen bij audits

Actie: Herbeoordeel de aannames in de Doelkaart (sectie E) bij elke kwartaalreview of na significante wijzigingen in het operationele landschap.

3. Detectiemethoden¶

Periodieke Golden Set Testing¶

Aanpak: Voer de Golden Set regelmatig uit op productie.

Risiconiveau	Frequentie	Omvang
Minimaal	Maandelijks	Steekproef (25%)
Beperkt	Wekelijks	Volledige set
Hoog	Dagelijks/Continue	Volledige set + extra

Wat meten we:

Feitelijkheid (% correct)
Relevantie (gemiddelde score)
Weigeringsgraad (adversarial)
Vergelijking met nulmeting

Real-time Monitoring¶

Aanpak: Monitor productie-interacties op signalen van drift.

Metrics om te monitoren:

Metric	Drempel voor alert
Foutpercentage	> 1.5x baseline
"Weet niet" antwoorden	> 2x baseline
Latency	> 2x baseline
Tokengebruik	> 1.5x baseline (kostenindicator)
Negatieve feedback	> 2x baseline

Gebruikersfeedback Analyse¶

Aanpak: Verzamel en analyseer feedback systematisch.

Feedbackkanalen:

Thumbs up/down in interface
Escalaties naar menselijke medewerkers
Klachten via andere kanalen
Correcties door gebruikers

4. Drempelwaarden¶

Gebaseerd op Bewijsstandaarden sectie 3.2:

Significant drift treedt op als:

Criterium	Drempel
Feitelijkheid	Daalt ≥ 2 procentpunten t.o.v. nulmeting
Relevantie (1-5)	Daalt ≥ 0.3 t.o.v. nulmeting
Major fouten	Stijgt ≥ 50% over 2 meetperioden
Kritieke fouten	> 0 = direct actie

Alertniveaus:

Niveau	Conditie	Actie
Groen	Binnen baseline	Normaal beheer
Geel	Tussen baseline en drempel	Verhoogde monitoring
Oranje	Drempel overschreden	Onderzoek + mitigatieplan
Rood	Kritieke fout of ernstige degradatie	Escalatie + mogelijk rollback

5. Responsprotocol¶

Bij Geel (Verhoogde Monitoring)¶

Verhoog meetfrequentie
Analyseer trend (is het stabiel of verslechterend?)
Identificeer mogelijke oorzaken
Documenteer bevindingen

Bij Oranje (Onderzoek)¶

Bij Rood (Escalatie)¶

Escaleer naar Tech Lead en Guardian
Overweeg rollback of tijdelijke uitschakeling
Activeer incidentproces
Communiceer naar gebruikers indien relevant
Documenteer voor lessons learned

6. Mitigatiestrategieën¶

Data Drift¶

Oorzaak	Mitigatie
Kennisbank verouderd	Update kennisbank, herindex
Nieuwe onderwerpen	Kennisbank uitbreiden
Veranderd taalgebruik	Prompts aanpassen, voorbeelden updaten

Concept Drift¶

Oorzaak	Mitigatie
Beleid gewijzigd	Prompts updaten
Verwachtingen veranderd	Doelkaart (goal card) herzien, specificatie update
Externe veranderingen	Harde Grenzen herzien

Drift¶

Oorzaak	Mitigatie
Provider update	Regressietest, prompts aanpassen
API-wijzigingen	Integratie updaten, fallback voorzien
Onverklaarbare degradatie	Contacteer provider, overweeg rollback

7. Nulmeting en Baseline¶

Nulmeting Vastleggen¶

Bij livegang leg je de nulmeting vast:

Metric	Waarde bij livegang	Drempel voor alert
Feitelijkheid	99.2%	\< 97.2%
Relevantie	4.4	\< 4.1
Major fouten	2/150	> 3/150
Latency (p95) (95e percentiel — 95% van alle verzoeken is sneller dan deze waarde)	1.8s	> 3.6s

Baseline Updaten¶

Na significante systeemwijzigingen
Na uitbreiding van kennisbank
Minimaal jaarlijks herzien

8. Monitoring Dashboard¶

Aanbevolen visualisaties:

Visualisatie	Doel
Trendlijn metrics	Feitelijkheid, relevantie over tijd
Heatmap vraagcategorieën	Identificeer problematische gebieden
Alert timeline	Overzicht van overschrijdingen
Vergelijking met baseline	Actueel vs nulmeting

9. Checklist Drift Monitoring¶

9. Checklist Drift Monitoring

Nulmeting is vastgelegd bij livegang
Periodieke Golden Set testing is ingepland
Real-time monitoring is actief
Drempelwaarden zijn geconfigureerd
Alerting is gekoppeld aan verantwoordelijken
Responsprotocol is gedocumenteerd en bekend
Feedbackkanalen zijn ingericht

10. Gerelateerde Modules¶

Volgende stap: Richt het monitoring-dashboard in en definieer drempelwaarden voor uw productie-omgeving → Zie ook: Metrics & Dashboards

Was deze pagina nuttig? Geef feedback