Ga naar inhoud

AI Safety ChecklistΒΆ

Doel

Gestructureerde veiligheidschecklist over vier dimensies (training, ingebruikname, monitoring, governance) voor gebruik bij elke Gate Review.

Gestructureerde veiligheidschecks over vier dimensies: training, ingebruikname, monitoring en governance. Gebruik deze checklist bij elke Gate Review voor Hoog Risico en Beperkt Risico systemen.

Risico-proportioneel gebruik

Minimaal Risico systemen: voer sectie 4 (Governance) uit. Beperkt Risico: sectie 2 + 4. Hoog Risico: alle vier secties verplicht.


Sectie 1 β€” Trainings- & DataveiligheidΒΆ

Relevant bij zelf-getrainde modellen of fine-tuning. Sla over bij pure API-gebruik van foundation models.

Check Status Notitie
Trainingsdata geëvalueerd op schadelijke content ☐
Bias gedetecteerd en gedocumenteerd in trainingsdata ☐
Persoonsgegevens in trainingsdata geminimaliseerd of gepseudonimiseerd ☐
Datasources gedocumenteerd (herkomst, licentie, datums) ☐
Adversarial voorbeelden opgenomen in trainingsset ☐
Modelgewichten veilig opgeslagen (toegangscontrole, versiebeheer) ☐

Sectie 2 β€” Ingebruikname SafetyΒΆ

Check Status Notitie
Input-filtering geconfigureerd (blokkeer verboden inputs) ☐
Output-filtering geconfigureerd (blokkeer verboden outputs) ☐
Harde Grenzen gedocumenteerd en technisch afgedwongen ☐
Rate limiting ingesteld (misbruikpreventie) ☐
Circuit Breaker geconfigureerd (zie Incident Respons) ☐
Least-privilege toegang: systeem heeft minimale benodigde rechten ☐
Systeemprompt beschermd tegen extractie ☐
Gebruikers zijn geïnformeerd dat ze met AI interageren (transparantieplicht) ☐
Human-in-the-loop mechanisme operationeel voor beslissingen met impact ☐
Exit-procedure voor gebruikers gedocumenteerd (escalatie naar mens) ☐

Sectie 3 β€” Monitoring SafetyΒΆ

Check Status Notitie
Logging van inputs en outputs actief (met retentiebeleid) ☐
Kwaliteitsmonitoring actief (drempelwaarden ingesteld) ☐
Drift-detectie geconfigureerd (zie Drift Detectie) ☐
Fairness-metrics gemonitord (indien meerdere gebruikersgroepen) ☐
Anomalie-detectie op gebruik (ongebruikelijke patronen, misbruik) ☐
Alerting naar verantwoordelijke bij drempeloverschrijding ☐
Procedure voor schadelijke output-meldingen door gebruikers ☐
Periodieke steekproef-review van outputs ingepland ☐

Sectie 4 β€” Governance SafetyΒΆ

Check Status Notitie
Guardian aangesteld en actief betrokken ☐
Safety review uitgevoerd bij elke Gate ☐
Red Teaming uitgevoerd (Hoog/Beperkt Risico) ☐
Incidentrespons-procedure gedocumenteerd en getest ☐
Verantwoordelijke voor het systeem benoemd (accountable owner) ☐
Model Card up-to-date met bekende limieten en risico's ☐
Periodieke hercertificatie ingepland (min. jaarlijks voor Hoog Risico) ☐
EU AI Act compliance-status gedocumenteerd ☐

Constitutional AI β€” Richtlijnen voor Autonome SystemenΒΆ

Bij Samenwerkingsmodus 4 en 5 (systeem handelt autonoom) gelden aanvullende Constitutional AI-principes:

De drie kernprincipesΒΆ

1. Harmlessness β€” Geen schade Het systeem vermijdt acties die schade kunnen toebrengen aan gebruikers, derden of de organisatie. Definieer expliciet welke acties verboden zijn, ongeacht instructie.

2. Honesty β€” Geen misleiding Het systeem communiceert transparant over zijn capaciteiten, onzekerheden en beperkingen. Het verzint geen feiten, geeft aan wanneer het iets niet weet.

3. Helpfulness β€” Relevante assistentie Het systeem probeert oprecht behulpzaam te zijn binnen de gedefinieerde scope. Weigering is altijd verantwoord met een alternatief.

Implementatie-checklist voor autonome systemenΒΆ

Vereiste Status
Actieradius technisch begrensd (welke systemen/acties zijn toegankelijk) ☐
Verboden acties expliciet gedocumenteerd (niet alleen impliciet verwacht) ☐
Maximale impact per actie begrensd (bijv. maximale transactiewaarde) ☐
Self-critique mechanisme: systeem toetst eigen output vóór uitvoering ☐
Menselijke goedkeuring vereist boven gedefinieerde impactdrempel ☐
Audit trail van alle autonome acties (onveranderbaar) ☐
Explainability: systeem kan zijn beslissing toelichten op verzoek ☐

Safety ScoreΒΆ

Tel het aantal afgevinkte items per sectie en bereken de veiligheidsscore:

Sectie Afgevinkt Totaal %
1 β€” Trainings- & Dataveiligheid 6
2 β€” Ingebruikname Safety 10
3 β€” Monitoring Safety 8
4 β€” Governance Safety 8
Totaal 32

Minimale drempel voor livegang:

  • Hoog Risico: β‰₯ 90% (β‰₯ 29/32)
  • Beperkt Risico: β‰₯ 75% (β‰₯ 24/32, sectie 1 optioneel)
  • Minimaal Risico: sectie 4 volledig

Gerelateerde ModulesΒΆ