Methoden voor het anonimiseren van kwantitatieve data

Neem voor vragen contact op met de Privacy Officer (PO). Op MyEUR vind je de contactgegevens van je facultaire PO.

Dataminimalisatie

Minimaliseer de hoeveelheid persoonlijke gegevens die je moet verzamelen. Wat je niet hebt, hoef je niet weg te halen of apart op te bergen. Er moet een duidelijke, gespecificeerde noodzaak zijn voor het verzamelen van persoonsgegevens. Je kunt als onderzoeker aangeven waarom bepaalde persoonsgegevens verzameld moeten worden en waarom deze relevant zijn voor jouw onderzoek. Bedenk al in de planningsfase van je project welke achtergrondinformatie van onderzoeksdeelnemers je nodig hebt en hoe gedetailleerd deze informatie moet zijn.

Voor meer informatie over het minimaliseren van data, voor zowel kwantitatief als kwalitatief onderzoek, zie de pagina’s van het Finnish Social Science Data Archive.

Anoniem van opzet

Indien het mogelijk is om het onderzoek te doen zonder dat er persoonsgegevens worden verwerkt, is de AVG niet van toepassing. Want als data niet aan een persoon kunnen worden gekoppeld, is er geen risico dat een persoon schade wordt berokkend.

Bij gebruik van data die zijn verzameld door organisaties als het CBS of het Centerdata LISS-panel, zullen data meestal anoniem worden verstrekt. Ook de nationale onderzoeksinfrastructuur voor de sociale wetenschappen in Nederland (ODISSEI: Open Data Infrastructure for Social Science and Economic Innovations) biedt mogelijkheden om data veilig te hergebruiken.

Hieronder vind je een lijst met voorbeelden, maar houd er rekening mee dat deze lijst niet volledig is en ook geen garantie voor succes biedt:

  • Het is moeilijker om data van een kleine of beknopte groep te anonimiseren, daarom is het beter om een brede steekproef te nemen. Houd er rekening mee dat als je data verzamelt van een specifieke regio/gebied of organisatie, dat ook als een identifier wordt beschouwd.
  • Vraag alleen algemene demografische gegevens of achtergrondinformatie, dit maakt het moeilijker om individuen binnen de dataset te onderscheiden. Vraag bij voorkeur naar algemene in plaats van precieze achtergrondinformatie (bijvoorbeeld leeftijdscategorieën in plaats van exacte leeftijd of geboortedatum) en gebruik gesloten vragen.
  • Gebruik gesloten vragen over meningen, gevoelens, persoonlijke situaties en dergelijke. Bij open vragen heb je minder controle over wat de deelnemers opschrijven (je weet pas of het anoniem is nadat je de antwoorden hebt ontvangen). Voor het geval je open vragen nodig hebt:
    • Instrueer de deelnemers duidelijk wat ze moeten schrijven (of wat ze niet moeten schrijven).
    • Controleer en anonimiseer de antwoorden indien nodig (zie 'Best practices' hieronder of verwijder gewoon de persoonsgegevens).
  • Informeer en vraag toestemming van deelnemers zonder persoonsgegevens te vragen (zie voorbeeld van de Radboud Universiteit hier).
  • Controleer de instellingen van de enquêtetool; de tool mag niet meer data verzamelen dan nodig is en de link naar de enquête moet anoniem zijn (zie instructies voor Qualtrics hier of op de Qualtrics-website hier).
  • Houd er rekening mee dat als je een platform gebruikt om de gegevens te verzamelen, de data mogelijk anoniem voor jou zijn, maar mogelijk niet voor het platform. Gebruik alleen door de EUR goedgekeurde platforms voor dataverzameling om er zeker van te zijn dat er een overeenkomst is tussen de EUR en het platform over het omgaan met de data.
  • Controleer nogmaals of de data ook voor anderen anoniem zijn voordat je de data vrijgeeft in een repository.

Een andere manier om de naleving van de regels voor gegevensbescherming te garanderen, is toestemming van onderzoeksdeelnemers te verkrijgen voor het gebruik en de uitwisseling van hun (persoons)gegevens. Zie voor meer informatie over het verkrijgen van toestemming de EUR informed consent sjablonen.

Best practices voor het anonimiseren van kwantitatieve data

De UK data service en CESSDA ERIC bieden een lijst met best practices die kunnen worden gebruikt om kwantitatieve data te anonimiseren:

  • Directe identifiers uit een dataset verwijderen. Bewaar de verwijderde identifiers indien nodig apart. Houd er rekening mee dat als de verwijderde identifiers worden bewaard, de gegevens gepseudonimiseerd maar nooit anoniem zijn.
  • Aggregeer of verminder de precisie van een variabele (bijvoorbeeld voor variabelen zoals leeftijd, woonplaats, geolocaties).
  • Generaliseer de betekenis van een gedetailleerde tekstvariabele (van open vragen met vrije tekst).
  • Beperk het bovenste of onderste bereik van een continue variabele om uitzonderlijke gevallen binnen de dataset te verbergen (bijvoorbeeld voor variabelen zoals leeftijd en inkomen).

Op de website van het Finnish Social Science Data Archive vind je een gedetailleerde gids voor anonimiseringstechnieken voor kwantitatieve data, inclusief veel voorbeelden.

Statistische methoden voor anonimisering

Een veelgebruikte techniek om data te anonimiseren is k-anonimiteit. Het idee is om variabelen te generaliseren om het risico van heridentificatie van individuen of groepen van individuen te minimaliseren. Een dataset is k-anoniem als een individu in de dataset niet kan worden onderscheiden van ten minste k-1 individuen in dezelfde dataset met behulp van dezelfde set identifiers. Voor elke combinatie van waarden van de (indirecte) identifiers zijn er dus minstens k individuen met dezelfde waarden (Machanavajjhala et al. 2007). Soms kan k-anonimiteit de detectie van gevoelige informatie op basis van achtergrondkennis en gebrek aan diversiteit in de k-geanonimiseerde dataset niet voorkomen. Een oplossing is om het criterium van l-diversiteit te overwegen, wat een manier is om te zorgen voor voldoende diversiteit in de waarden van gevoelige informatie om openbaarmaking te voorkomen. Zie voor meer informatie de website van het Finse Social Science Data Archive en dit artikel van Machanavajjhala en collega's (2007).

Als je R gebruikt, zijn er pakketten beschikbaar die kunnen worden gebruikt voor anonimisering:

  • sdcMicro is een R-package geschikt voor het anonimiseren van grote datasets. Zie voor meer informatie dit artikel van Templ en collega's (2015)
  • Synthpop is een R-package voor het creëren van synthetische data, waarbij de originele data wordt vervangen om openbaarmaking te voorkomen terwijl de statistische kenmerken van de data behouden blijven. Zie voor meer informatie dit artikel van Nowok en collega's (2016)

Deze pagina is voor het laatst bijgewerkt in januari 2023. Heb je niet-werkende links of (schijnbaar) onjuiste informatie gevonden? Stuur dan een e-mail met als titel 'Website content' naar datasteward@eur.nl.

Vergelijk @count opleiding

  • @title

    • Tijdsduur: @duration
Vergelijk opleidingen