Methoden voor het anonimiseren van kwalitatieve data

Neem voor vragen contact op met de Privacy Officer (PO). Op MyEUR vind je de contactgegevens van je facultaire PO.

Dingen om over na te denken voordat je data verzamelt

Een van de beste manieren om de privacy van onderzoeksdeelnemers te beschermen, is bepaalde identificeerbare informatie helemaal niet te verzamelen. Houd bij het plannen van je onderzoek rekening met dataminimalisatie. Vraag bijvoorbeeld tijdens een opgenomen interview niet naar de volledige namen van onderzoeksdeelnemers.

Als onderdeel van onderzoeksinformatie mogen persoonsgegevens nooit openbaar gemaakt worden, tenzij een deelnemer daarvoor toestemming heeft gegeven, bij voorkeur schriftelijk. Zie voor meer informatie over het verkrijgen van toestemming deze link.

Bij gebrek aan toestemming moeten de data die je verstrekt anoniem zijn. Anonimisering kan het beste vroeg in het onderzoeksproces worden gepland om de anonimiseringskosten te helpen verminderen. Opgemerkt moet worden dat het overmatig verwijderen van informatie in kwalitatieve data zoals tekst- of audio-/video-opnamen kan leiden tot vervorming van data, waardoor ze onbruikbaar, onbetrouwbaar of misleidend worden. Om een evenwicht te vinden tussen privacybescherming en het nuttig houden van data, moet anonimisering worden overwogen naast geïnformeerde toestemming en toegangscontroles.

Het vooraf plannen en overeenkomen met deelnemers tijdens het toestemmingsproces, over wat wel en niet mag worden opgenomen of getranscribeerd, kan een veel effectievere manier zijn om data te creëren die het onderzoeksproces en de bijdrage van deelnemers nauwkeurig weergeven. Als bijvoorbeeld de naam van een werkgever niet bekend mag worden gemaakt, dient vooraf te worden afgesproken dat deze niet wordt genoemd tijdens een interview. Dit is gemakkelijker dan tijd besteden aan het later verwijderen van een naam uit de opname of transcriptie.

Persoonsgegevens bevatten informatie die direct of indirect een natuurlijke persoon identificeert (voor definities en voorbeelden zie deze link). Over het algemeen moeten directe identifiers en sterke indirecte identifiers worden verwijderd of vervangen door pseudoniemen. Indirecte identifiers kunnen worden verwijderd of gecategoriseerd. In het geval van kwalitatieve data betekent categoriseren het verruwen van identificerende informatie. Dit betreft indirecte identificatoren als: Postcode, Wijk/Stadsdeel, Woongemeente, Regio, Gemeentetype, Geboortejaar, Leeftijd, Huishoudensamenstelling, Beroep, Opleiding, Moedertaal, Nationaliteit, Werkplek/Werkgever, Misdaad of straf , Vertrouwenspositie of lidmaatschap + alle bijzondere persoonsgegevens.

Best practices voor pseudonimisering/anonimisering van kwalitatieve data

Anonimisering van audiovisuele data, zoals het bewerken van digitale afbeeldingen of audio-opnamen, moet zorgvuldig gebeuren. Het weglaten van echte namen of plaatsnamen is acceptabel, maar het verbergen van stemmen door de toonhoogte in een opname te wijzigen, of het verbergen van gezichten door delen van een videobeeld aanzienlijk te pixeliseren, vermindert de bruikbaarheid van data. Deze processen zijn ook zeer arbeidsintensief en duur.

Als de vertrouwelijkheid van audiovisuele data een probleem is, is het beter om de toestemming van de deelnemer te verkrijgen om de data ongewijzigd te gebruiken en te delen. Waar anonimisering zou leiden tot te veel verlies van data-inhoud, kan het reguleren van de toegang tot data een betere strategie zijn.

  • Plan anonimisering (en experimenteer met een paar bestanden) op het moment van transcriptie of eerste artikel (longitudinale studies kunnen een uitzondering zijn als relaties tussen interviewgolven speciale aandacht nodig hebben voor geharmoniseerde bewerking).
  • Gebruik pseudoniemen of generieke omschrijvingen om identificerende informatie te bewerken, in plaats van die informatie onleesbaar te maken.
  • Gebruik pseudoniemen of vervangingen die consistent zijn in het hele onderzoeksteam en het project. Bijvoorbeeld dezelfde pseudoniemen gebruiken in publicaties en vervolgonderzoek.
  • Identificeer vervangingen in tekst duidelijk, bijvoorbeeld met [haakjes] of gebruik XML-tags zoals <seg>te anonimiseren woord</seg>.
  • Gebruik 'zoek-en-vervang'-technieken zorgvuldig, zodat er geen onbedoelde wijzigingen worden aangebracht en verkeerd gespelde woorden niet worden gemist.
  • Bewaar onbewerkte versies van data (maar bewaar deze apart) voor gebruik binnen het onderzoeksteam en voor archivering (voor personen die zowel de onbewerkte versie als de geanonimiseerde versie hebben, zijn de data gepseudonimiseerd).
  • Maak een pseudonimiseringssleutel (ook wel anonimiseringslogboek genoemd) van alle uitgevoerde vervangingen, aggregaties of verwijderingen en bewaar een dergelijk logbestand veilig en gescheiden van de geanonimiseerde databestanden.

  1. Zoek en markeer directe identifiers door het transcript te lezen.
  2. Beoordeel indirecte identifiers:
    • Kan de identiteit van een deelnemer achterhaald worden uit informatie in het databestand?
    • Kan een derde partij worden onthuld of schade worden berokkend door informatie in het databestand?
  3. Beoordeel het bredere plaatje:
    • Welke identificerende informatie over een individuele deelnemer kan worden opgemaakt uit alle gegevens en documentatie waarover een gebruiker beschikt. Verwijder (of pseudonimiseer) directe identifiers.
  4. Bewerk of categoriseer (in)directe identifiers.
  5. Beoordeel het resterende openbaarmakingsrisico opnieuw.

Tips en tricks

De UK Data Service heeft een hulpprogramma voor tekstanonimisering ontwikkeld met installatie-instructies. Het gebruikt MS Word-macro's voor het helpen anonimiseren van kwalitatieve data. De tool anonimiseert of wijzigt data niet, maar vindt en markeert cijfers en woorden die beginnen met hoofdletters in de tekst. Cijfers en woorden met hoofdletters zijn vaak onthullend, het kunnen namen, bedrijven, geboortedata, adressen, onderwijsinstellingen en landen zijn.

CESSDA heeft een gedetailleerd voorbeeld/oefening van het anonimiseren van een transcript onderaan deze pagina.

Op de pagina van het Finse Social Science Data Archive vind je praktische tips en een gedetailleerde gids met technieken voor het anonimiseren van kwalitatieve data (die ook kan worden gebruikt als anonimisering slechts tot op zekere hoogte mogelijk is).

UK Data Service heeft een hele pagina met best practices voor het transcriberen van audiovisuele data. Als je besluit (of overweegt) om externe transcribenten of software voor automatische spraakherkenning (ASR) te gebruiken om een eerste transcriptie uit te voeren, neem dan contact op met je Privacy Officer om te bespreken of en welke overeenkomsten moeten worden ondertekend (vóór het gebruik van de software). .

Het advies op deze pagina is samengesteld op basis van de informatie van de UK Data Service, CESSDA en het Finse Social Science Data Archive.

Met de open-source tekstanonimiseringssoftware Textwash kunnen onderzoekers die de basis van Python kennen, automatisch potentiële identifiers in Engelstalige tekst detecteren en vervangen. Meer informatie is te vinden in dit artikel van Kleinberg en collega's (2022) en op de GitHub-pagina van het project. Voortbouwend op Textwash, zal de tool FAMTAFOS een gebruiksvriendelijke desktop-app bevatten waarmee gebruikers Engelse en Nederlandse teksten op schaal kunnen anonimiseren (verwachte release in het voorjaar van 2023).

Deze pagina is voor het laatst bijgewerkt in januari 2023. Heb je niet-werkende links of (schijnbaar) onjuiste informatie gevonden? Stuur dan een e-mail met als titel 'Website content' naar datasteward@eur.nl.

Vergelijk @count opleiding

  • @title

    • Tijdsduur: @duration
Vergelijk opleidingen