Hoofdstuk 40 Open data

In dit hoofdstuk wordt besproken:

eigendom van data
data anonimiseren
metadata
FAIR data.

Deze stof wordt behandeld in de volgende Open Universiteitscursus(sen):

Onderzoekspracticum bachelor thesis (PB9966)
Onderzoekspracticum scriptieplan (PM9514)

In de wetenschap is het steeds meer gebruikelijk om datasets openbaar te maken zodat andere wetenschappers ze kunnen gebruiken. Dit vloeit onder andere voort uit het transparantieprincipe van de Nederlandse gedragscode wetenschappelijke integriteit (zie het hoofdstuk Wetenschappelijke integriteit) en de UNESCO aanbeveling voor open science (zie het hoofdstuk Open science). In dit hoofdstuk lees je hoe het openbaar maken van datasets in zijn werk gaat.

40.1 Eigendom van data

Voordat je data openbaar maakt, is het goed om te weten hoe het auteursrecht van zo’n dataset geregeld is. Dat wordt hier kort toegelicht.

Wanneer je een verhaal schrijft, of een computerprogramma, dan is dat jouw intellectueel eigendom: je bezit auteursrecht op dat product. Door expliciet een andere licentie te specificeren, kun je regelen welke rechten anderen hebben. Het is dus begrijpelijk dat wanneer er data worden verzameld, dat organisaties die data dan soms in eerste instantie als hun eigendom zien – begrijpelijk, maar fout. De wens om eigenaar van data of andere wetenschappelijke producten te zijn, staat haaks op de Nederlandse gedragscode wetenschappelijke integriteit en op de openscience-principes. Bovendien geldt voor datasets geldt dat die geen eigendom kunnen zijn van de organisatie(s) of onderzoeker(s) die die data hebben verzameld. Dat zit zo.

Als datasets niet zijn geanonimiseerd, bestaan ze uit persoonsgegevens. Persoonsgegevens zijn onvervreemdbaar eigendom van de betreffende persoon. Een onderzoeker of organisatie kan dus nooit eigendom van zo’n dataset claimen, maar mag hoogstens de betreffende gegevens tijdelijk verwerken.

Als datasets wel zijn geanonimiseerd, bestaan ze uit feiten. Feiten zijn gedefinieerd als bestaande in het publieke domein. Hier kan dus ook geen auteursrecht of intellectueel eigendom over worden geclaimd. Hoogstens kan een organisatie zich beroepen op het databankenrecht, maar als het om wetenschappelijk onderzoek gaat, kan dat niet vanwege de Nederlandse gedragscode wetenschappelijke integriteit en de openscience-principes.

Voor meer detail over het auteursrecht rondom datasets zie het hoofdstuk Intellectueel eigendom. Voor nu is de belangrijkste les dat geanonimiseerde data van iedereen zijn. Als wetenschapper moet je dus twee dingen doen: data goed anonimiseren en vervolgens openbaar maken.

40.2 Data anonimiseren

Persoonsgegevens worden terecht goed beschermd door wetgeving. In de Europese Unie is in 2016 een wet van kracht geworden, de Algemene verordening gegevensbescherming (AVG, of General Data Protection Regulation, GDPR), die dit regelt voor alle Europese burgers. De AVF wordt uitgebreid besproken in het hoofdstuk Algemene verordening gegevensbescherming.

Persoonsgegevens zijn gegevens over identificeerbare persoon. De zin ‘Gjalt-Jorn Peters is 175 centimeter lang.’ bevat bijvoorbeeld twee persoonsgegevens: de naam Gjalt-Jorn Peters en zijn lengte, 175 centimeter. De zin ‘Iemand is 175 centimeter lang.’ bevat geen persoonsgegevens. Deze 175 centimeter gaat niet over een identificeerbare persoon. Deze tweede zin is dus een geanonimiseerde versie van de eerste zin. Het anonimiseren van datasets bestaat dus uit het verwijderen of veranderen van data zodat de data niet langer over identificeerbare personen gaan.

In het hoofdstuk Algemene verordening gegevensbescherming wordt uitgebreid besproken hoe je data kunt anonimiseren.

40.3 Metadata

Het is belangrijk om de juiste metadata toe te voegen als je data openbaar maakt. Metadata zijn data over data. Bij een wetenschappelijke dataset is bijvoorbeeld informatie over wanneer de data zijn verzameld metadata. De namen van de onderzoekers zijn ook metadata. Ook informatie over hoe data worden verzameld, kun je zien als metadata. Dan is bijvoorbeeld een pdf met de vragenlijst die een onderzoek gebruikt ook metadata.

Metadata zijn ideaal bezien ‘machine-readable’. Dat betekent dat ze worden opgeslagen volgens een conventie die het mogelijk maakt voor computers om ze in te lezen. Een beschrijving van de auteurs van een studie, de datums waarop de data zijn verzameld, en de plaatsen waar de data zijn verzameld in een .docx, .odt of .pdf bestand zijn voorbeelden van metadata die wel ‘human-readable’ zijn, maar niet machine-readable. Als diezelfde gegevens in een ander formaat worden opgeslagen, bijvoorbeeld in een zogenaamd .xml of .json bestand, en de data worden opgeslagen conform een conventie voor metadata, dan kunnen de data automatisch worden geïmporteerd door een computer en zijn ze dus machine-readable.

Bij metadata is het belangrijker dat de metadata beschikbaar zijn, dan of ze machine-readable zijn. Als je niet goed weet hoe je metadata machine-readable kunt bijvoegen, is het dus beter om deze in een .docx, .odt of .pdf bestand bij te voegen dan helemaal niet.

Overigens kunnen er soms ook metadata in datasets worden opgeslagen. Dit zijn bijvoorbeeld de labels voor de variabelenamen of voor de mogelijke meetwaarden. Deze metadata hebben dan meestal betrekking op specifieke datareeksen en datapunten, maar niet op de oorsprong (‘provenance’) van de data in het algemeen.

40.4 FAIR data

Bij het openbaar maken van data is het belangrijk om aandacht te besteden aan de FAIR-principes. Deze principes stellen dat data, om optimaal nuttig te zijn, Findable, Accessible, Interoperable en Reusable moeten zijn.

Om data findable te maken, moet je twee dingen doen. Je moet de data voorzien van metadata die de data beschrijven (zie de vorige sectie) en je moet de data ergens neerzetten waar die gevonden kan worden. Als je de data alleen op een server van de Open Universiteit zet, zijn de data niet findable. Gebruik in plaats daarvan repositories zoals het Open Science Framework of Dataverse, waar ook andere wetenschappers naar data kunnen zoeken. Bovendien betekent dit dat je de data goed moet omschrijven, zodat andere wetenschappers ze kunnen vinden door te zoeken op gerelateerde zoektermen.

Om data accessible te maken, moet je duidelijk maken op welke manier de data toegankelijk zijn. De makkelijkste manier is om te zorgen dat de data eenvoudig kunnen worden gedownload. Bovendien moeten data worden opgeslagen in open bestandsformaten (zie het hoofdstuk Data).

Om data interoperable te maken, moeten deze zoveel mogelijk machine-readable zijn: de data moeten zijn opgeslagen in een bestandsformaat met een duidelijke structuur, het liefst met kolommen die begrepen kunnen worden door computers. Dit wordt bereikt door zoveel mogelijk aan te sluiten bij bestaande ontologieën. Voor psychologisch onderzoek is dat vaak niet eenvoudig, waardoor niet altijd goed voldaan kan worden aan dit aspect van FAIR data.

Om data reusable te maken, is het belangrijk om expliciet aan te geven dat mensen de data mogen hergebruiken. Niet iedereen weet dat data (persoonsgegevens uitgezonderd) geen eigendom kunnen zijn van personen, universiteiten of andere organisaties.