Bruikbare data

Het delen van data met anderen heeft pas zin als de data ook snel en makkelijk hergebruikt kunnen worden. Met een aantal simpele maatregelen kun je de bruikbaarheid van je data voor anderen vergroten.
Deze maatregelen zijn:

  • zorg dat je data ‘tidy’ zijn
  • documenteer je data
  • gebruik zoveel mogelijk open dataformats

Zorg dat je data ‘tidy’ zijn
Bruikbare data zijn allereerst data die gemakkelijk bewerkt en verwerkt kunnen worden, dat wil zeggen snel en eenvoudig kunnen worden:

  • geïmporteerd door datamanagementsystemen;
  • geanalyseerd door analyse-software;
  • gecombineerd met andere data, en;
  • gevisualiseerd.

Voor tabellarische data gaat dit op als de structuur van de tabel ‘tidy’ is, dat wil zeggen dat:

  • iedere kolom (veld) één variabele (parameter) vertegenwoordigt;
  • iedere rij (record) in de tabel één observatie behelst;
  • iedere cel slechts één waarde bevat, en;
  • er een tabel is voor elk informatietype.

“The problem is that people like to view data in a totally different way than a computer likes to process it.” (Kien Leong)

‘Messy’ data zijn het tegenovergestelde van tidy data. Er zijn diverse tools om messy data tidy te maken, bijvoorbeeld OpenRefine. De R-software bevat voor dit doel het pakket tidyr.

Documenteer je data
Documentatie van (tabellarische) data begint met het documenteren van de datatabel zelf. Gebruikelijk is dat de bovenste rij van de tabel de namen van de variabelen bevat. De namen van de variabelen dienen beschrijvend en duidelijk zijn. Voor de waarden in cellen geldt dat, indien mogelijk, standaardnamen (ontleend bijvoorbeeld aan een taxonomie) of -formats worden gebruikt. Een simpel voorbeeld van het laatste is het datumformat: JJJJ-MM-DD.

“Research outputs that are poorly documented are like canned goods with the label removed (…)” (Carly Strasser)

De documentatie van de dataset dient minimaal de volgende gegevens te vermelden:

  • de omvang van de dataset, dit is het aantal observaties en variabelen;
  • een duidelijke uitleg van de variabelen, hoe ze gemeten zijn en de meeteenheden (codeboek);
  • een beschrijving van de dataset waaronder de scope van de dataset;
  • de provenance (herkomst) en bewerkingen van de ruwe-dataset: hoe zijn de data verkregen of verzameld, welke onderzoeksmethodologie is gebruikt, welke apparatuur of instrumenten zijn gebruikt, welke bewerkingen (cleaning, organizing, analyzing, producing final outputs) hebben de data ondergaan? Tegenwoordig worden deze bewerkingen vaak uitgevoerd met behulp van software - R bijvoorbeeld - en bestaat de documentatie deels uit softwarescripts die bij de data bewaard dienen te blijven.

Een simpele readme-file kan vaak volstaan om de documentatie van een dataset te beschrijven. Soms is dat echter niet genoeg en is er eerder sprake van een ‘data guide’.

Last but not least: indien de dataset publiekelijk beschikbaar wordt gesteld, is het nuttig om met een (gebruiks)licentie aan te geven onder welke voorwaarden anderen de data mogen (her)gebruiken. Zogenaamde Creative Commonslicenties zijn speciaal voor dit doel ontwikkeld.

Gebruik open dataformats
Tidiness en documentatie van een dataset hebben betrekking op de bruikbaarheid van de dataset op zich. Het gebruik van open (non-proprietary) dataformats gaat over de ‘houdbaarheid’ van de data, dit is de bruikbaarheid van de data op de langere termijn. Kan de dataset over 20 jaar ook nog bewerkt en verwerkt worden? Door data op te slaan in eenvoudige en open dataformats – csv voor tabellarische data bijvoorbeeld – is dit gegarandeerd. Data-archieven die gericht zijn op het voor langere tijd bewaren van data, werken vaak om deze reden met voorkeur-dataformats.

Gebruik zo veel mogelijk dataformats die compatibel zijn met opslag in data-archieven.
Zie: de voorkeursformats van het 4TU.Centre of Research Data (PDF).