Voorbeelden van goede datasets, datakaarten en dergelijke

Wat verstaan we onder een goede dataset?

De kwaliteit van een dataset wordt bepaald door het doel of de vraagstelling van de onderwijsinstelling.
Bij de zoektocht naar geschikte data komt een aantal kenmerken vaak naar voren:
– Is de data al beschikbaar?
– Hebben wij, als onderwijsinstelling, de data zelf in huis?
– Is de data homogeen?
– Komt de data uit meerdere bronnen?
– Als de data uit meerdere bronnen komt, kunnen we die dan met elkaar koppelen.
– Is de data statisch of dynamisch (Statische data zijn bijvoorbeeld historische data die we uit onze kernregistratiesystemen kunnen halen. Dynamische data zijn bijvoorbeeld de studievoortgangsdata van een huidige student die dagelijks werk inlevert/ toetsen maakt enz.)?
– Zijn we op zoek naar zogenaamde harde data die vaak te vinden zijn binnen onze instellingen, zoals geslacht, geboortedatum, woonplaats, enz of zijn we geinteresseerd in zogenaamde zachte data die we kunnen vinden door het analyseren van teksten – formulieren, verslagen … In studentenvolgsystemen worden vaak diverse formulieren en verslagen opgeslagen waarin begeleiders, docenten en coaches de resultaten van studenten vastleggen, bijhouden en delen. Denk aan gespreksverslagen van studieloopbaan- en intakegesprekken, maar ook aan korte notities van telefoongesprekken in het geval van verzuim of veranderende resultaten.
– Als we gebruik maken van geagregeerde data zoals instellingen als het CBS, de DUO, enz. die vaak hanteren, is het niveau van aggregatie dan voor ons geschikt?
– Hebben we te maken met gestructureerde data die keurig in relationele databases liggen opgeslagen? Of hebben we te maken met ongestructureerde data zoals die te vinden zijn op twitter, facebook, websites, enz.

Kortom, voordat we toekomen aan de bepaling of een dataset “goed” is, zullen eerst de bovenstaande overwegingen een rol hebben gespeeld. En bij elke keuze horen vaak andere kwaliteitscriteria.

Tot slot zal de data-scientist ook zijn/haar rol spelen bij de bepaling van de kwaliteit van de data. Hierbij moet je denken aan:
begripsdefinities, meta-data, wat te doen met missing data, enz.

Als voorbeeld een datakaart met daarin een uitgebreide bronnenlijst inclusief gebruiksdoel.

Datakwaliteitsmanagementsysteem

De werkgroep Data Quality heeft een opzet gemaakt voor een datakwaliteitsmanagementsysteem, waarbij ISO 9001 als referentiekader is gebruikt. Het kan ook een Data Quality Framework worden genoemd.

Bron:

Aan de slag met de simulatiedataset

Wil je aan de slag met privacygevoelige studentdata? Daarvoor heeft de zone Studiedata een simulatiedataset ontwikkeld. De dataset is bedoeld voor universiteiten en bestaat uit synthetische studentdata. Deze data zijn gebaseerd op de echte data van een universiteit, maar zijn dusdanig afgeleid dat je ze niet meer terug kunt herleiden tot echte studenten. Door deze dataset te gebruiken kun je ook buiten je eigen instelling algoritmes en analyses delen zonder dat de privacy van je studenten in het geding komt.

Bron:

Datakwaliteit op orde brengen, hoe doe je dat?

Scholen willen steeds meer de kansen van het werken met data benutten. Wanneer je werkt met data, moet de data van goede kwaliteit zijn. Alleen dan zal het werken met data ook echt omarmt worden. Maar hoe zorg je daarvoor? Graag delen we in dit artikel (1) inzicht in wat datakwaliteit is en (2) bieden we een handige ‘cheatsheet’ om binnen je eigen school de kwaliteit op orde te brengen. Dit zijn opbrengsten van een werkgroep binnen de Datacoalitie Datagedreven Onderzoek MBO.

Bron:

Categorieën Ik wil aan de slag met data en zoek tips
Tags: Bron, Hoe
Reacties (0)
Geef een reactie