We zijn elke dag met data bezig. Of we nou benchmarken of werken aan de interne informatiehuishouding, onze beeldschermen zijn gevuld met worksheets en draaitabellen. Aan de achterkant draaien databases en webdiensten, intern en extern. Maar wat als we een stukje data missen dat we toch nodig hebben voor een goed advies? Een duik in de wereld van de statistiek.
Voordat we aan een oplossing denken moeten we de aard van de data goed begrijpen. Het is belangrijk om te begrijpen waarom een datapunt onbekend is. In de statistiek onderscheiden we drie categorieën van redenen waarom data ontbreekt:
- Volledig willekeurig ontbrekende data – als de kans dat een datapunt ontbreekt volledig willekeurig is. Een voorbeeld hiervan is een ingevulde enquête die verloren gaat in de post.
- Willekeurig ontbrekende data – als de reden van het ontbreken afhankelijk is van een andere factor. Een voorbeeld: in een enquête vergeten oudere mensen vaker een vraag in te vullen.
- Niet-willekeurig ontbrekende data – Hierbij is de reden dat we een stukje data missen, gerelateerd aan de waarde van dat stukje data. Voorbeeld: oudere mensen vullen minder graag vragen in over hun leeftijd. De data, in dit voorbeeld leeftijd, is hier de directe reden voor het ontbreken ervan. Dit laatste geval is een drama voor onderzoekers en niet eenvoudig op te lossen.
Als de ontbrekende data in één van de eerste twee categorieën vallen en we ons daarvan bewust zijn kunnen we prima onderzoek doen. Vervolgens is er een aantal manieren om de ontbrekende waarden in te schatten. Sommige technieken werken goed, sommige wat minder. De aanwezige data spelen een belangrijke rol in de selectie van de juiste techniek. Het is dus niet alleen maar rekenwerk maar ook een creatief proces om de data en de processen om de data te verkrijgen juist te interpreteren.
Een manier om snel verder te kunnen gaan is het negeren van alle incomplete data. Dat klinkt rigoureus, maar is in sommige gevallen een oplossing. De onderzoeker moet er wel zeker van zijn dat de ontbrekende data in de categorie ‘volledig willekeurig ontbrekend’ valt, anders worden er verkeerde conclusies getrokken.
Een eenvoudige manier om een inschatting van de ontbrekende waarden te maken is het vinden van een trend in de beschikbare data. Wanneer we een trend modelleren zijn we in staat om ontbrekende waarden te benaderen aan de hand van de trendlijn.
In de medische wereld is het niet ongebruikelijk om de methode Last Observation Carried Forward te gebruiken. Deze techniek wordt toegepast in data die periodiek worden gemeten en stelt simpelweg dat een ontbrekende waarde gelijk wordt gesteld aan de waarde die bij de vorige meting gevonden werd.
Meer dan een eeuw geleden presenteerde Ronald Fisher een methode om een statistisch model te voorspellen met de aanwezige data als input. Hier kunnen ontbrekende datapunten dus ook mee voorspeld worden. Deze methode, het inschatten van het meest aannemelijke, is een populaire en krachtige techniek in de statistiek.
De Rolls-Royce onder de technieken om met ontbrekende data te werken is multiple imputation. Hierbij wordt ieder ontbrekend datapunt op een passende manier ingeschat. Dat wordt vervolgens meerdere malen gedaan zodat men uiteindelijk drie tot vijf complete datasets heeft. Op alle datasets wordt statistische analyse uitgevoerd en de resultaten daarvan worden slim gecombineerd.
De wetenschap begint multiple imputation steeds meer te gebruiken en wordt tegenwoordig gezien als één van de beste technieken om met datasets om te gaan die niet volledig zijn. Implementaties in statistieksoftware maken het gebruik van moderne technieken steeds toegankelijker. Bij METRI onderbouwen we onze adviezen met de grote hoeveelheden data die we verzamelen. Door dat beetje extra uit de statistiek te halen voeg je soms net wat meer waarde toe.