3½. Bootstrapping

Voordat we doorgaan naar de climax van het verhaal toch nog een klein intermezzo: bootstrapping! Boot-wat? Boot-waarom? Een betrouwbaar wetenschappelijk verhaal is gebaseerd op betrouwbare data, dat klinkt logisch. Maar hoe betrouwbaar is betrouwbaar? Om de betrouwbaarheid van data aan te geven zie je soms error bars en soms betrouwbaarheidsintervallen op datapunten. Voorbeeld: In het laatste figuur van deel 2 (de polymerasesnelheid versus kracht) steken aan weerszijde van elk datapunt horizontale balkjes uit die eindigen met een balkje dat daar haaks op staat. Dit zijn error bars en ze geven aan waar het datapunt met nog een vrij grote waarschijnlijkheid ook zou kunnen liggen. Horizontaal betekent dat we het over de x-as hebben, ofwel de onzekerheid in de kracht die we uitoefenen.*

Virtueel de meting herhalen. Dataset x (blauw) en een gebootstrapte set r1 (rood), de verdelingen lijken erg op elkaar maar willekeurigheid maakt ze niet identiek.

Stel nu je hebt een dataset met een bepaalde verdeling, zoals ik in punt 2½ had. Hoe betrouwbaar is deze dataset? Moet ik dan nog een aantal keer opnieuw die 15417 punten bij elkaar meten en kijken wat de variatie is die ik krijg? Dat zou wel eens lang kunnen gaan duren. In veel gevallen is dit zelfs niet te doen. Enter bootstrapping. Waarom het beestje deze naam gekregen heeft zal me een raadsel zijn en google heeft hier vast een antwoord op, maar mooi en belangrijk is weten hoe het werkt.

Je hebt dus een dataset x bestaande uit N datapunten, 15417 in dit geval. Met een softwarepakket naar keuze maak je een nieuwe dataset aan r1, dat eveneens N datapunten heeft. De waarde van elk individueel datapunt in r1 haal je random (willekeurig dus) uit je originele dataset x. Vraag: Is r1 dan anders dan x, behalve dat de cijfers misschien in andere volgorde staan? Het antwoord: x en r1 lijken erg op elkaar, maar zullen door die willekeurige selectie van datapunten net iets van elkaar verschillen. Dit is waarom: waarden van x die gemiddeld vaker voorkomen (zoals punten in de buurt van de piek van de verdeling) hebben statistisch gezien een grotere kans om willekeurig gekozen te worden, omdat ze nou eenmaal vaker voorkomen. Waarden die minder vaak voorkomen (de punten in de staart van de verdeling zoals het maximum van x (98.8 seconden, weet je nog?)) komen minder vaak voor en zullen daardoor minder snel de kans krijgen om deel uit te maken van r1. Is dit eerlijk? Geeft dit een goed beeld van hoe betrouwbaar de oorspronkelijke verdeling eruit ziet? Nog niet. Maar hier is de truc: de kracht zit hem in de herhaling. Je maakt niet alleen r1 op deze manier, maar ook r2, r3 enzovoorts, tot r1000 of iets van die ordegrootte ongeveer. Alle r‘s zullen erg lijken op x, maar net niet helemaal. Alle r‘s lijken op elkaar, maar ook net niet helemaal. Willekeurigheid zal zorgen voor een bepaalde spreiding in de data die smal is als de waarde vaak voorkomt en – je raadt het al – groter is als de waarde weinig voorkomt. Uit deze spreiding kun je halen wat je wil: gemiddeldes, standaarddeviaties, betrouwbaarheidsintervallen: het is er allemaal, dit is dus de kracht van de bootstrap.

10 bootstraps maakt al meer van die variatie duidelijk…
… en 1000 nog meer. Een kleine uitdaging voor een computer.

Uitgebootstrapt? De grande finale is in zicht.


* Hoezo bestaat er een onzekerheid in uitgeoefende kracht? Omdat de magnetische balletjes/beads niet allemaal evenveel magnetisch materiaal bevatten, eerder onderzoek heeft aangetoond dat dit leidt tot een variatie die kan oplopen tot 10%.

Leave a Reply

Your email address will not be published. Required fields are marked *