3½. Bootstrapping

Voordat we doorgaan naar de climax van het verhaal toch nog een klein intermezzo: bootstrapping! Boot-wat? Boot-waarom? Een betrouwbaar wetenschappelijk verhaal is gebaseerd op betrouwbare data, dat klinkt logisch. Maar hoe betrouwbaar is betrouwbaar? Om de betrouwbaarheid van data aan te geven zie je soms error bars en soms betrouwbaarheidsintervallen op datapunten. Voorbeeld: In het laatste figuur van deel 2 (de polymerasesnelheid versus kracht) steken aan weerszijde van elk datapunt horizontale balkjes uit die eindigen met een balkje dat daar haaks op staat. Dit zijn error bars en ze geven aan waar het datapunt met nog een vrij grote waarschijnlijkheid ook zou kunnen liggen. Horizontaal betekent dat we het over de x-as hebben, ofwel de onzekerheid in de kracht die we uitoefenen.*

Virtueel de meting herhalen. Dataset x (blauw) en een gebootstrapte set r1 (rood), de verdelingen lijken erg op elkaar maar willekeurigheid maakt ze niet identiek.

Stel nu je hebt een dataset met een bepaalde verdeling, zoals ik in punt 2½ had. Hoe betrouwbaar is deze dataset? Moet ik dan nog een aantal keer opnieuw die 15417 punten bij elkaar meten en kijken wat de variatie is die ik krijg? Dat zou wel eens lang kunnen gaan duren. In veel gevallen is dit zelfs niet te doen. Enter bootstrapping. Waarom het beestje deze naam gekregen heeft zal me een raadsel zijn en google heeft hier vast een antwoord op, maar mooi en belangrijk is weten hoe het werkt.

Continue reading “3½. Bootstrapping”