2½. Dwelltimedistributies

Dacht je naar punt 3 door te kunnen, krijg je dit! Toch eerst maar even kijken wat ik precies bedoel met de dwelltimedistributies. Stel je hebt een dataset die alle verkregen dwelltimes van een experiment bevat, een lange lijst met tijden dus. De set die ik hier heb bestaat uit 15417 tijden verkregen door 60 trajecten op te knippen in stukken van 10 baseparen. Op die 10 baseparen kom ik aan het eind weer terug, nu eerst de tijden. Het minimum ligt bij 0.08 seconden: de polymerase vestigde een snelheidsrecord in dat stuk. De langste tijd – met andere woorden langste pauze – duurde 98.8 seconden. Alle andere 15415 punten liggen dus daar ergens tussenin. Je kijkt hoe de verdeling van tijden eruitziet door de data in een histogram te stoppen. Hierbij verdeel je die kleine 100 seconden in tijdsintervallen van gelijke grootte (bins) en tel je hoeveel van de tijden er binnen elk tijdsinterval liggen:

Abnormaal verdeeld: Als je het zo bekijkt lijkt er nauwelijks een dwelltime boven de 5 seconden te liggen..
Ondergesneeuwde data: Maar als je inzoomt zie je dat er toch nog wel wat datapunten bij hogere tijden liggen!

Daar is niet veel anders over te zeggen dat de overweldigende meerderheid van de dwelltimes niet veel langer is dan zo’n 5 seconden. Tijd voor een logaritmisch geschaalde histogram (log-histogram):

Dezelfde data op een logaritmische tijdschaal.

Continue reading “2½. Dwelltimedistributies”

3. Bayesiaanse statistiek en maximum likelihood estimation.

Een van de meest vernieuwende stappen in het wetenschappelijke veld die dit artikel met zich meebrengt is het fitten van een kinetisch model aan de complexe dwelltimedistributie waarover ik in mijn vorige punt uitwijdde. We hebben een distributie aan tijden die niet voor een gat te vangen is, dus het lijkt erop dat er een combinatie van verschillende verdelingen nodig is om de data te beschrijven. Waarom we dit doen leg ik in het laatste punt uit, maar we doen dit met behulp van een methode ontleend uit de Bayesiaanse statistiek: de maximum likelihood estimation.

Dit behoeft wat uitleg. Of nou ja, ik zou het model ook zonder deze andere vorm van statistiek uit kunnen leggen, maar het toepassen van deze statistische methode in de single-molecule biofysica is vernieuwend en verdient daarom een afzonderlijke post. Daarnaast, waarom zou ik iemand uitleg over een mooie statistische stroming willen onthouden? Mocht u bij het lezen van het woord ‘statistiek’ een aanval van blinde paniek krijgen: ga dan door naar het volgende punt.

Het overgrote deel van de statistiek die tegenwoordig toegepast wordt is de klassieke of frequentistische (is dat een woord?) interpretatie van kansrekening. Ze is gebaseerd op de aanname dat je uit een eerder gemeten dataset kunt afleiden of een nieuw gemeten datapunt afwijkt en hoe groot de kans (de p-waarde) is dat dit gebeurt. Hoe ver het punt afwijkt wordt getoetst aan een nulhypothese die zegt: je nieuwe datapunt hoort bij de verzameling oude datapunten. De nulhypothese wordt vervolgens al dan niet verworpen op basis van een vooraf bepaald criterium en een de p-waarde die aangeeft hoe zeker je van je zaak kunt zijn. Er wordt verder geen enkele aanname gemaakt, er wordt alleen gekeken of de nulhypothese klopt, met soms absurde conclusies als resultaat. Een mooi voorbeeld hiervan is octopus Paul, de duitse ongewervelde die zo beroemd werd tijdens het WK van 2010 omdat hij een hoop wedstrijden achter elkaar goed voorspeld had. De nulhypothese – Paul is niet helderziend – werd volgens de klassieke statistiek verworpen, met een officieel als helderziend bestempelde octopus als gevolg.*

Continue reading “3. Bayesiaanse statistiek en maximum likelihood estimation.”