2½. Dwelltimedistributies

Dacht je naar punt 3 door te kunnen, krijg je dit! Toch eerst maar even kijken wat ik precies bedoel met de dwelltimedistributies. Stel je hebt een dataset die alle verkregen dwelltimes van een experiment bevat, een lange lijst met tijden dus. De set die ik hier heb bestaat uit 15417 tijden verkregen door 60 trajecten op te knippen in stukken van 10 baseparen. Op die 10 baseparen kom ik aan het eind weer terug, nu eerst de tijden. Het minimum ligt bij 0.08 seconden: de polymerase vestigde een snelheidsrecord in dat stuk. De langste tijd – met andere woorden langste pauze – duurde 98.8 seconden. Alle andere 15415 punten liggen dus daar ergens tussenin. Je kijkt hoe de verdeling van tijden eruitziet door de data in een histogram te stoppen. Hierbij verdeel je die kleine 100 seconden in tijdsintervallen van gelijke grootte (bins) en tel je hoeveel van de tijden er binnen elk tijdsinterval liggen:

Abnormaal verdeeld: Als je het zo bekijkt lijkt er nauwelijks een dwelltime boven de 5 seconden te liggen..
Ondergesneeuwde data: Maar als je inzoomt zie je dat er toch nog wel wat datapunten bij hogere tijden liggen!

Daar is niet veel anders over te zeggen dat de overweldigende meerderheid van de dwelltimes niet veel langer is dan zo’n 5 seconden. Tijd voor een logaritmisch geschaalde histogram (log-histogram):

Dezelfde data op een logaritmische tijdschaal.

Zo is er al iets meer van de distributie zichtbaar. In plaats van een turfscore op de y-as kunnen we het als een fractie weergeven door alles door 15417 te delen.

Zelfde grafiek, maar in plaats van een turfscore geeft de y-as de fractie van het totaal aan.

Maar wacht, de bins zijn nu niet even groot meer: ze worden steeds groter in tijd naarmate je naar rechts gaat op de x-as (de kleinste bin uiterst links beslaat een tijd van 0.03 seconden, de grootste op rechts een tijd van 30 seconden – 1000 keer zo groot dus). Hierdoor maak je de kans dat een tijd in een bepaalde bin valt steeds groter naarmate je naar rechts verplaatst over de x-as. Je corrigeert hiervoor door de fractie te delen door de bingrootte. Dit geeft je de waarschijnlijkheidsdichtheid ofwel probability density (eenheid 1/s, dus iets per seconde), en kijken naar hoe deze dichtheid verdeeld is over tijd is wat een waarschijnlijkheidsdichtheidverdeling of probability density distribution heet. Dat ziet er als volgt uit:

De data, gedeeld door het tijdsvak waarin het is ingedeeld. Tijdsvakken rechts zijn groot, waardoor de waarde kleiner wordt, links worden ze relatief groter. Het resultaat in dit geval is dat de piek naar links opschuift t.o.v. het vorige figuur.

Die langste dwelltimes worden zichtbaar als je de waarschijnlijkheidsdichtheid ook nog op log-schaal weergeeft (de staven worden punten want 0 ligt bij 10 tot de macht -∞). Goed, we zijn beland bij de dwelltime-distributies zoals wij ze kennen.

De waarden rechts zijn er natuurlijk nog wel, ze zijn alleen relatief klein. Log-schaal maakt dit inzichtelijk. 

Wat zie je hier? Geen normale verdeling op lineaire schaal dan wel logaritmische schaal in ieder geval. Niet dat je dat per se zou verwachten voor stochastisch verdeelde dwelltimes, maar het moge duidelijk zijn dat de distributie complex is en – voor de natuurwetenschappelijke onderlegde lezers onder jullie – niet een vorm heeft die je met bijvoorbeeld een enkelvoudig exponentiele functie zou kunnen beschrijven. Wat je wel kan zien is dat het maximum van deze verdeling bij 0.4 seconden ongeveer ligt. Een dwelltime van 0.4 seconden heeft dus de hoogste waarschijnlijkheidsdichtheid, en 0.4 seconden over 10 baseparen betekent 25 baseparen per seconde. Aannemelijk is dat precies deze snelheid de pauzevrije snelheid (cruisesnelheid zo je wil) van de polymerase is, zoals ik in het vorige stuk liet zien.

Om meer informatie uit de data te halen kijk je welke soort verdeling (met bijbehorende functie) het beste de verdeling die we hier hebben beschrijft. Hierover meer in punt 3.

Leave a Reply

Your email address will not be published. Required fields are marked *