Dacht je naar punt 3 door te kunnen, krijg je dit! Toch eerst maar even kijken wat ik precies bedoel met de dwelltimedistributies. Stel je hebt een dataset die alle verkregen dwelltimes van een experiment bevat, een lange lijst met tijden dus. De set die ik hier heb bestaat uit 15417 tijden verkregen door 60 trajecten op te knippen in stukken van 10 baseparen. Op die 10 baseparen kom ik aan het eind weer terug, nu eerst de tijden. Het minimum ligt bij 0.08 seconden: de polymerase vestigde een snelheidsrecord in dat stuk. De langste tijd – met andere woorden langste pauze – duurde 98.8 seconden. Alle andere 15415 punten liggen dus daar ergens tussenin. Je kijkt hoe de verdeling van tijden eruitziet door de data in een histogram te stoppen. Hierbij verdeel je die kleine 100 seconden in tijdsintervallen van gelijke grootte (bins) en tel je hoeveel van de tijden er binnen elk tijdsinterval liggen:
Daar is niet veel anders over te zeggen dat de overweldigende meerderheid van de dwelltimes niet veel langer is dan zo’n 5 seconden. Tijd voor een logaritmisch geschaalde histogram (log-histogram):
Zo is er al iets meer van de distributie zichtbaar. In plaats van een turfscore op de y-as kunnen we het als een fractie weergeven door alles door 15417 te delen.
Maar wacht, de bins zijn nu niet even groot meer: ze worden steeds groter in tijd naarmate je naar rechts gaat op de x-as (de kleinste bin uiterst links beslaat een tijd van 0.03 seconden, de grootste op rechts een tijd van 30 seconden – 1000 keer zo groot dus). Hierdoor maak je de kans dat een tijd in een bepaalde bin valt steeds groter naarmate je naar rechts verplaatst over de x-as. Je corrigeert hiervoor door de fractie te delen door de bingrootte. Dit geeft je de waarschijnlijkheidsdichtheid ofwel probability density (eenheid 1/s, dus iets per seconde), en kijken naar hoe deze dichtheid verdeeld is over tijd is wat een waarschijnlijkheidsdichtheidverdeling of probability density distribution heet. Dat ziet er als volgt uit:
Die langste dwelltimes worden zichtbaar als je de waarschijnlijkheidsdichtheid ook nog op log-schaal weergeeft (de staven worden punten want 0 ligt bij 10 tot de macht -∞). Goed, we zijn beland bij de dwelltime-distributies zoals wij ze kennen.
Wat zie je hier? Geen normale verdeling op lineaire schaal dan wel logaritmische schaal in ieder geval. Niet dat je dat per se zou verwachten voor stochastisch verdeelde dwelltimes, maar het moge duidelijk zijn dat de distributie complex is en – voor de natuurwetenschappelijke onderlegde lezers onder jullie – niet een vorm heeft die je met bijvoorbeeld een enkelvoudig exponentiele functie zou kunnen beschrijven. Wat je wel kan zien is dat het maximum van deze verdeling bij 0.4 seconden ongeveer ligt. Een dwelltime van 0.4 seconden heeft dus de hoogste waarschijnlijkheidsdichtheid, en 0.4 seconden over 10 baseparen betekent 25 baseparen per seconde. Aannemelijk is dat precies deze snelheid de pauzevrije snelheid (cruisesnelheid zo je wil) van de polymerase is, zoals ik in het vorige stuk liet zien.
Om meer informatie uit de data te halen kijk je welke soort verdeling (met bijbehorende functie) het beste de verdeling die we hier hebben beschrijft. Hierover meer in punt 3.