2. Onbevooroordeelde dataverwerking: de dwelltime-analyse.

Goed, je hebt je x,y,z data, en dan? Dwelltime-analyse is een abstracte term voor een vrij eenvoudige methode. Niet al te ingewikkeld dus, maar eerder op dit soort data toegepast? dat niet. Wat ik eerder heb laten zien was dat een polymerase dubbelstrengs RNA omzet in enkelstrengs RNA (een verplaatsing van y baseparen) over een tijd x. Met andere woorden, de polymerase heeft een snelheid gemeten in baseparen per seconde, die we willen weten. Als die snelheid constant zou zijn is het makkelijk: de verplaatsing uitgezet tegen de tijd is dan lineair – de snelheid zouden we meteen af kunnen lezen.

*Positie van RNA polymerase versus tijd.*

Dat is in feite wat er tot nu toe altijd gedaan is: de polymerasesnelheid wordt gemeten voor elk stukje van het (door de polymerase afgelegde) traject waarvan het lijkt dat de snelheid constant is. Met andere woorden: elk stukje van het traject waar je een rechte lijn tegenaan kunt leggen levert je een snelheidsvector op. Klaar! Zou je zeggen. Maar: hoe weet je zeker dat een stuk waar je een lijn tegenaan legt ook daadwerkelijk een constante snelheid vertegenwoordigt? Akkoord, voor een ruwe schatting is dit prima, anno 2005 had je zo in Nature gestaan. Maar het is 2015 en een meting aan een enkel molecuul is geen wereldwonder meer. Toch vormen dit soort metingen een onmisbare bron aan informatie over de dynamiek van deze moleculaire kopieermachines.

Maar dan moet je ze wel goed uitlezen natuurlijk, en daar zit het probleem juist. De methode waarbij je een lat langs kleine stukjes van het traject legt en daarmee de ‘lokale’ snelheid uitleest heeft één enorm gebrek: het maakt de aanname dat het overduidelijk is welk stuk een constante snelheid heeft, dat we precies weten welke latjes we waar tegenaan moeten leggen. En kijk nou zelf eens naar de inzet in de figuur hierboven: durf jij je hand ervoor in het vuur te steken dat er voor deze 100 baseparen (van 2000 naar 2100) de polymerase exact deze 3 verschillende snelheden heeft aangenomen? Als ik er 5 lijntjes had getekend had ik het net zo goed kunnen verkopen.

… levert een populatie met snelheid 0 (stilstaan) en een populatie met snelheid 20 (hollen) op.

Geneuzel in de marge? Om verschillende redenen lijkt me dat niet*, maar ik zou vooral zeggen: liever geen informatie dan foute informatie. Deze ‘kopieermachines’ zijn eigenlijk geen machines in de macroscopische zin van het woord, machines die iets met een zeer voorspelbare regelmaat iets doen, zoals bijvoorbeeld 30 prints per minuut uitdraaien. De wereld waar deze machines in opereren is er eentje waar zwaartekracht geen vat op heeft, een wereld waar alles onophoudelijk in beweging is onder invloed van temperatuur en ladingen van atomen en moleculen, waar alles voortdurend en met enorme snelheid draait, botst, trilt en met elkaar reageert. Het gedrag van dit soort machines wordt bepaald door processen die stochastisch zijn: processen met grootheden die van toeval afhangen, de exacte stappen zijn niet-deterministisch en niet-herhaalbaar. Toch kunnen we in deze schijnbare chaos een ander soort regelmaat verwachten, we weten bijvoorbeeld dat het kopieerproces uit verschillende opeenvolgende stappen moet bestaan om de polymerase van basepaar n naar basepaar n+1 te laten gaan. Hierover later meer, maar wat ik duidelijk wil maken is dat een polymerase om verschillende redenen (lees: bij verschillende stappen in het proces) pauzeert/blokkeert op stochastisch verdeelde momenten en voor stochastisch verdeelde tijdsduren. Met andere woorden: er valt geen pijl op te trekken waar, wanneer, hoe lang en hoe vaak een polymerase zal pauzeren**, maar toch zullen distributies (in tijd of frequentie) van het pauzegedrag informatie bevatten over de aard van de stappen die nodig zijn om van n naar n+1 te gaan. Maar dan hebben we wel een onbevooroordeelde waarneming nodig.

*De dwelltime analyse: wat is de distributie in Δt als ik het traject opknip in gelijke stukken Δz?*

Wat wij hier doen is de totale lengteverandering (in baseparen) opknippen in gelijke stukken. Vervolgens hebben we per stuk informatie aangaande hoe lang erover gedaan wordt om het te overbruggen. Als de polymerase op volle snelheid raast, zal de tijd om het stuk te overbruggen kort zijn, als hij even stopt met werken zal de overbruggingstijd (=dwell time) langer worden. Meer is het niet. De resolutie is afhankelijk van hoe groot (lees hoeveel baseparen) je de stukken kiest: hoe kleiner de stukken hoe groter de resolutie. De maximale resolutie wordt bepaald door de grootte van de ruis in je signaal.

Net als met de latjesmethode knip je het signaal op in stukken, maar dan op een onbevooroordeelde manier: alle data wordt op exact dezelfde manier en zonder menselijke (onvermijdelijk subjectieve!) tussenkomst behandeld. Je hebt wel veel data nodig, want het opknippen van de data resulteert ook in fragmenten die deels bestaan uit pauzes (snelheid 0) en deels uit activiteit (snelheid 1), resulterend in een “gemeten” snelheid van iets tussen de 0 en 1.

Waarom weten we dat dwelltime-analyse beter dan de latjesmethode is? Omdat wij in onze data geen krachtsafhankelijke snelheid zien, de snelheid is constant. We trekken en meten het DNA en oefenen daarbij geen kracht uit op de polymerase zelf. Kracht uitoefenen op het DNA betekent dat je voor verschillende stappen in het proces de energiebarriere verlaagt door het makkelijker te maken om de baseparen open te breken: het zijn de pauses die minder vaak voorkomen en minder lang gaan duren als je de kracht verhoogt. De snelheid van verplaatsing van n naar n+1 (lees: topsnelheid) zal niet veranderen. Met andere woorden: als je erin slaagt om alle pauses uit een traject te halen zal je gemeten topsnelheid niet van kracht afhangen. De figuur hierboven laat de topsnelheid van de polymerase versus kracht zien. In het rood de latjesmethode, in het grijs onze dwelltime-methode. De rode lijn geeft dus een scheef beeld van de werkelijkheid!

Op naar de volgende ronde!

*Klein voorbeeld dan: Dat polymerases het DNA/RNA kopieren weten we, anders zouden we hier niet zijn. We weten inmiddels ook hoe dat mechanisme zich ongeveer af zou moeten spelen, maar hoe precies weten we niet. Een exact model dat voorspelt hoeveel fouten de kopieermachine maakt en waar die fout vandaan komt bijvoorbeeld, kan interessante informatie zijn voor een farmaceutisch bedrijf dat een virus wil bestrijden door het aantal fouten van de productiemachines te verhogen dan wel te verlagen (een veelgebruikte strategie). Teveel fouten leiden namelijk tot een teveel aan mutaties in het virusgenoom: het virus wordt zo instabiel en kan zich niet meer voortplanten. Te weinig mutaties maakt de viruspopulatie te star, dit verminderd aanpassingsvermogen betekent dat het niet kan ontsnappen aan de werking van een medicijn dan wel een veranderende omgeving. Er is veel literatuur hierover, bij interesse hoor ik het graag.

**niet helemaal waar: zo er zijn bijvoorbeeld een aantal DNA sequenties die als polymerasestopsignaal fungeren, maar dit is niet wat we hier onderzoeken.

Leave a Reply Cancel reply