4. Puzzelstukken combineren, modelleren, verklaren.

Gefeliciteerd! U heeft het einde gehaald, terwijl ik nog zo mijn best heb gedaan om lezers af te schudden. Maar daar zijn we dan: wat leren al deze experimenten, data-analyse, statistisch geneuzel enzovoorts ons allemaal? Waar doen we het voor? Begrijpen we de wereld om ons heen nu ook beter? De experimenten, bestaande literatuur, statistiek en andere dataverwerkingsmethoden zijn allemaal stukjes van een puzzel, of geven ons een idee hoe de puzzel in elkaar gezet kan worden, maar uiteindelijk gaat het om het oplossen van de puzzel.

Een eerste stel puzzelstukken die we nu hebben bestaat uit informatie over de structuur van de polymerase hebben:

Polymeriseren kun je leren.

Aan de de dwarsdoorsnede van de polymerase kun je zien dat het molecuul 3 tunnels heeft die in het midden samenkomen. Dit ligt redelijk voor de hand: binnenin de polymerase wordt enkelstrengs RNA omgezet (gepolymeriseerd) naar de vertrouwde dubbele helixvorm. De eerste tunnel gaat enkelstrengs RNA naar binnen, tunnel 2 voert dubbelstrengs RNA naar buiten. Om dit te kunnen doen heb je ook aanvoer van bouwstenen nodig (NTPs dus), hier is tunnel nummer 3 voor. Rechts zie je hoe dit in het experiment gebeurt.

De andere puzzelstukken zijn de datasets. Deze laten een andere kant van hetzelfde verhaal zien, namelijk hoe het polymerisatieproces zich in de tijd afspeelt. Wat we gemeten hebben zijn datasets met: dwelltimes als functie van op het RNA uitgeoefende kracht, dwelltimes als functie van NTP concentratie (N staat voor A,C,G of U – de bouwstenen nodig om RNA op te bouwen) en dwelltimes als functie van de concentratie van een molecuul (ITP) dat fouten nabootst: een fout is het polymeriseren van bijvoorbeeld een ATP terwijl er een CTP in het RNA moest. Voor deze datasets zien we het volgende:

Datasoep.

De 3 grafieken laten zien wat er gebeurt als we kracht, NTP concentratie of ITP concentratie veranderen. Kwalitatief kun je het volgende zien: 1. De piek van de distributie verschuift niet of nauwelijks: dit is de eerder besproken ‘cruisesnelheid’ van de polymerase. 2. Wat wél verandert is de rechterkant van de grafiek. Een grotere ‘bult’ op rechts betekent dat er relatief meer langere dwelltimes voorkomen. Zo zie je dat (a) de fractie aan langere dwelltimes afneemt als de kracht toeneemt, en dat deze fractie toeneemt naarmate je (b) de NTP concentratie verlaagt of (c) de ITP concentratie verhoogt.

Kwantitatief kunnen we informatie uit deze dwelltimedistributies onttrekken door te kijken met welke kansverdeling of combinatie van kansenverdelingen de data beschreven kan worden. Het zogenaamde fitten van de data. Wat zagen wij? Steevast bleek dat alle dwelltimedistributies bestaan uit 4 verschillende verdelingen:

Fit genoeg?

Allereerst de piek: de fit (in het groen) is een gammaverdeling, een kansverdeling die ontstaat als een proces uit meerdere, onderling onafhankelijke processen met een exponentiële verdeling bestaat. Daarnaast hebben we altijd 2 exponentiële verdelingen (in blauw) nodig om het deel rechts van de piek te fitten. Tot slot kunnen we de rechterkant van de dwelltimedistributie het best benaderen met een rechte lijn (rood). Een rechte lijn op een dubbellogaritmische schaal wordt beschreven door een machtsfunctie (engels: power-law). Het handige is nu dat we voor iedere verdeling een karakteristieke tijd (een plek op de x-as) en een kans (y-as) hebben die de verdeling beschrijft. Dit vereenvoudigt je dataset van de eerder besproken 15000 naar 4 (!) punten met een x en een y-coordinaat.

Allemaal leuk en aardig, maar wat kunnen we hiermee? Of, om het met de woorden van wiskundige John von Neumann te zeggen: “With four parameters I can fit an elephant, and with five I can make him wiggle his trunk.” De grote vraag is nu: hoe kunnen we deze twee kanten van hetzelfde verhaal – de structuur en de gemeten data – als één verhaal vertellen? Antwoord: door het polymerisatieproces schematisch weer te geven, door een model op te stellen die het gedrag kan verklaren. Gelukkig kunnen we staan op de schouders van reuzen: reuzen die al sinds de jaren 70 van de vorige eeuw begonnen zijn met het ontwikkelen van steeds nauwkeurigere modellen die de polymerisatie van DNA of RNA beschrijven. Al is onze huistheoreticus en medeauteur van dit artikel Martin Depken ook een behoorlijke reus als je het mij vraagt.

Een kinetisch model kun je zien als een schematische weergave van een proces met bepaalde toestanden (bijvoorbeeld A en B) en een of meerdere pijlen die aangeven in welke volgorde en met welke snelheid een reactie/stap van de ene naar de andere toestand gegaan wordt (een pijl van A naar B en vice versa bijvoorbeeld). De puzzelstukken kunnen nu gelegd worden. Als de polymerase altijd zonder pauzeren zou werken (lees: gedwee de ene NTP na de andere toe zou voegen) zou je alleen maar korte dwelltimes zien: alleen de gammadistributie zou overblijven. Maar onze distributies hebben ook nog twee exponentiële verdelingen: dit zijn dus blijkbaar twee extra en verschillende toestanden waarin de polymerase kan verkeren. Twee pauzetoestanden van met een eigen karakeristieke lengte en kans dus! Bijzonder is ook dat we nog een vierde toestand blijken te hebben. Dit is waarschijnlijk een toestand laat zien waarin de polymerase op zijn schreden terugkeert, backtracking heet dat. Vanwege de extreem lage kans dat soort lange dwelltimes voorkomen hebben we hier een gebrek aan datapunten (zelfs met onze ~15000 dwelltimes per dataset) waardoor we dit voor nu nog buiten beschouwing laten. Dit doet verder niets af aan het feit dat we de andere toestanden kunnen zien en fitten, iets wat voorheen nog nooit iemand gelukt is!*

Trendy hoor.

Wat zien we als we een concentratiereeks of krachtreeks fitten met deze 3 verdelingen? Vragen die we moeten beantwoorden zijn: Wat gebeurt er met de kans om een pauze waar te nemen en de lengte van een pauze? Hierboven in de grafieken zie je het resultaat. De bovenste 2 grafieken laten zien wat er gebeurt als je de kracht varieert, de onderste geven de trends bij verandering van NTP concentratie weer. Links geeft aan wat er met de tijdsconstantes (de rates, of 1/dwelltimelengte) gebeurt, rechts de kans van iedere toestand. De groene lijn geeft de eerdergenoemde gammaverdeling weer (cruisesnelheid), blauw de twee pauzes (donker voor de kort-durende pauze, licht voor de lang-durende).

Om met de krachtsafhankelijkheid dan maar de spits af te bijten: De groene lijn is zowel wat tijdsconstante als kans horizontaal: de snelheid van (en kans op) toevoeging van een NTP molecuul is niet gevoelig voor kracht, zoals we eerder hierboven al kwalitatief hadden geconstateerd (de nucleotide addition rate en probability hebben bij benadering een constante waarde). Het zijn de blauwe lijnen die veranderen: links zie je dat het opvoeren van de kracht de “pause exit rate” ook doet stijgen – de tijdschaal waarop een toestand verlaten wordt neemt af: beide pauzes worden korter! Rechts zie je dat de kans om beide pauzes waar te nemen afneemt met toenemende kracht: ze worden niet alleen korter, maar komen ook nog eens minder vaak voor. (NB. De verschillen lijken misschien klein, maar dit is een logaritmische schaal. Zo verkleint de kans op een lange pauze (licht blauw) van ongeveer 1% bij 15 picoNewton (pN) tot 0.1% bij 35 pN.)

Biologisch relevanter is kijken wat er gebeurt als je de NTP concentratie verandert. Wat gebeurt er als je de brandstof schaars maakt? Gaat alles dan gewoon trager, gaan alleen bepaalde processen trager of gebeuren er andere dingen? Op de x-as staat nu de verhouding tussen de gebruikte en ‘normale’ NTP concentratie. Is deze kleiner dan 1, dan is de gebruikte concentratie lager dan normaal, wanneer gelijk aan 1 (uiterst rechts op de x-as) is de concentratie normaal. Ook hier zie je dat de groene lijn min of meer constant blijft terwijl de blauwe lijnen veranderen. De snelheid waarmee een pauze verlaten wordt neemt toe als je de brandstof toevoer opvoert, de kans op een pauze neemt af. Met andere woorden: Het is niet de stapsnelheid die verandert, maar het is de duur van- alsmede de kans op pauzes dat verandert!

Kijk, dat zijn nog eens inzichten. Op dit punt van het project is het tijd om (nogmaals) de bestaande literatuur over polymerases te raadplegen om te kijken wat die pauzes zou kunnen veroorzaken.


Dan nu het moment suprême: het opstellen van een model.


De stap- of cruisesnelheid (groene fit) is de ‘normale’ werking van de polymerase: een ATP-molecuul wordt ingebouwd als er een ATP nodig is, een CTP als een CTP nodig is, enzovoorts. Een pauze zou dan kunnen worden veroorzaakt in het geval dat zoiets misgaat: een CTP wordt geplaatst als er een ATP nodig is bijvoorbeeld. De polymerase maakt een fout en komt daardoor even stil te staan. Het mooie is: een proces als dit zal een exponentiële verdeling hebben en kan dus 1 van de pauzes verklaren!

Hoe dit schematisch eruit zou zien zie je in het figuur (A) hieronder: een fout (=mismatch) kan voorkomen op elk willekeurig moment dat de polymerase (gele blokken) van n naar n+1 aan het gaan is – m.a.w. dit kan op elk moment tijdens het bewandelen van het ‘normale’ pad (of pathway) van de polymerase gebeuren en heet daarom een on pathway pauze. De kans dat dit voorkomt (B) is onafhankelijk van de NTP-concentratie: of er nou veel of weinig brandstof voorhanden is, maakt niet uit: de verhouding tussen de verschillende NTPs verandert immers niet. Wat welconcentratieafhankelijk is, is de pause exit rate: de tijdsduur van pauzeren neemt af als de NTP-concentratie toeneemt, omdat er per tijdseenheid meer nieuwe moleculen zich aandringen om de polymerase toch weer verder te laten gaan.

Simpel beginnen. Links: schematische weergave van een polymerase (De gele blokken) dat enkelstrengs RNA (door midden gezaagde ladder) omzet in dubbelstrengs RNA (hele ladder). Het blok linksonder is stap n, een stap naar rechts is n+1. Een stap naar (schuin) boven is een stap naar een pauzetoestand. Rechts: de theoretische voorspelling van de pauzekans (vaste lijn) en de pauzetijdsduur (stippellijn) die het toevoegen een bepaalde pauzestap in het model heeft als functie van NTP concentratie. 

Een tweede soort pauze – die de tweede exponentiële verdeling zou kunnen verklaren – is er eentje die wordt veroorzaakt door een verandering in de structuur van de polymerase. De polymerase gaat van zijn normale pad af en komt in een andere toestand terecht, zoals een printer die op standby komt te staan. Dit heet een off pathway pauze. Het mooie hieraan is: er zijn sterke aanwijzingen uit de literatuur dat de polymerase ook daadwerkelijk verschillende structuren aan kan nemen, wat onze tweede exponentiële pauze kan veroorzaken!

Als het goed is zie je nu dat we de cruciale stappen voor het leggen van de puzzel gemaakt hebben: we hebben de door ons geobserveerde verdelingen kunnen koppelen aan fysieke (lees: echte!) processen in de natuur. Dit is het bestaansrecht van een model.

Hoe we deze tweede soort pauzetoestand schematisch weergeven en hoe dit zich vertaalt naar tijdsduren en kansen zie je in de figuur hierboven bij (C) en (D). Een pauze als deze heeft een ander effect op de kans en tijdsduur. Als je in deze pauzetoestand zit komt dat door een structuurverandering van de polymerase en zal de NTP-concentratie niet veel invloed hebben op wanneer de polymerase weer van structuur verandert om verder te gaan stappen. Het is nu dus de pauze exit rate die vlak zal zijn en niet van concentratie afhangt. Om door te gaan met de printeranalogie: de tijd die een printer nodig heeft om uit de standby-stand te komen hangt niet af van de hoeveelheid printopdrachten in de wachtrij. Echter, de kans dat de polymerase in deze toestand terechtkomt wordt kleiner naarmate zich vaker NTPs opdringen, net als de kans dat een printer in standby-stand gaat ook kleiner wordt naarmate printopdrachten vaker langskomen.

We hebben nu dus aannemelijk kunnen makken dat de door ons geobserveerde waarnemingen worden veroorzaakt door een structuurafhankelijke gebeurt en een brandstofafhankelijke gebeurtenis. Daarnaast kunnen we dit schematisch weergeven – modelleren dus. Wat ons dan nu rest is beide fenomenen combineren (figuur hieronder, E) en kijken wat er gebeurt met de pauzetijden en -kansen (F). Komt dit overeen met de werkelijkheid? Wat we in werkelijkheid zien is dat de tijdsduur en kans van beide pauzesoorten concentratie-afhankelijk is. Dat is niet wat we zien in (F). Dan moeten we het model verder aanpassen. Wat als we beide processen niet als volledig onafhankelijk bestempelen maar dat er bijvoorbeeld ook een kans is om van de ene pauzetoestand naar de andere te gaan, zoals in (G) te zien is? Het model voorspelt dan concentratie-afhankelijkheid die te zien is in (H ). Eureka! Dit lijkt precies op de NTP-concentratie-afhankelijke trends die we ook in onze data zagen!

Dan uitbreiden wanneer nodig. Wederom de schematische weergave van het model (links) en de voorspellingen van het pauzeergedrag (rechts) die het model maakt. Deze keer zijn de twee soorten pauzes gecombineerd in één model.

Als afsluitende conclusie: we hebben nu een werkend model. Een model waarmee je voorspellingen kan maken. Als we een molecuul toevoegen dat de kans op fouten verhoogt bijvoorbeeld, zouden we ook moeten zien dat de kans op de foutgerelateerde pauze omhoog gaat terwijl de kans op de structuurveranderingpauze niet of nauwelijks beïnvloed wordt. Dat is ook wat we zien als we ITP toevoegen, we kunnen dit model dus toetsen aan de werkelijkheid.** Nog mooier: als we willen kijken of een antiviraal medicijn de werking van een polymerase verstoort, hebben we een zeer mooie methode om uit te lezen of en hoe het werkt!

Ok, we zijn er nu echt. Als je alles gelezen hebt: van harte en petje af! Ik weet uit persoonlijke ervaring dat er enige volharding bij komt kijken. Heb je vragen en/of opmerkingen, of is er iets niet duidelijk? Ik beantwoord graag verdere vragen, laat een opmerking achter of stuur een e-mail.


* Denk aan de hollen of stilstaan verdelingen die eerdere methoden voortbrachten, zoals ik beschreef in punt 2.

** Er valt uiteraard nog veel meer over deze specifieke test of het onderzoek in het algemeen te zeggen. Mocht je dus op dit moment nog hunkeren naar meer informatie wordt het hoog tijd dat je het echte paper gaat lezen!

Leave a Reply

Your email address will not be published. Required fields are marked *