Quote van de dag

Het is jammer dat [Sarah] Palin allergisch is voor kennis, anders had iemand haar het boek Black Rage (1968) cadeau moeten doen. Dan had ze misschien geleerd de drijfveren van Black Lives Matter beter op waarde weten te schatten.

Uit: de necrologie van William Henry Grier (7 februari 1926 – 3 september 2015) door Hassan Bahara, De Groene Amsterdammer, 17 september 2015.  Spot on.

Rel-igie

Mijn schriftelijk pleidooi van vorig jaar krijgt een ludiek vervolg. Waar ik letterlijk pleitte voor minder – en niet méér – verzuild gedrag, wist de seculiere initiatiefnemer mij te vertellen dat zij hiermee hetzelfde doel voor ogen hebben, namelijk: het ridicule, of in ieder geval het schijnheilige, van de originele advertentie aan willen stippen. Het blijft wachten op een coming out voor de flying spaghetti monster.

Opgewaaid stof?

Het ei is gelegd: een polymerasepaper in 4 stappen

Zo, het heeft even geduurd, maar eindelijk is het dan zover: het ei is gelegd. In de vorm van een artikel, dat dan weer wel. Leefde ik aan het eind van mijn eerste jaar (anno 2012) nog in de waan dat het een kwestie van weken zou zijn voor publicatie, weet ik nu dus wel beter. Het p2 onderzoek waar ik een flinke bijdrage aan heb geleverd – waardoor het werk een stevige positie in mijn toekomstige proefschrift heeft gekregen – heeft van begin tot eind zo’n 7 jaar in beslag genomen.* Karakteriseren met termen als ‘uitputtingsslag’ of ‘marathon’ zou derhalve een understatement zijn. Hoewel het gros van de data in 2012 al gemeten is, heeft het verhaal in de jaren daarna met name wat dataverwerking en -analyse betreft nog een enorme ontwikkeling doorgemaakt. Wat we nu presenteren is een compleet verhaal geworden dat zowel op experimenteel als op theoretisch vlak vernieuwend is. Dit zeg ik niet alleen omdat ik bevooroordeeld ben, om 4 redenen brengt dit werk wat nieuwe dingen naar voren, begin hier met lezen!

NB Is deze tak van sport helemaal nieuw? Lees dan hier waarom we überhaubt aan een enkel molecuul zouden willen meten, hier een inleiding over de magnetische pincet (magnetic tweezers) en hier mijn vorige verslag over dit project. Continue reading “Het ei is gelegd: een polymerasepaper in 4 stappen”

1. Eindelijk fatsoenlijke MT statistiek dankzij multiplexen.

Om te beginnen, waar de single-molecule magnetic tweezerstechniek zich hiervoor beperkte tot statistieken van enkele tot maximaal enkele tientallen metingen, omvat deze studie bij elkaar ruim 1000 unieke metingen aan individuele RNA polymerases. Technische vooruitgang op het gebied van camera’s en trackingsoftware hebben dit mogelijk gemaakt. Hoewel wij niet de enige groep zijn die dit soort technische vooruitgangen boekt, laten wij de mogelijkheden die de techniek biedt zien aan de hand van een biologisch vraagstuk. Zonder deze capaciteitsuitbreiding was dit onderzoek niet mogelijk geweest.

Grootte van het beeld anno 2009.

Anno 2011, toen ik begon met het opnemen van data, lag de maximale hoeveelheid RNA moleculen die we tegelijk konden visualiseren met behulp van magnetische balletjes – ik noem ze beads vanaf nu – rond de 80 op een goede dag. Nu ligt dat op 500-600. Dat dit mogelijk is ligt aan een combinatie van twee dingen: 1) meer megapixels in een camera: in 2011 hadden we een 1.4 megapixel camera, nu een 12 megapixel camera. 2) Een norme ontwikkeling in de software die het mogelijk maakt om gigabytes aan data per seconde te kunnnen verwerken. Er is dus aan het RNA-preparaat niets veranderd, het is de grootte van het oppervlak die we met een foto kunnen bestrijken (zonder kwaliteitsverlies) dat enorm is toegenomen. De echte uitdaging ligt hier voor ons natuurlijk niet in het kopen van een camera met meer megapixels, maar in hoe we ervoor zorgen dat een pc deze enorme toename aan hoeveelheid data nog steeds binnen een redelijke tijd kan verwerken.

Continue reading “1. Eindelijk fatsoenlijke MT statistiek dankzij multiplexen.”

2. Onbevooroordeelde dataverwerking: de dwelltime-analyse.

Goed, je hebt je x,y,z data, en dan? Dwelltime-analyse is een abstracte term voor een vrij eenvoudige methode. Niet al te ingewikkeld dus, maar eerder op dit soort data toegepast? dat niet. Wat ik eerder heb laten zien was dat een polymerase dubbelstrengs RNA omzet in enkelstrengs RNA (een verplaatsing van y baseparen) over een tijd x. Met andere woorden, de polymerase heeft een snelheid gemeten in baseparen per seconde, die we willen weten. Als die snelheid constant zou zijn is het makkelijk: de verplaatsing uitgezet tegen de tijd is dan lineair – de snelheid zouden we meteen af kunnen lezen.

Positie van RNA polymerase versus tijd.

Dat is in feite wat er tot nu toe altijd gedaan is: de polymerasesnelheid wordt gemeten voor elk stukje van het (door de polymerase afgelegde) traject waarvan het lijkt dat de snelheid constant is. Met andere woorden: elk stukje van het traject waar je een rechte lijn tegenaan kunt leggen levert je een snelheidsvector op. Klaar! Zou je zeggen. Maar: hoe weet je zeker dat een stuk waar je een lijn tegenaan legt ook daadwerkelijk een constante snelheid vertegenwoordigt? Akkoord, voor een ruwe schatting is dit prima, anno 2005 had je zo in Nature gestaan. Maar het is 2015 en een meting aan een enkel molecuul is geen wereldwonder meer. Toch vormen dit soort metingen een onmisbare bron aan informatie over de dynamiek van deze moleculaire kopieermachines.

Continue reading “2. Onbevooroordeelde dataverwerking: de dwelltime-analyse.”

2½. Dwelltimedistributies

Dacht je naar punt 3 door te kunnen, krijg je dit! Toch eerst maar even kijken wat ik precies bedoel met de dwelltimedistributies. Stel je hebt een dataset die alle verkregen dwelltimes van een experiment bevat, een lange lijst met tijden dus. De set die ik hier heb bestaat uit 15417 tijden verkregen door 60 trajecten op te knippen in stukken van 10 baseparen. Op die 10 baseparen kom ik aan het eind weer terug, nu eerst de tijden. Het minimum ligt bij 0.08 seconden: de polymerase vestigde een snelheidsrecord in dat stuk. De langste tijd – met andere woorden langste pauze – duurde 98.8 seconden. Alle andere 15415 punten liggen dus daar ergens tussenin. Je kijkt hoe de verdeling van tijden eruitziet door de data in een histogram te stoppen. Hierbij verdeel je die kleine 100 seconden in tijdsintervallen van gelijke grootte (bins) en tel je hoeveel van de tijden er binnen elk tijdsinterval liggen:

Abnormaal verdeeld: Als je het zo bekijkt lijkt er nauwelijks een dwelltime boven de 5 seconden te liggen..
Ondergesneeuwde data: Maar als je inzoomt zie je dat er toch nog wel wat datapunten bij hogere tijden liggen!

Daar is niet veel anders over te zeggen dat de overweldigende meerderheid van de dwelltimes niet veel langer is dan zo’n 5 seconden. Tijd voor een logaritmisch geschaalde histogram (log-histogram):

Dezelfde data op een logaritmische tijdschaal.

Continue reading “2½. Dwelltimedistributies”

3. Bayesiaanse statistiek en maximum likelihood estimation.

Een van de meest vernieuwende stappen in het wetenschappelijke veld die dit artikel met zich meebrengt is het fitten van een kinetisch model aan de complexe dwelltimedistributie waarover ik in mijn vorige punt uitwijdde. We hebben een distributie aan tijden die niet voor een gat te vangen is, dus het lijkt erop dat er een combinatie van verschillende verdelingen nodig is om de data te beschrijven. Waarom we dit doen leg ik in het laatste punt uit, maar we doen dit met behulp van een methode ontleend uit de Bayesiaanse statistiek: de maximum likelihood estimation.

Dit behoeft wat uitleg. Of nou ja, ik zou het model ook zonder deze andere vorm van statistiek uit kunnen leggen, maar het toepassen van deze statistische methode in de single-molecule biofysica is vernieuwend en verdient daarom een afzonderlijke post. Daarnaast, waarom zou ik iemand uitleg over een mooie statistische stroming willen onthouden? Mocht u bij het lezen van het woord ‘statistiek’ een aanval van blinde paniek krijgen: ga dan door naar het volgende punt.

Het overgrote deel van de statistiek die tegenwoordig toegepast wordt is de klassieke of frequentistische (is dat een woord?) interpretatie van kansrekening. Ze is gebaseerd op de aanname dat je uit een eerder gemeten dataset kunt afleiden of een nieuw gemeten datapunt afwijkt en hoe groot de kans (de p-waarde) is dat dit gebeurt. Hoe ver het punt afwijkt wordt getoetst aan een nulhypothese die zegt: je nieuwe datapunt hoort bij de verzameling oude datapunten. De nulhypothese wordt vervolgens al dan niet verworpen op basis van een vooraf bepaald criterium en een de p-waarde die aangeeft hoe zeker je van je zaak kunt zijn. Er wordt verder geen enkele aanname gemaakt, er wordt alleen gekeken of de nulhypothese klopt, met soms absurde conclusies als resultaat. Een mooi voorbeeld hiervan is octopus Paul, de duitse ongewervelde die zo beroemd werd tijdens het WK van 2010 omdat hij een hoop wedstrijden achter elkaar goed voorspeld had. De nulhypothese – Paul is niet helderziend – werd volgens de klassieke statistiek verworpen, met een officieel als helderziend bestempelde octopus als gevolg.*

Continue reading “3. Bayesiaanse statistiek en maximum likelihood estimation.”

3½. Bootstrapping

Voordat we doorgaan naar de climax van het verhaal toch nog een klein intermezzo: bootstrapping! Boot-wat? Boot-waarom? Een betrouwbaar wetenschappelijk verhaal is gebaseerd op betrouwbare data, dat klinkt logisch. Maar hoe betrouwbaar is betrouwbaar? Om de betrouwbaarheid van data aan te geven zie je soms error bars en soms betrouwbaarheidsintervallen op datapunten. Voorbeeld: In het laatste figuur van deel 2 (de polymerasesnelheid versus kracht) steken aan weerszijde van elk datapunt horizontale balkjes uit die eindigen met een balkje dat daar haaks op staat. Dit zijn error bars en ze geven aan waar het datapunt met nog een vrij grote waarschijnlijkheid ook zou kunnen liggen. Horizontaal betekent dat we het over de x-as hebben, ofwel de onzekerheid in de kracht die we uitoefenen.*

Virtueel de meting herhalen. Dataset x (blauw) en een gebootstrapte set r1 (rood), de verdelingen lijken erg op elkaar maar willekeurigheid maakt ze niet identiek.

Stel nu je hebt een dataset met een bepaalde verdeling, zoals ik in punt 2½ had. Hoe betrouwbaar is deze dataset? Moet ik dan nog een aantal keer opnieuw die 15417 punten bij elkaar meten en kijken wat de variatie is die ik krijg? Dat zou wel eens lang kunnen gaan duren. In veel gevallen is dit zelfs niet te doen. Enter bootstrapping. Waarom het beestje deze naam gekregen heeft zal me een raadsel zijn en google heeft hier vast een antwoord op, maar mooi en belangrijk is weten hoe het werkt.

Continue reading “3½. Bootstrapping”

4. Puzzelstukken combineren, modelleren, verklaren.

Gefeliciteerd! U heeft het einde gehaald, terwijl ik nog zo mijn best heb gedaan om lezers af te schudden. Maar daar zijn we dan: wat leren al deze experimenten, data-analyse, statistisch geneuzel enzovoorts ons allemaal? Waar doen we het voor? Begrijpen we de wereld om ons heen nu ook beter? De experimenten, bestaande literatuur, statistiek en andere dataverwerkingsmethoden zijn allemaal stukjes van een puzzel, of geven ons een idee hoe de puzzel in elkaar gezet kan worden, maar uiteindelijk gaat het om het oplossen van de puzzel.

Een eerste stel puzzelstukken die we nu hebben bestaat uit informatie over de structuur van de polymerase hebben:

Polymeriseren kun je leren.

Aan de de dwarsdoorsnede van de polymerase kun je zien dat het molecuul 3 tunnels heeft die in het midden samenkomen. Dit ligt redelijk voor de hand: binnenin de polymerase wordt enkelstrengs RNA omgezet (gepolymeriseerd) naar de vertrouwde dubbele helixvorm. De eerste tunnel gaat enkelstrengs RNA naar binnen, tunnel 2 voert dubbelstrengs RNA naar buiten. Om dit te kunnen doen heb je ook aanvoer van bouwstenen nodig (NTPs dus), hier is tunnel nummer 3 voor. Rechts zie je hoe dit in het experiment gebeurt.

Continue reading “4. Puzzelstukken combineren, modelleren, verklaren.”