2. Onbevooroordeelde dataverwerking: de dwelltime-analyse.

Goed, je hebt je x,y,z data, en dan? Dwelltime-analyse is een abstracte term voor een vrij eenvoudige methode. Niet al te ingewikkeld dus, maar eerder op dit soort data toegepast? dat niet. Wat ik eerder heb laten zien was dat een polymerase dubbelstrengs RNA omzet in enkelstrengs RNA (een verplaatsing van y baseparen) over een tijd x. Met andere woorden, de polymerase heeft een snelheid gemeten in baseparen per seconde, die we willen weten. Als die snelheid constant zou zijn is het makkelijk: de verplaatsing uitgezet tegen de tijd is dan lineair – de snelheid zouden we meteen af kunnen lezen.

Positie van RNA polymerase versus tijd.

Dat is in feite wat er tot nu toe altijd gedaan is: de polymerasesnelheid wordt gemeten voor elk stukje van het (door de polymerase afgelegde) traject waarvan het lijkt dat de snelheid constant is. Met andere woorden: elk stukje van het traject waar je een rechte lijn tegenaan kunt leggen levert je een snelheidsvector op. Klaar! Zou je zeggen. Maar: hoe weet je zeker dat een stuk waar je een lijn tegenaan legt ook daadwerkelijk een constante snelheid vertegenwoordigt? Akkoord, voor een ruwe schatting is dit prima, anno 2005 had je zo in Nature gestaan. Maar het is 2015 en een meting aan een enkel molecuul is geen wereldwonder meer. Toch vormen dit soort metingen een onmisbare bron aan informatie over de dynamiek van deze moleculaire kopieermachines.

Continue reading “2. Onbevooroordeelde dataverwerking: de dwelltime-analyse.”

2½. Dwelltimedistributies

Dacht je naar punt 3 door te kunnen, krijg je dit! Toch eerst maar even kijken wat ik precies bedoel met de dwelltimedistributies. Stel je hebt een dataset die alle verkregen dwelltimes van een experiment bevat, een lange lijst met tijden dus. De set die ik hier heb bestaat uit 15417 tijden verkregen door 60 trajecten op te knippen in stukken van 10 baseparen. Op die 10 baseparen kom ik aan het eind weer terug, nu eerst de tijden. Het minimum ligt bij 0.08 seconden: de polymerase vestigde een snelheidsrecord in dat stuk. De langste tijd – met andere woorden langste pauze – duurde 98.8 seconden. Alle andere 15415 punten liggen dus daar ergens tussenin. Je kijkt hoe de verdeling van tijden eruitziet door de data in een histogram te stoppen. Hierbij verdeel je die kleine 100 seconden in tijdsintervallen van gelijke grootte (bins) en tel je hoeveel van de tijden er binnen elk tijdsinterval liggen:

Abnormaal verdeeld: Als je het zo bekijkt lijkt er nauwelijks een dwelltime boven de 5 seconden te liggen..
Ondergesneeuwde data: Maar als je inzoomt zie je dat er toch nog wel wat datapunten bij hogere tijden liggen!

Daar is niet veel anders over te zeggen dat de overweldigende meerderheid van de dwelltimes niet veel langer is dan zo’n 5 seconden. Tijd voor een logaritmisch geschaalde histogram (log-histogram):

Dezelfde data op een logaritmische tijdschaal.

Continue reading “2½. Dwelltimedistributies”

3. Bayesiaanse statistiek en maximum likelihood estimation.

Een van de meest vernieuwende stappen in het wetenschappelijke veld die dit artikel met zich meebrengt is het fitten van een kinetisch model aan de complexe dwelltimedistributie waarover ik in mijn vorige punt uitwijdde. We hebben een distributie aan tijden die niet voor een gat te vangen is, dus het lijkt erop dat er een combinatie van verschillende verdelingen nodig is om de data te beschrijven. Waarom we dit doen leg ik in het laatste punt uit, maar we doen dit met behulp van een methode ontleend uit de Bayesiaanse statistiek: de maximum likelihood estimation.

Dit behoeft wat uitleg. Of nou ja, ik zou het model ook zonder deze andere vorm van statistiek uit kunnen leggen, maar het toepassen van deze statistische methode in de single-molecule biofysica is vernieuwend en verdient daarom een afzonderlijke post. Daarnaast, waarom zou ik iemand uitleg over een mooie statistische stroming willen onthouden? Mocht u bij het lezen van het woord ‘statistiek’ een aanval van blinde paniek krijgen: ga dan door naar het volgende punt.

Het overgrote deel van de statistiek die tegenwoordig toegepast wordt is de klassieke of frequentistische (is dat een woord?) interpretatie van kansrekening. Ze is gebaseerd op de aanname dat je uit een eerder gemeten dataset kunt afleiden of een nieuw gemeten datapunt afwijkt en hoe groot de kans (de p-waarde) is dat dit gebeurt. Hoe ver het punt afwijkt wordt getoetst aan een nulhypothese die zegt: je nieuwe datapunt hoort bij de verzameling oude datapunten. De nulhypothese wordt vervolgens al dan niet verworpen op basis van een vooraf bepaald criterium en een de p-waarde die aangeeft hoe zeker je van je zaak kunt zijn. Er wordt verder geen enkele aanname gemaakt, er wordt alleen gekeken of de nulhypothese klopt, met soms absurde conclusies als resultaat. Een mooi voorbeeld hiervan is octopus Paul, de duitse ongewervelde die zo beroemd werd tijdens het WK van 2010 omdat hij een hoop wedstrijden achter elkaar goed voorspeld had. De nulhypothese – Paul is niet helderziend – werd volgens de klassieke statistiek verworpen, met een officieel als helderziend bestempelde octopus als gevolg.*

Continue reading “3. Bayesiaanse statistiek en maximum likelihood estimation.”

Albion, take II

Grumpy old bird.

Dat het leven van een promovendus niet over rozen gaat wisten we al. Wat uw correspondent heden ten dage heeft meegemaakt kan wederom als een mentale en fysieke beproeving worden gezien. Een congres vormt zoals bekend een platform voor wetenschapper om zijn bevindingen wereldkkundig te maken en die van anderen aan de tand te voelen. Daarnaast (en vooral), zijn congressen het moment om te netwerken, je kennissenhorizon te verbreden en nieuwe samenwerkingsverbanden te smeden.

Continue reading “Albion, take II”

Impactwetenschap

Natte-vingerwerk J/N?

Wie serieus wetenschap wil bedrijven moet publiceren. Bij voorkeur in een hoog aangeschreven journal natuurlijk – een wetenschappelijk tijdschrift met een hoge impact factor dus. Ja, want die impact factor (IF), daar draait het allemaal om. Voor mensen in het vak gesneden koek, maar de IF van een tijdschrift is de (recente) verhouding tussen het aantal keer dat de in-dat-tijdschrift-gepubliceerde studies geciteerd wordt en het totaal aantal citeerbare studies van dat tijdschrift. Hoe hoger de IF van een blad, hoe meer alle andere vakbladen studies uit dat bepaalde tijdschrift aangehaald hebben. Het moge dan ook geen verrassing zijn dat bladen als Nature (IF2010=36) en Science (idem=31) traditioneel tot het topsegment behoren. Echter, de combinatie van digitalisering, internet en zoekmachines lijkt de spelregels te gaan veranderen hebben veranderd, zo stellen George A. Lozano, Vincent Larivière en Yves Gingras in hun onlangs op ArXiv (spreek uit als het engelse archive) gepubliceerde studie. De auteurs vergeleken de correlatie tussen de IF van een journal en het aantal ontvangen citaties in dat journal in de periode 1902-2009 en kwamen tot verrassende conclusies.

Continue reading “Impactwetenschap”

The Only Show in Town.

In het licht van mijn overstap naar de wetenschap, besloot ik dat het tijd was voor een populair wetenschappelijk boek van een wetenschapper die erg op mijn bewondering kan rekenen: Richard Dawkins. Dawkins is een van de weinige wetenschappers die zich tot het selecte clubje van bij-het-brede-publiek-bekende-geleerden kan rekenen.

Uiteraard.

Deze Britse evolutiebioloog hield tot 2008 in Oxford dan ook de Charles Simonyi Professorsstoel ter bevordering van het begrip van de wetenschap bij het brede publiek. Duidelijk dus dat hij daar in ieder geval wist wat hem te doen stond. Of je hem nou hoort spreken, of één van zijn vele boeken leest, deze man weet helder, boeiend en met een prachtig brits gevoel voor humor de essentie van een bepaalde theorie te verduidelijken.

Continue reading “The Only Show in Town.”

Eiwitoverpeinzingen

Nou ja, in ieder geval eindelijk de lang verwachte uitleg over mijn projectvoortgang! Dus… de reden dat ik naast een korte inleiding niets meer vermeld heb is eenvoudig: er was tot voor kort niet zoveel spannends te vermelden. Bij aankomst bleek de magneet waarmee mijn metingen dienden te worden verricht niet te werken, maar dit zou hooguit een paar weekjes duren. Die tijd kon ik gebruiken om me in te lezen. De weken werden echter maanden en opeens was het begin november. Welkom in de wondere wereld der wetenschap. Ik stond op het punt om maar een alternatief project te gaan verzinnen toen het toch ineens lukte op het apparaat aan de praat te krijgen, met nog maar drie maanden voor de boeg.

Continue reading “Eiwitoverpeinzingen”