You are here

Toegangspoort tot dataschat

... Shayan Shahand. Terrabytes aan data uit MRI-scans, CT-scans of DNA-analyses; ziekenhuizen krijgen steeds meer te maken met big data. Hoe ga je om met al dit soort grote files en zorg je dat er een gebruiksvriendelijke manier is om de juiste data bij de juiste persoon te krijgen? Shayan Shahand ontwikkelde voor biomedische wetenschappers enkele science gateways, een soort toegangspoorten tot wetenschappelijke data, waarmee het mogelijk is deze op supercomputers makkelijk te analyseren.

Zorgen dat anderen zo goed mogelijk samen onderzoek kunnen doen, en -zij het indirect- daarmee mensen beter maken, dat is de missie van Shayan Shahand.

Het uitzicht vanaf Shahands kamer op de tweede verdieping van het AMC is niet al te indrukwekkend. Zelf denkt de informaticus daar anders over. 'Daar op het dak was een meeuw aan het broeden. In de tijd dat ik mijn proefschrift schreef kon ik alles goed volgen. Op de dag dat ik mijn definitieve versie inleverde, vlogen de jongen uit. Mooi toch!'

De informaticus begon vier jaar geleden aan een lastige opdracht: zorgen dat er een systeem kwam waarmee levenswetenschappers zoals neurowetenschappers goed aan de slag konden met hun big data. 'Toen ik begon aan dit project wilden de biomedici de supercomputers van SURFSara wel gebruiken, maar ze konden er niet mee uit te voeten. Het intern ontwikkelde programma om het aan te sturen was te ingewikkeld voor de onderzoekers. Mijn doel was een simpel te gebruiken systeem te bouwen, een 'toegangspoort' tot de data en supercomputers, een science gateway.'

3D representatie van Shahand’s eigen brein, 48 tot 72 uur rekentijd op één computer

Data en rekenkracht

Een voorbeeld van de big data waar de neurowetenschappers mee te maken krijgen zijn 3D representaties van de hersenen. Bijvoorbeeld om te ontdekken of er bij bepaalde aandoeningen afwijkingen in te zien zijn. Hierboven een voorbeeld van Shahands eigen brein. Zo'n 3D weergave is opgebouwd uit meerdere MRI-scans waarbij in drie richtingen steeds een 2D plakje van de hersenen gescand wordt. Het kost een computer 48 tot 72 uur om hier een 3D model van te maken. 'Vaak wordt zo'n scan vervolgens gecombineerd met een ander soort scan waarop de neuronenstromen zichtbaar zijn. Het maken en samenvoegen van die scans kost in totaal zo'n 100 uur per proefpersoon. Je hebt minstens tweehonderd proefpersonen in het onderzoek. Totaal ben je dus 200 keer 100 uur, is 83 dagen non stop aan het rekenen op één computer. En meestal zijn de onderzoeksgroepen nog veel groter. Dat wil je dus niet op je eigen computer doen. Dat wil je op een cluster of supercomputer doen. En vanwege de ingewikkelde relatie tussen alle data, is goed databeheer noodzakelijk.'

Problemen

Om de gateway te bouwen moest Shahand eerst in kaart brengen wat precies de problemen waren. 'Ik moest duidelijkheid creëren: wie heeft wat nodig, welke data moeten door welke computerprogramma's gezien worden en hoe krijg je gegevens bij de juiste persoon?' Het lukte Shahand om helderheid in de chaos te scheppen. Hij identificeerde drie pilaren die betrokken zijn: data, de verwerking daarvan en de samenwerking.

Drie pilaren: data, verwerking en samenwerking

Data, verwerking, samenwerking

Levenswetenschappers hebben te maken met ingewikkelde en enorme data. Hoe en waar sla je je files overzichtelijk op? Daarnaast gebruiken ze verschillende programma's om de data te verwerken. Soms gaat het over meerdere stappen: je stopt de data eerst in het ene programma, en wat er uitkomt weer in het volgende. Het berekenen van zo'n programma kan veel tijd kosten. Een volgend probleem is de samenwerking en het delen en omgaan met de data. In de neuroscience heb je bijvoorbeeld eerst te maken met de technicus die de MRI-scanner kalibreert. De onderzoeker nodigt de proefpersonen uit. De technicus slaat de MRI-data op op een netwerkschijf en deelt die weer met de onderzoeker. Die doet de analyse en wil zijn data kunnen delen met een andere onderzoeker of zijn begeleider. Maar zo veel megafiles stuur je niet even in de bijlage van een mailtje. En het is belangrijk dat bijgehouden wordt waar de data is, wat er mee gebeurd is en wie er bij kan.

Toegangspoort generaties

Shahand begon aan de eerste en tweede generaties 'toegangspoort', de prototypen. Deze werden ingezet bij een paar colleges. Master en bachelorstudenten neuroscience gebruikten ze om hun data te verwerken. De derde generatie was een toegangspoort voor neurowetenschappers en bio-informatica wetenschappers. 'Het werkte goed, maar er was meer nodig op het gebied van data management.' Er kwam een vierde generatie. 'Die had meer nodig op het gebied van samenwerking.' Zo ontwikkelde Shahand en zijn collega's de science gateway steeds verder. 'Na elke stap brachten we verslag uit over onze ontwikkelingen aan anderen in het vak.'

Voordelen

Met de vierde generatie van de toegangspoort was Shahand behoorlijk tevreden. 'Er zijn heel veel voordelen aan het gebruiken van de science gateway. Voorheen was de oplossing voor het niet om kunnen gaan met supercomputers: je onderzoeksvraag zo klein maken, dat hij paste binnen de beschikbare middelen, binnen de beschikbare rekenkracht. Bijvoorbeeld door het aantal proefpersonen te verlagen. Daardoor werden de resultaten minder significant. Met de nieuwe science gateways kunnen de neurowetenschappers hun onderzoek opschalen. Zodat ze statistisch betere resultaten halen.'

'Bovendien is het veel simpeler te gebruiken en is de data toegankelijker. Stappen waar eerst mensen een file handmatig over moesten dragen, gaan nu automatisch. Bovendien wordt er een soort logboek bijgehouden waarin precies staat wat er allemaal gebeurd is met de data. Waardoor het onderzoek beter reproduceerbaar is. En resultaten zijn eenvoudiger te delen met collega's. Ook het tijdvretende klusje van data die uit het ene programma rolt, invoeren in het volgende programma, is geautomatiseerd. De onderzoeker start de eerste stap, en het systeem doet de rest. Onderzoekers hoeven zich geen zorgen meer te maken over waar hun data te bewaren, hoe het over te zetten naar een andere computer, alles gaat automatisch.'

Rosemary

Kortom, een goed functionerend systeem. Inmiddels werkt Shahand als postdoc bij de e-science groep op het AMC aan de vijfde generatie van de nieuwe gateway. Doel is de science gateway te finetunen en nog beter geschikt te maken voor alle gebruikers. Het is de eerste versie die hij een naam heeft gegeven: Rosemary. 'In de tuin van mijn vader vroeger groeide veel rozemarijn. En ik houd heel veel van de geur bij het koken’, lacht hij.

Het idee is om Rosemary nog verder te ontwikkelen, zodat het makkelijker aangepast kan worden voor meer andere vakgebieden. 'We hebben al aangetoond dat dit mogelijk is. Een masterstudent maakte een andere versie in een maand.' Het idee is om de science gateway gratis open source aan te bieden, maar dat ze wel betaald worden om het systeem aan te passen aan de voorkeuren van de gebruiker. Op die manier is het commercieel toch interessant.

Shahand had ook voor het grote geld kunnen kiezen en gaan werken bij een bank of verzekeraar. 'Het werk zou misschien niet eens heel anders zijn. Maar nu weet ik dat ik, hoe indirect ook, mensen help met beter worden. Dat geeft me een goed gevoel.'

Shayan Shahand (1984) haalde zijn bachelor in software engineering aan de Shahid Beheshti university in Tehran, Iran. Zijn master in computer engineering aan de Nanyang Technological university in Singapore. 29 oktober 2015 promoveerde hij met het proefschrift 'Science Gateways for Biomedical Big Data Analysis' bij de e-science groep van het AMC aan de UvA. Zijn onderzoek werd mede gefinancierd door COMMIT/project Data2Semantics.