You are here

Leren van ongelabelde big data

Is dit een hond of een kat? Hoe duur is dit huis? Is deze persoon ziek? Waar gaat deze website over? - allemaal zaken die je een computer kunt leren herkennen. Jesse Krijthe onderzoekt hoe goed dat classificeren gaat als je de computer ongelabelde voorbeelden voorschotelt. door Edda Heinsman

Binnen het vakgebied Machine Learning, waarbij computers zelf leren, gaat een groot deel van het onderzoek over Supervised learning: het leren voorspellen van discrete uitkomsten, het leren classificeren. Je voert de computer bijvoorbeeld heel veel hondenplaatjes zodat hij zelf een hond leert herkennen. Of je voert de computer heel veel woningen met de bijbehorende prijs en locatie, zodat hij zelf kan aangeven hoe duur een huis is. Jesse Krijthe vroeg zich af of het zin heeft om de computer naast gelabelde hondenplaatjes ook plaatjes te voeren die niet gelabeld zijn. Semi-supervised learning heet dat. Heeft de computer iets aan al die ongelabelde voorbeelden? Leert hij dan beter een hond te herkennen?

'In eerste instantie denk je van niet', geeft Krijthe toe. 'Wat heeft de computer aan een bak plaatjes die niet gelabeld zijn?' Toch besluit hij het te onderzoeken. 'Overal hoor je over big data, maar die is vaak niet verzameld met een bepaald doel en dus ook niet goed gelabeld. Het zou heel veel tijd en geld schelen als het zou kunnen. Dan hoef je niet al die hondenplaatjes te labelen om de computer te vertellen hoe een hond eruit ziet. Het zou erg goed uitkomen als het zou kunnen werken.'

Als je er iets langer over nadenkt, is het ook weer niet zo'n heel vreemde gedachte. Wij mensen leren ook niet alleen supervised. 'Je ouders hebben niet bij elke hond gezegd dat het een hond is. Je hebt op een gegeven moment zelf bedacht en geleerd hoe ze er nog meer uit kunnen zien nadat iemand er een paar heeft aangewezen. Je ziet honden in verschillende groottes en kleuren. Ook al wordt het niet expliciet verteld, je leert zelf dat een hond er nog anders uit kan zien.'

Gaat het hier om een plaatje van een hond, of een stukje gegrilde kip? Niet eenvoudig om het verschil te zien. Fotocredit: Karen Zach @teenybiscuit

Averechts
Er bestaan allerlei verschillende classifiers om naar data te kijken. Krijthe vergeleek wat het effect was van het toevoegen van ongelabelde voorbeelden aan verschillende classifiers. 'De conclusie: we kunnen heel vaak niet garanderen dat het gaat helpen om ongelabelde data toe te voegen. Voor de meeste classificeerders kan het zelfs een averechts effect hebben. Om bij het voorbeeld van het hondenplaatje te blijven, in sommige gevallen wordt zo'n classifier zelfs slechter in het herkennen van honden als je willekeurige foto's toevoegt.'

Toch bleken er uitzonderingen. 'In een aantal specifieke gevallen heeft het zin extra data toe te voegen. Voor een aantal van deze technieken is het mogelijk ze zo aan te passen dat als je ongelabelde data toevoegt, ze erop vooruitgaan. Zeg maar meer willekeurige plaatjes toevoegen en dan beter worden in het herkennen van honden!' zegt Krijthe enthousiast. Dat klinkt als ultieme kunstmatige intelligentie. Snel nuanceert hij: 'Hoewel béter worden, ze worden in elk geval gegarandeerd niet slechter.' De methodes die volgens Krijthes onderzoek baat hebben bij het toevoegen van ongelabelde data zijn behoorlijk oud. 'Je zou kunnen zeggen, er is al iets mis met die methodes die hier beter van worden, maar die methodes worden nog wel gebruikt.'

Least Squares Classifier
De least squares classifier, ook wel de Fisher Classifier, werd al in de jaren 30 door statisticus en bioloog Ronald Fisher bedacht. Het is een van de oudste classificeerders die er is. Voor deze klassieke classificeerder blijkt het toevoegen van ongelabelde data wel degelijk tot een beter resultaat te leiden, of in elk geval niet tot een slechter resultaat. Deze aangepaste methode noemt Krijthe Implicitly constraint semi-supervised learning. 


Beide conclusies vond Krijthe interessant. 'Voor sommige methodes is het dus echt strikt onmogelijk te garanderen dat ze niet slechter worden door toevoegen van ongelabelde data. En voor een enkele methode blijkt dat wel te kunnen. Dat laatste was toch onverwacht. En hoewel het eerste misschien verwacht was, vind ik het interessant dat iemand het eindelijk een keer heeft bewezen. Er zijn allerlei claims in de literatuur dat dit wel mogelijk zou moeten zijn, en ik sluit velen daarvan uit. Dat is nieuw. Er zijn veel meer mensen die dit geclaimd hebben, maar niemand heeft het op deze manier bewezen.'

'Het is een heel theoretisch resultaat, toch heeft het een grote impact op ons kleine stukje onderzoekswereld. Het zegt iets over waar je niet meer naar hoeft te kijken. En het onderzoek onderstreept dat je heel erg op moet passen met ongelabelde data. Het is een mooie droom om uit al die big data informatie te halen, maar die data is niet altijd verzameld voor het doel waarvoor jij het wil gebruiken. Mijn onderzoek bewijst dat het ook niet zomaar te gebruiken is.'

Carrière
​Krijthe begon zijn wetenschappelijke carrière als student econometrie. 'Ik vroeg me af of je veel van de keuzes die je bij econometrische modellen moet maken niet ook door een computer kunt laten nemen. In hoeverre is het werk van een statisticus of datascientist te automatiseren?' Dus stapte Krijthe na zijn bachelor over op computer science in Delft, waar hij aan de slag ging met machine learning. De vraag in welke mate je de mens nodig hebt, houdt hem nog altijd bezig. 'Het is een belangrijk onderwerp in mijn proefschrift: welke dingen kun je automatisch doen en weet je dan ook zeker dat het goed gaat? Eerst dacht ik dat het zeker mogelijk zou zijn het werk van een statisticus te doen zonder de mens, inmiddels ben ik wat genuanceerder. Het helpt vaak wel als er een expert aan te pas komt om tot betere waarheidsvinding te komen. Zo'n deskundige heeft toch kennis in zijn hoofd die niet in de dataset zit.' 

Jesse Krijthe (1988) haalde zijn bachelor econometrie en operationele research aan de Erasmus Universiteit en zijn master computer science aan de Technische Universiteit Delft. 2012 begon hij daar aan zijn promotieonderzoek. Eind 2017 hoopt hij aan de Universiteit Leiden te promoveren met het proefschrift 'Robust semi-supervised learning: projections, limits and constraints'. Zijn onderzoek werd gefinancierd door Commit, binnen het project Data2Semantics.