You are here

Hoe combineer je locatiedata met andere open bronnen?

 

Het web is één groot walhalla voor mensen die iets met data willen. Of dat nu marketeers zijn die het gedrag van klanten willen kunnen voorspellen, rechercheurs die de fraudekans willen identificeren, of werving- en selectiebureaus die Cv’s willen verrijken met bijvoorbeeld data van LinkedIn. Het wordt nog interessanter als daar ook locatiedata in kan worden meegenomen. Dat is waar de onderzoeksgroep Databases aan de Universiteit Twente zich onder andere mee bezighoudt. Eén van de projecten waar zij aan werken heeft de veelzeggende naam TimeTrails meegekregen.

Een interview van Mirjam Hulsebos met dr.ir. Maurice van Keulen.

Kwaliteit van data

Het COMMIT/project TimeTrails (zie kader) voegt hier de componenten ‘plaats’ en ‘tijd’ aan toe. De Universiteit Twente werkt in dit project samen met het Centrum voor Wiskunde & Informatica (CWI) en de Universiteit Utrecht. Maurice van Keulen: “Steeds meer mensen hebben een telefoon met GPS en daarmee laten ze een spoor na. Dat spoor bevat veel interessante informatie. Marketeers zouden er bijvoorbeeld het gedrag van mensen mee kunnen analyseren en ze nog gerichtere aanbiedingen doen. Een van de onderzoeken die wij hebben gedaan heeft betrekking op de technologie waarmee je op basis van het combineren van vrij op het web beschikbare data de route die mensen afleggen in kaart kunt brengen. Hiermee kun je bijvoorbeeld de looproute van iemand door een winkelstraat zien. Ook kun je nauwkeurig identificeren in welke winkels iemand binnen is geweest en hoe lang. Het GPS-spoor is alleen niet altijd even nauwkeurig. Ook veel data van het web is van marginale kwaliteit. Hoe bepaal je bijvoorbeeld de contouren van een winkelpad als je alleen adressen en kaartmateriaal van OpenStreetMap hebt? Wij werken aan technologie die adequaat met data van mindere kwaliteit kan omgaan door data van verschillende bronnen slim te combineren en speciaal aandacht te besteden aan onzekerheid rondom die data.”

Omgevingsinformatie verzamelen

Die kennis is ingezet in de marktcontext van partner EuroCottage, een verhuurder van particuliere vakantiehuisjes. Op hun portal willen ze vakantiegangers zo gericht mogelijk laten zoeken in het brede aanbod, dus niet alleen op bestemming en periode, maar ook op omgevingskenmerken. Dat laatste is lastig, want EuroCottage verhuurt woningen van derden en weet dus eigenlijk weinig van de plek waar die huisjes staan. Ze willen die omgevingsbeschrijvingen daarom volledig geautomatiseerd verrijken. “We doen dat met informatie die we extraheren van diverse websites (open data),” vertelt Van Keulen. “Dat is al behoorlijk complex. Maar nog mooier wordt het als we daar straks locatiegegevens aan kunnen toevoegen van mensen die zo’n huisje hebben gehuurd: welke plekken bezochten zij vanuit het vakantiehuisje? EuroCottage heeft daarom het plan om in de nabije toekomst klanten die GPS op hun telefoon aan laten staan korting te geven. Op die manier zien ze wat populaire uitstapjes zijn en hoe lang mensen ergens verblijven. Naar welke restaurants gaan ze? Naar welke bezienswaardigheden? Hoe interessant zijn die bezienswaardigheden? Dat is onder andere goed af te lezen aan de verblijfsduur. Het plan is om profielen op te bouwen van de omgeving op basis van open data van websites gecombineerd met locatiedata en berichten op social media van de telefoons van vakantiegangers.”

Het automatisch extraheren van specifieke informatie van websites heet ‘web harvesting’. Op dit moment wijst de onderzoeksgroep van Van Keulen nog aan welke websites er moeten worden gebruikt om een omgevingsprofiel te maken. In de toekomst willen ze hun ‘machine’ zo intelligent maken dat die zelf kan bepalen welke websites hij gebruikt. “Stel dat er in de bewuste vakantieweek een muziekfestival is in een naburig dorp. Dan wil je dat ook kunnen meenemen. Dat lukt nu wel als de gemeente dat festival vermeldt, maar niet als het festival alleen wordt aangekondigd op muzieksites die je niet op voorhand als bron zou gebruiken. Om het plaatje dan helemaal compleet te maken, wil je de voorkeuren uit het Facebookprofiel van de vakantieganger – bijvoorbeeld: ik ben een liefhebber van dancemuziek – koppelen aan de profielen van de vakantiehuisjes – er is een dancefestival op datum x in plaats y. Als je die informatie vervolgens kunt meenemen in de zoektocht van de bewuste klant naar de perfecte vakantiebestemming, dan is dat natuurlijk een geweldige dienst. Dat vergroot niet alleen de kans op een boeking aanzienlijk, maar ook de kans dat mensen een voor hen echt leuke vakantiebestemming weten te vinden.

Automatisch risicoprofielen genereren

Een andere partner is de Inspectie van het ministerie van Sociale Zaken. Zij leveren diverse fraudepreventiediensten, onder meer aan gemeenten. Van Keulen geeft een voorbeeld: “Als iemand een bijstandsuitkering aanvraagt, dan is de desbetreffende gemeente verantwoordelijk voor het tegengaan van fraude daarmee. Ze gebruiken hiervoor onder meer een risicoprofiel van de Inspectie. Dat profiel wordt gemaakt op basis van een aantal indicatoren, zoals gepleegde fraude in het verleden en de auto(’s) die iemand op zijn/haar naam heeft staat. Dat werkt best goed, maar het is natuurlijk gebaseerd op een papieren werkelijkheid. Ze hebben ons gevraagd of wij dat profiel kunnen verrijken met indicatoren afkomstig van internetbronnen, zoals bijvoorbeeld Twitter, Facebook, Marktplaats (genereert iemand inkomen door een handeltje te drijven op Marktplaats?) en RunKeeper (gaat iemand ineens buiten werktijden sporten vanwege een (zwart) baantje?).”

Dat is nog een hele klus, want accountnamen lijken lang niet altijd op iemands echte naam. Bovendien zijn er honderden mensen die Henk Jansen of Jan de Vries heten. Hoe weet je zeker dat je de juiste hebt? Daarmee kom je meteen ook op het vlak van ethiek. “Je verzamelt een heleboel informatie over mensen,” vertelt Van Keulen. “Ook over mensen die nog nooit een bijstandsuitkering hebben aangevraagd en bij wie het niet zou opkomen om daar ooit mee te frauderen, maar die toevallig dezelfde naam hebben als iemand met een hoog risicoprofiel. Daarom werken wij nauw samen met een ethisch adviseur. Zij wordt bij veel onderzoeksprojecten betrokken om te helpen de gevoeligheden bloot te leggen en mee te denken over oplossingen om daar op juiste wijze mee om te gaan. Wij vertalen die oplossingen vervolgens weer in technologie.”

Van Keulen is helder. “We werken op het randje; ik zie het zelfs als mijn maatschappelijke plicht om de ethische grenzen op te zoeken.” Het zit hem duidelijk niet lekker dat je met het combineren en analyseren van data ook veel onverantwoorde dingen kunt doen. “Mijn ultieme droom voor het tegengaan van fraude is dat we een black box kunnen ontwikkelen waarin we alle persoonsgegevens versleuteld verzamelen. De black box doet volautomatisch analyses, waarbij alleen persoonsgegevens ontsleuteld kunnen worden als het systeem die burger voldoende verdacht acht. In geval van een concrete verdenking heeft de overheid namelijk juridisch de privileges om zo’n persoon aan een nader onderzoek te onderwerpen. Persoonsgegevens van ‘nette burgers’, inclusief mensen die toevallig eenzelfde naam hebben als een uitkeringsaanvrager, blijven hiermee ontoegankelijk, zelfs voor de ambtenaren; niemand heeft immers meer de sleutel tot die gegevens.”

Technisch levert deze droom behoorlijk wat uitdagingen op, want hoe kun je de kwaliteit van de analyses garanderen als niemand het kan controleren? Maar ook juridisch moeten er nog de nodige hordes worden genomen, want de huidige wet maakt geen onderscheid tussen versleutelde en onversleutelde persoonsgegevens.

Impact op de maatschappij

Voorlopig is dit dus nog een utopie. Vandaar dat Van Keulen, wiens hart bij het onderwerp fraudepreventie ligt, het vooralsnog met iets minder gecompliceerde maar daarom niet minder leuke projecten moet doen. Zijn ogen glinsteren als hij vertelt: “Onze UT-onderzoeksgroep is benaderd door Arcadis en de Milieudienst Rijnmond om ze te helpen illegale lozingen op te sporen met behulp van social media. Ze gebruiken nu al sensoren om bijvoorbeeld stank te identificeren. Dat gaan wij koppelen aan tweets van mensen die klagen over stank, of die iets zeggen over oppervlaktewater dat vervuild lijkt. We staan nog aan het begin van dit project, maar het lijkt veelbelovend.”

Hij is ook helder waarom hij zoveel heeft met dit soort thema’s. “Locatiegebonden data zijn tot nu toe vooral het speelveld geweest van marketeers die meer inzicht willen krijgen in klantgedrag. Dat is heel mooi, maar als het gaat om het opsporen van fraude of illegale lozingen dan praat je over een serieuze impact op de maatschappij.” Bevlogen vertelt hij: “Mijn drive is anderen in staat stellen coole dingen te doen met big data. Een hoogleraar bio-informatica vertelde me een tijd geleden dan zijn AIO’s nu vaak drie van de vier jaar bezig zijn met wat ik noem ‘datageneuzel’; dat vind ik echt dood- en doodzonde. Als wij die tijd al met een jaar zouden kunnen reduceren door ze in staat te stellen databronnen makkelijker te combineren en beter om te gaan met onzekere data, dan verdubbelt hun onderzoekstijd. Natuurlijk, zoals ik al aangaf heb ik nog veel grotere dromen, maar dit doel is echt op niet al te lange termijn haalbaar. Het is prachtig om daar een bijdrage aan te leveren.”

Naar de markt brengen

Lang niet alle onderzoek dat Van Keulen en zijn collega’s verrichten heeft betrekking op COMMIT/projecten. Toch ondervindt hij een meerwaarde in de betrokkenheid met deze publiek-private onderzoekscommunity. “Vanuit dat potje is er budget om succesvolle onderzoeksresultaten te valoriseren, dat wil zeggen: uit te ontwikkelen tot software die gebruiksklaar is. Zo hebben we bijvoorbeeld met Arcadis visualisatietechnologie ontwikkeld om via social media analyses te doen op wat stakeholders van infrastructuurprojecten vinden. Denk bijvoorbeeld aan onderzoek onder omwonenden, weggebruikers en gemeenten. We hebben een interactieve kaart ontwikkeld die vanuit grote hoeveelheden data exacte geaggregeerde informatie kan tonen en snel genoeg kan updaten voor vloeiend inzoomen en verschuiven. Voor Arcadis en andere potentiële gebruikers is het belangrijk dat we hiervoor gebruikmaken van open source software en dat het niet te complex is, zodat zij hier zelf op kunnen doorontwikkelen. In het COMMIT/potje vonden we budget om te zorgen voor eenvoudige installatie, configuratie en documentatie van de software. Bovendien kunnen we hiermee twee demo’s opzetten, omdat we het idee hebben dat je met de MonetDB, de database van COMMIT/partner CWI, betere resultaten kan behalen. Commerciële bedrijven zoals Arcadis investeren niet snel in specialistische en ogenschijnlijk meer exotische technologie als de return-on-investment niet duidelijk is. Met die twee demo’s kunnen wij snel en gemakkelijk het verschil aantonen. Daar heeft Arcadis baat bij, maar wij zelf ook. Want op deze manier bereiken ook de meer complexe onderzoeksresultaten de markt. Wetenschappelijk is het niet interessant, maar je moet dit soort stappen zetten om ervoor te zorgen dat de subsidie – belastinggeld van de Nederlandse burger – ook daadwerkelijk leidt tot innovatie en verbeteringen in de maatschappij en de economie. En dat is precies wat COMMIT/ stimuleert.”

TimeTrails (Spatiotemporal Data Warehouses for Trajectory Exploitation)
Ook dit is een COMMIT/project.

 

Bron: ICT Magazine