You are here

Emoties vinden in twitter #geenzin #zinin

Het weer, vakantie, een concertbezoek of gewoon een blije kat, er is altijd wel een reden te vinden om te twitteren. Honderdduizenden tweets vliegen alleen al in Nederland elke dag de virtuele wereld in. Voor taaltechnoloog Florian Kunneman een schat aan informatie. Lukt het hem de computer tweets te laten interpreteren als een mens? door Edda Heinsman

Het nieuws detecteren en zelfs voorspellen uit tweets, dat was de droom waar Kunneman zijn onderzoek mee begon. 'In de aanloop van een staking uiten mensen vooraf al hun ongenoegen online. Wanneer twee beroemdheden scheiden, gonst het op twitter van de geruchten.' Florian Kunneman wilde met behulp van statistiek en informatie-extractie het nieuws uit al die tweets filteren. Hij kwam er echter al vrij snel achter dat het voorspellen van nieuws uit tweets iets te ambitieus was. 'Een leuke mop op twitter wordt heel vaak geretweet. Dat pik je dan op, maar dat is geen nieuws.'

Kunneman besloot zijn onderzoeksvraag bij te stellen. Zou hij een overzicht kunnen krijgen van geplande gebeurtenissen, door alleen te kijken naar tweets? 'Mensen schrijven vaak over dingen waar ze naar uitkijken, bijvoorbeeld een concert of voetbalwedstrijd. Soms zetten ze de exacte datum erbij, of ze tellen af 'nog drie nachtjes slapen'. Dat is het voordeel van geplande gebeurtenissen, er wordt een tijdseenheid genoemd, een datum of het woord 'dagen'. Zulke tijdseenheden blijken een bruikbare aanwijzing voor het vinden van gebeurtenissen, als ze vaak samen met bepaalde woorden of hashtags genoemd worden.' Kunneman ontwikkelde Lama-events systeem, waarmee het goed lukt om grote concerten en evenementen te voorspellen.

Emoties
Kunneman stortte zich niet alleen op geplande gebeurtenissen. Hij vroeg zich ook af of je een computer emoties kunt leren herkennen. 'Kun je automatisch detecteren hoe de twitteraar zich voelt? Hierbij zou je zelf tweet voor tweet de emoties kunnen bepalen van een bericht. Die berichten label je, voed je aan je algoritme en vervolgens ga je kijken welke regels je systeem ontdekt.' Maar dit is ontzettend tijdrovend. De onderzoeker gebruikte een slimmere manier. Hij keek naar hashtags, een label dat context geeft aan de tweet. De hashtag vertelt bijvoorbeeld waar de tweet over gaat of hoe de twitteraar zich voelt. 'Op een bepaalde manier heeft de twitteraar zijn eigen tweet al geclassificeerd. Daar kon ik mooi gebruik van maken.'

Tekstvak:  Top 3  best en slechtst te voorspellen hashtags.Kunneman keek naar vierentwintig hashtags: #zinin, #LML (love my life), #HML (hate my life), #yay, #wow, enzovoorts. Hij voedde zijn systeem met honderdduizenden tweets en liet automatisch detecteren bij welke hashtag welke woorden er uit sprongen. Vervolgens haalde hij van een nieuwe set tweets de hashtags weg, en bekeek in hoeverre het nog steeds lukte om echt uit de context van het bericht zelf op te maken wat de bijbehorende emotie van de twitteraar was. 'Het lukte het beste om de hashtag zinin er uit te pikken. Zonder de hashtag weet je ook waar het bericht over gaat, omdat hetgeen eraan vooraf gaat iets positiefs is.'

Hoewel er geen hashtag voor is, keek Kunneman samen met een student toch naar de emotie 'agressie'. Het resultaat is te vinden op de website: www.youarewhatyoutweet.nl. Vul je twitter-profiel in en de site voorspelt of je een man of vrouw bent en geeft een agressiescore.

Sarcasme
De emotie waar Kunneman het meest nieuwsgierig naar was, is sarcasme. 'Voor mensen al niet eenvoudig, maar voor een computer helemaal ontzettend moeilijk om te begrijpen.' Hij voedde het systeem met hashtags als #sarcasme en #not. 'Bij sarcastische tweets vind je vaak de woorden als nou, lekker en gezellig. Opvallend was dat je ook de woorden geschiedenis en Duits tegenkomt. Dat zijn vooral scholieren die met huiswerk bezig zijn', lacht de onderzoeker. 'Het weer is nog zo'n onderwerp waar mensen sarcastisch over zijn.' Over het algemeen lukte het de computer redelijk goed om sarcastische tweets er uit te pikken, ook zonder hashtag. Maar er waren uitzonderingen. 'Wanneer mensen sarcastisch zijn, gaan ze in superlatieven praten, ze zijn overdreven positief. Het lastige is dat als mensen echt enthousiast zijn over iets, deze superpositieve tweets ook als 'sarcastisch' aangemerkt worden door het algoritme.'

Anticipointment
Het lukte Kunneman geplande gebeurtenissen te vinden, en hij vond emoties, zelfs sarcasme. Kon hij beide ook koppelen? 'Ik wilde emoties koppelen aan de gebeurtenissen, en dan zowel vooraf als na afloop. Ik hoopte vooral op anticipointment, een combinatie van anticipation (verwachting) en dissapointment (teleurstelling). Dat mensen ergens heel erg naar uitkijken en dat het op een teleurstelling uitloopt. Het was behoorlijk lastig om deze emotie te vinden in tweets. Toch is het gelukt. Het bleek een behoorlijk rommelige correlatie, mensen zijn toch vooral positief op twitter. Alleen als er echt iets mis ging, waarbij mensen het gevoel hadden dat er iets werd afgepakt, een voetbalwedstrijd die werd verloren, een festival dat wegens storm werd afgelast, een concert van de Red Hot Chili Peppers waar iets mis was met het geluid, dan lukte het om anticipointment te detecteren. Waar ik op hoopte, bijvoorbeeld een gehypete film als klucht te kunnen ontmaskeren, bleek te lastig. Wel jammer dat dat niet gelukt is.'

Hoewel het aantal tweets dat hij zelf verstuurde vóór zijn promotie-onderzoek naar eigen zeggen 'op een Micky Mouse hand te tellen was', en hij intussen iets actiever maar nog steeds niet bijzonder spraakzaam is op twitter, is Kunneman enorm fan van het medium. 'Twitter is geweldig, het geeft een schat aan informatie. De hoogtijdagen waren tijdens het WK voetbal in 2014. Per dag waren er wel twee miljoen tweets te downloaden. Inmiddels is dat afgezakt tot minder dan de helft. Het medium is nog populair bij nieuwsmedia en politici, maar verder wordt het steeds minder gebruikt. Vooral jongeren gebruiken andere media.'

Kunneman heeft gekeken of zijn algoritmes ook toepasbaar zijn op andere media, maar dat blijkt lastig. 'Op facebook schrijven mensen enorme verhalen op persoonlijk vlak, op reddit enorme discussies. Twitter heeft die begrenzing van 140 karakters, dat is echt een voordeel. Maar je leeft bij de gratie van het bedrijf. Ik kan nu in een klap miljoenen tweets binnenhalen. Wat als zij besluiten die kraan dicht te doen, of als mensen massaal hun tweets afschermen?'

#yolo
Kunneman hoopt voorlopig nog even gebruik te kunnen maken van tweets. Hij gaat verder als postdoc binnen de groep waar hij nu promoveert. 'Ik werk bijvoorbeeld aan een project dat de leesbaarheid van een tekst automatisch in kaart brengt. Verder wil ik ontwikkelingen in de taal onderzoeken. Neem het woord yolo (you only live once), dat was één jaar heel populair. Hoe heeft zich dat ontwikkeld?' Als groter doel ziet Kunneman het beter communiceren met robots of bots. 'En dan niet een bot van een site waar je een product kunt bestellen, maar meer als een soort vriend, met wie je echt kan praten en die een gesprek op gang kan houden. Waarmee je alles kan bespreken en die ook emoties als sarcasme begrijpt. Dat hij zich houdt aan de normale communicatieregels; je uit laat praten, weet wanneer hij door moet vragen en die niet op eens op een ander onderwerp overgaat.' Nu maar hopen dat mensen nog even door blijven tweeten.

INFINITI (Information retrieval for information services)
Ook dit is een COMMIT/ project

Florian Kunneman (1987) haalde zijn bachelor Taal- en Cultuurstudies aan de universiteit van Utrecht. Hij deed twee masters, Communicatie- en Informatiewetenschappen aan de Rijksuniversiteit Groningen en Taal- en Spraaktechnologie aan de Radboud universiteit Nijmegen. 21 maart 2017 is hij succesvol gepromoveerd met het proefschrift 'Modeling patterns of time and emotion in twitter. #anticipointment'. Zijn onderzoek werd deels gefinancierd door Commit.