Menselijke taal, begrepen door een computer

Menselijke taal, begrepen door een computer

Hoe leer je computers het gebruik van een specifieke emoticon of structuur van een tekst even goed te begrijpen als een mens? Die vraag staat centraal in het promotieonderzoek van econometrist Alexander Hogenboom, die zijn proefschrift op vrijdag 13 november 2015 verdedigt aan de Erasmus Universiteit Rotterdam. Want een goede sentimentanalyse houdt niet alleen rekening wat er wordt gezegd, maar ook met hoe deze boodschap wordt overgebracht. ​

Gebruikers zetten dagelijks een stortvloed aan informatie online, zoals beoordelingen, tweets en Facebook posts. Deze ‘user-generated content’ is een goudmijn voor bedrijven, omdat stemmingen en meningen van mensen een belangrijke rol spelen in (bedrijfs)economische processen. Denk bijvoorbeeld aan reputatieonderzoek of beurshandel op basis van algoritmen.

Omdat de hoeveelheid informatie veel te veel is om door mensen geïnterpreteerd te worden, monitoren geautomatiseerde systemen meningen van grote aantallen belanghebbenden, zoals consumenten. Maar voor een computer blijft het lastig om te bepalen of een tekst nu een positief of juist negatief sentiment heeft. Het bepalen van dergelijke ‘polariteit’ van tekst wordt nu doorgaans gedaan met taalkundige analyses op een laag niveau. Systemen baseren hun oordeel vaak alleen op specifieke woorden en woordsoorten.

Intelligente systemen
Maar het sentiment zou niet alleen bepaald moeten worden op basis van wat er wordt gezegd, suggereert het onderzoek van Hogenboom. Een goede sentimentanalyse houdt ook rekening met hoe de boodschap wordt overgebracht. Oftewel: hoe kunnen we computers zo intelligent maken dat ze menselijke taal minstens even goed kunnen interpreteren als een mens zelf?

In zijn proefschrift laat Hogenboom zien hoe geautomatiseerde systemen de polariteit van tekst nauwkeuriger zouden kunnen bepalen door ook de semantiek en de structuur van tekst in de sentimentanalyse te betrekken. Volgens de promovendus kan het sentiment nauwkeuriger worden bepaald door gebruik te maken van contextuele informatie, zoals de interactie tussen emoticons en woorden in de tekst. Gebruikte emoticons kunnen sentiment in specifieke tekstsegmenten uitdrukken, benadrukken of verduidelijken.

Beter begrip van het sentiment van een tekst is ook mogelijk wanneer de sentimentanalyse wordt geleid door een analyse van de retorische structuur van de tekst, of in ieder geval van de sterkst gepolariseerde segmenten. Het sentiment in conclusies kan zo anders behandeld worden dan het sentiment in bijvoorbeeld achtergrondinformatie.

Verder kunnen computers het sentiment in teksten beter leren identificeren middels zogenaamde ‘semantische relaties’ tussen en binnen talen. Een voorbeeld: een woord als ‘vet’ kan in het Nederlands gebruikt worden om iets gaafs aan te duiden, maar een letterlijke vertaling naar het Engels is onzinnig. Omgekeerd zou een vertaling van ‘cool’ naar ‘koel’ ook geen bruikbare woordenlijst opleveren in het Nederlands. Door gebruik te maken van de semantische relatie tussen de betekenis van het Nederlandse ‘vet’ en het Engelse ‘cool’ wordt dit probleem een stuk kleiner.

Over Alexander Hogenboom
Alexander Hogenboom studeerde Economie en Informatica (cum laude) aan de Erasmus Universiteit Rotterdam. Zijn onderzoek heeft betrekking op het faciliteren en ondersteunen van (bedrijfs)economische processen met behulp van toepassingen en technieken uit de informatica. Hogenbooms onderzoek is hierbij vooral gericht op semantische informatiesystemen, systemen voor het ondersteunen van besluitvormingsprocessen en intelligente systemen voor informatie-extractie, met in het bijzonder een focus op systemen voor geautomatiseerde sentimentanalyse.

Sinds juli 2009 heeft hij zijn promotieonderzoek uitgevoerd onder de auspiciën van het Erasmus Center for Business Intelligence (ECBI) van het Erasmus Research Institute of Management (ERIM), het Econometrisch Instituut van Erasmus School of Economics (ESE), Erasmus Studio, en de School for Information and Knowledge Systems (SIKS). Hogenbooms promotieonderzoek is gelieerd aan het nationale onderzoeksprogramma COMMIT.

Meer informatie

Team Persvoorlichting Erasmus Universiteit Rotterdam, T 010 4081216 of E press@eur.nl