Universiteit Leiden

nl en

Kinderverhalen als venster om inlevingsvermogen te onderzoeken

Onderzoeker Max van Duijn en promovendus Bram van Dijk passen taalmodellen toe op verhalen verteld door kinderen om zo hun inlevingsvermogen te onderzoeken. Voor dit onderzoek ontvingen zij de Best Paper Award tijdens de Computational Natural Language Learning conferentie in Singapore.

‘Ik gebruik taal en verhalen als venster om bepaalde cognitieve vaardigheden, in het bijzonder inlevingsvermogen of Theory of Mind, te onderzoeken’, vertelt Max van Duijn. Hij is universitair docent aan het Leiden Institute of Advanced Computer Science (LIACS). Hoewel verhaalbegrip bij jonge kinderen veel is onderzocht, is er nog maar weinig bekend over wat voor verhalen kinderen van basisschoolleeftijd zelf spontaan bedenken en vertellen. Daaruit ontstond het idee om ChiSCor (Children’s Story Corpus) samen te stellen, een database van verhalen verteld door kinderen. Met behulp van computationele technieken analyseren Van Duijn en Van Dijk de samenhang tussen structuren in de verhalen en het inlevingsvermogen van de kinderen.

Kinderen aan het woord

Samen met een team van wisselende onderzoeksassistenten gingen Van Duijn en Van Dijk langs bij schoolklassen, een buurtcentrum en buitenschoolse opvang om verhalen van kinderen te verzamelen. Ze besloten de kinderen niet één voor één uit de klas te halen, maar ze hun verhaal te laten doen in de groep. Van Duijn: ‘We hebben er bewust voor gekozen kinderen in hun natuurlijke omgeving te laten, zodat ze het verhaal in principe niet aan ons onderzoekers vertellen, maar aan hun groepsgenoten.’

Taalmodellen trainen

Van Duijn beschouwde zichzelf in eerste instantie meer als een ‘consument’ van de informatica: iemand die de technieken gebruikt maar zelf niet bijdroeg aan de ontwikkeling ervan. ‘Maar dat is in de loop van het project veranderd. Dat heeft onder meer te maken met het verschijnen van grote taalmodellen zoals ChatGPT.’ Voor het trainen van taalmodellen worden grote hoeveelheden tekst gebruikt. Op basis van deze data produceren taalmodellen representaties van hoe verschillende taalelementen zich tot elkaar verhouden.

‘De kwaliteit van de trainingsdata is misschien wel belangrijker dan de kwantiteit.’

Er was tot nu toe minder aandacht voor het type trainingsdata. Tegenwoordig proberen onderzoekers ook kleinere en gerichtere datasets te gebruiken. ‘De kwaliteit van de trainingsdata is misschien wel belangrijker dan de kwantiteit,’ legt Van Dijk uit. In hun onderzoek lieten Van Duijn en Van Dijk zien dat je met relatief weinig data een computer al allerlei woordbetekenissen kan leren. Dit sprak de jury van de conferentie aan.

Tweerichtingsverkeer tussen alfa- en bèta-onderzoek

De uitkomst van het onderzoek is daarmee tweeledig, stelt Van Duijn, ‘Enerzijds leveren we met onze database en resultaten een bijdrage aan de taal- en cognitiewetenschap. Anderzijds leggen wij in ons werk een basis voor het efficiënter trainen van taalmodellen door middel van narratieve data. Het is tweerichtingsverkeer geworden tussen alfa-vragen en bèta-methoden, en omgekeerd.’

Best Paper Award

Voor dit werk hebben Van Duijn en Van Dijk, samen met hun coauteurs Suzan Verberne en Marco Spruit, de Best Paper Award uitgereikt gekregen. Dat komt onder andere door de unieke database ChiSCor, bestaande uit ongeveer zevenhonderd verhalen en metadata van kinderen tussen de vier en de twaalf jaar. De database is openbaar beschikbaar gemaakt, zodat onderzoekers uit ontwikkelingspsychologie, taalwetenschap en pedagogiek met de verhalen aan de slag kunnen. Van Dijk: ‘We hopen dat andere onderzoekers de data gaan gebruiken, want er ligt nog een schat aan informatie opgeslagen in ChiSCor. Bovendien is het werken met kinderverhalen ook erg leuk en leerzaam!’

Projectwebsite

Bekijk voor meer informatie de projectwebsite.

Deze website maakt gebruik van cookies.  Meer informatie.