Taalmodellen: een nieuwe blik op taal en cognitie
Taalmodellen zijn een bijzondere technologie die geen sector onberoerd laten. In wetenschappelijk onderzoek is dit niet anders. Ze vormen een krachtig hulpmiddel voor taalonderzoek en worden ingezet om leesgedrag te bestuderen, tekstmoeilijkheid te bepalen en zelfs oude theorieën over taalverwerving uit te dagen. Wat heeft ChatGPT met AVI-niveaus te maken? Is taal aangeboren of wordt het aangeleerd? Hoe slagen computers erin menselijk taalgebruik te imiteren? Wat ooit sciencefiction leek, blijkt nu een bron van nieuwe inzichten in hoe wij taal verwerven, verwerken en begrijpen.
Afbeelding: https://pixabay.com/photos/boy-book-reading-literature-read-5731001/
Taalmodellen en de bijhorende applicaties (zoals ChatGPT of de nieuwe Microsoft Copilot) zijn zowel een bron van entertainment, als een hulp bij routineuze taken. We hebben allemaal al een mail opgesteld met behulp van een taalmodel, maar taalmodellen vormen ook een belangrijk instrument in wetenschappelijk onderzoek naar taal en leesontwikkeling.
Iedereen die ooit een tweede taal leerde, kan erover meespreken: taal is mateloos complex. Des te groter was de verbazing toen computermodellen erin slaagden omvangrijke en (schijnbaar) kwalitatieve antwoorden te genereren op diverse vragen. Heb je nood aan een korte samenvatting over de geschiedenis van de stad Gent? Twee seconden later heb je je antwoord. Wil je graag een gedicht over diepvrieslasagne in de stijl van Shakespeare? Geen probleem! Moeiteloos genereren taalmodellen een gedicht dat doet uitschijnen alsof de klassieke schrijver een voorliefde had voor de fijnere keuken. Dit resultaat leek voor het grote publiek uit het niets te komen, maar wetenschappers uit allerlei disciplines experimenteerden al lange tijd met methodes om taalproductie te simuleren met computerprogramma’s.
Hoe bouw je een taalmodel?
Een succesvol taalmodel bouwen komt in essentie neer op het ontcijferen van de terugkerende patronen in onze taal. Er zijn veel van zulke patronen; een voorbeeld is de volgorde waarin het onderwerp, voorwerp en werkwoord van een zin aan bod komen. In het Nederlands is dit typisch onderwerp (O) – werkwoord (WW) – voorwerp (V). Bijvoorbeeld, Mark (O) drinkt (WW) een koffie (V)). In het Japans zou het werkwoord en voorwerp omgedraaid worden, Mark (O) een koffie (V) drinkt (WW). Om woorden in de juiste volgorde te plaatsen moeten we natuurlijk de rollen (onderwerp, voorwerp, werkwoord) die elk woord kan vertolken correct afleiden. Dit komt ruwweg neer op het juist inschatten van de betekenis van dat woord. Dat is een veel moeilijkere noot om te kraken.
Een uitkomst voor dit vraagstuk ligt in onze taal zelf. Zoals linguïst John Firth het uitdrukte: “you shall know a word by the company it keeps” (Firth, 1957). Het idee is dat woorden die een gelijkaardig concept weergeven ook vaker samen voorkomen in taal. Er zijn bijvoorbeeld veel meer teksten die zowel het woord ‘luipaard’ als ‘antilope’ bevatten en maar enkele teksten die ‘luipaard’ en ‘goudvis’ bevatten. Een luipaard en antilope zijn beide zoogdieren op de Afrikaanse savanne, terwijl een goudvis en luipaard enkel delen dat het dieren zijn. Als we deze oefening doortrekken naar alle woorden en een enorme hoeveelheid tekst gebruiken, komen we tot een inschatting van de relatieve betekenis van de woorden. We kunnen ons de woordbetekenissen voorstellen als locaties in een woordenwolk. Deze woordenwolk zal de basis vormen voor de volgende stap.
Het doel is aan de hand van deze woordenwolk af te leiden hoe de verschillende woorden samenwerken om tot een coherente boodschap te komen. Om een taalmodel menselijk ogende tekst te laten produceren, moet het model leren wat een plausibel vervolg van een zin is. Dit is waar de recente taalmodellen (met name de transformer modellen) enorme vooruitgang geboekt hebben. Met behulp van moderne machine learning technieken leert een model, weer met behulp van een gigantische hoeveelheid tekst (miljarden woorden), te voorspellen wat het volgende woord in een zin zal zijn. Het model volgt de connecties door de woordenwolk en leert zo welke paden en verbindingen voorkomen in onze taal en dus ‘toegestaan’ zijn. De woordenwolk wordt zo getransformeerd van een ruwe kaart die weergeeft hoe concepten zich algemeen tot elkaar verhouden naar een gedetailleerd stratenplan waarmee we complexe routes kunnen uitstippelen. Die routes combineren dan de woorden in de wolk tot een betekenisvolle boodschap.
Het verkrijgen van een dergelijk taalbreed ‘gps-systeem’ is niet zonder kost: meerdere servers verwerken wekenlang non-stop enorme hoeveelheden tekst. Qua kosten-efficiëntie doet een kind het beter. Zo wordt een kind blootgesteld aan ongeveer 100 miljoen woorden tegen de tijd dat het 13 jaar oud is. Een doorsnee taalmodel daarentegen krijgt vaak 3 à 4 keer zoveel woorden voorgeschoteld, met uitschieters die 15 biljoen woorden te verwerken krijgen (e.g., Llama-3.1-405B) (Warstadt et al., 2023). De resulterende modellen slagen er wel in tekst te genereren die moeilijk te onderscheiden is van menselijke tekst. In een experiment gebaseerd op de originele Turingtest gingen onderzoekers na of de nieuwste taalmodellen ons al kunnen doen geloven dat we met een mens aan het praten zijn (Jones & Bergen, 2024). De opzet was simpel: participanten werden toegewezen aan een chatgesprek met ofwel een andere persoon ofwel een taalmodel. Ze kregen de kans om vragen te stellen aan hun gesprekspartner. Nadien werd ze gevraagd of ze dachten met een persoon of een taalmodel te hebben geconverseerd. In 54% van de gevallen werd GPT-4 voor een mens aangezien, terwijl echte mensen van vlees en bloed in 67% als dusdanig ingeschat werden. Bijna niet te onderscheiden dus. Taalmodellen worden dan ook gretig gebruikt door psychologen en linguïsten om meer inzicht te krijgen in taalverwerving en taalgebruik.
Kan een taalmodel voorspellen welke woorden mensen voorspellen?
Al slagen sommige modellen erin de Turingtest te passeren, taalmodellen en mensen zijn enorm verschillend. Sommige taalmodellen kunnen dan wel een gelijkaardig niveau van taalgebruik als mensen simuleren, maar de manier waarop taalmodellen dit niveau bereiken is volledig anders dan hoe ons menselijk brein dezelfde taak volbrengt. Taalmodellen kunnen ons dus geen rechtstreeks inzicht geven in hoe mensen taal verwerken, maar we kunnen ze wel gebruiken als een hulpmiddel in onderzoek.
Eén van de vraagstukken die de psycholinguïstiek al jaren bezighoudt, is welke eigenschappen van een woord ons leesgedrag beïnvloeden. Korte woorden zijn uiteraard makkelijker te lezen, maar ook woorden waar we heel bekend mee zijn of die veel voorkomen in onze taal verwerken we veel sneller. Je zal aanzienlijk langer stilstaan bij een woord zoals ‘miraculeus’ dan bij ‘mysterieus’. Een open vraag binnen dit onderzoeksveld is of mensen daarnaast ook het volgende woord voorspellen tijdens het lezen. Anders gezegd, wordt ons leesgedrag en onze leessnelheid mede bepaald door de voorspelbaarheid van een woord? Het voorspellen van het volgende woord is exact het doel waarop taalmodellen getraind worden. Een taalmodel kan dus gebruikt worden om een inschatting te maken van de waarschijnlijkheid dat een woord zal voorkomen in een bepaalde zin. Neem als voorbeeld de zin ‘Het weer in België is …’. Een taalmodel schat de kans dat deze zin wordt voortgezet met ‘niet’ als dubbel zo hoog in als de kans dat het volgende woord ‘fantastisch’ is. Vanuit de trainingsdata heeft het model geleerd dat er algemeen negatief gesproken wordt over het Belgische weer. Waar taalwetenschappers vroeger aangewezen waren op menselijke inschattingen om te bepalen welke woorden meer waarschijnlijk zijn, kan dat nu met behulp van een taalmodel. Het laat ons toe heel nauwkeurig en woord-voor-woord in te schatten wat de kans was dit woord tegen te komen in de huidige context. Dit opent veel deuren in het onderzoek naar anticipatie van het volgende woord tijdens het lezen.
Door de voorspelbaarheid van woorden in een tekst te berekenen met behulp van een taalmodel, konden wetenschappers aantonen dat zowel ons gedrag als onze hersenen sterk afgestemd zijn op deze patronen in taal. Hoe voorspelbaarder een woord, hoe makkelijker het voor ons te verwerken is. We staan minder lang stil bij een voorspelbaar woord en ook in de hersenen is te zien dat de meest waarschijnlijke opties voor het volgende woord al geanticipeerd worden (Boeve & Bogaerts, 2024; Caucheteux & King, 2022; de Varda et al., 2023; Wilcox et al., 2023). Voor volwassen lezers is dit resultaat niet erg verrassend, maar het brengt ons ook bij nieuwe vragen. Geldt dezelfde wetmatigheid van woordvoorspelbaarheid op leesgedrag ook voor beginnende lezers, jonge kinderen die nog niet dezelfde vlotheid in lezen hebben ontwikkeld? Compenseren kinderen een gebrek aan leesvaardigheid door meer gebruik te maken van de voorspelbaarheid van een woord? Of vergt het lezen van de individuele woorden nog te veel van hun cognitieve vermogen waardoor er juist geen capaciteit meer is om al een verwachting op te bouwen over de tekst die zal volgen?
Bij kinderen is het nog niet helemaal duidelijk welk van deze alternatieven het beste hun leesproces beschrijft, maar er is enige evidentie voor de eerste optie. Jonge, beginnende lezers lijken meer gebruik te maken van de omringende context dan oudere, vlottere lezers (Johnson et al., 2018). Jongere lezers hebben gemiddeld meer tijd nodig om een woord te lezen, maar ze versnellen relatief meer op een voorspelbaar woord. De oorzaak van de versnelling op voorspelbare woorden lijkt wel te verschillen tussen kinderen en volwassenen. Het voordeel bij kinderen komt voort uit een snellere integratie van de woorden met de voorgaande context, terwijl volwassenen woorden effectief lijken te voorspellen (Tiffin-Richards & Schroeder, 2020). Deze en andere studies beperkten zich tot het manipuleren van de voorspelbaarheid van één woord in een context en vertrouwden daarbij vaak op subjectieve inschattingen van die voorspelbaarheid.
In ons onderzoek willen we gebruik gaan maken van het feit dat taalmodellen ons in staat stellen nauwkeurig en op grote schaal de voorspelbaarheid van alle woorden in een tekst in kaart te brengen. Dit levert ons niet enkel een completer beeld op van leesprocessen maar opent ook interessante pistes voor het meten van leesvaardigheden. Als kinderen inderdaad gevoelig zijn voor de voorspelbaarheid van elk woord in een tekst heeft dit ook implicaties voor de manier waarop we leesvaardigheid meten, of beter gezegd, de manier waarop we de moeilijkheid van een tekst bepalen. De meeste bestaande formules voor het bepalen van tekstniveau baseren zich op de gemiddelde lengte van de woorden en zinnen in de tekst (Pander Maat et al., 2023). Als voorspelbaarheid een belangrijke rol blijkt te spelen kan het worden opgenomen in de formules om zo de moeilijkheid van een tekst nauwkeuriger vast te leggen. Dit opent op zijn beurt weer nieuwe deuren; zo kunnen we ons afvragen of de mate waarin een kind gebruikmaakt van de voorspelbaarheid van een woord ook samenhangt met de mate van tekstbegrip en of we dit kunnen benutten bij het aanleren van het begrijpend lezen. Het zijn dus boeiende tijden voor onderzoekers geïnteresseerd in leesprocessen.
Een nieuwe tool voor taalpsychologisch onderzoek
Taalmodellen vervullen een belangrijke rol in psycholinguïstisch onderzoek omdat ze ons in staat stellen heel nauwkeurig complexe patronen in taal vast te leggen. Op deze manier vormen ze een belangrijk onderdeel van de gereedschapskist van psychologen. We kunnen ze bijvoorbeeld aanwenden om beter de moeilijkheid van een tekst te bepalen (denk maar aan de AVI-niveaus). Anderzijds leren ze ons ook iets over hoe taal geleerd kan worden. Lang werd gedacht dat taal te ‘onbegrensd’ is om te leren zonder aangeboren taalfunctie in onze hersenen. Het feit dat taalmodellen louter op basis van het samen voorkomen van woorden zo’n taalniveau weten te bereiken, doet velen het idee van een aangeboren taalfunctie in mensen herevalueren. Dit zijn slechts twee voorbeelden van hoe taalmodellen kunnen worden ingezet; de mogelijkheden reiken echter veel verder en blijven zich snel uitbreiden binnen verschillende domeinen van psycholinguïstisch en cognitief onderzoek. ChatGPT is dus niet enkel geschikt voor het schrijven van fijnzinnige gedichten, maar leidt mogelijk ook tot nieuwe wetenschappelijke inzichten over taal en menselijke cognitie.
Referenties
Boeve, S., & Bogaerts, L. (2024). A Systematic Evaluation of Dutch Large Language Models’ Surprisal Estimates in Sentence, Paragraph, and Book Reading. https://doi.org/10.31219/osf.io/vqnw6
Caucheteux, C., & King, J.-R. (2022). Brains and algorithms partially converge in natural language processing. Communications Biology, 5(1), 1–10. https://doi.org/10.1038/s42003-022-03036-1
de Varda, A., Marelli, M., & Amenta, S. (2023). Cloze probability, predictability ratings, and computational estimates for 205 English sentences, aligned with existing EEG and reading time data. Behavior Research Methods. https://doi.org/10.3758/s13428-023-02261-8
Firth, J. R. (1957). Studies in Linguistic Analysis. Wiley-Blackwell.
Johnson, R. L., Oehrlein, E. C., & Roche, W. L. (2018). Predictability and parafoveal preview effects in the developing reader: Evidence from eye movements. Journal of Experimental Psychology. Human Perception and Performance, 44(7), 973–991. https://doi.org/10.1037/xhp0000506
Jones, C. R., & Bergen, B. K. (2024). People cannot distinguish GPT-4 from a human in a Turing test (arXiv:2405.08007). arXiv. https://doi.org/10.48550/arXiv.2405.08007
Pander Maat, H., Kleijn, S., & Frissen, S. (2023). LiNT: Een leesbaarheidsformule en een leesbaarheidsinstrument. Tijdschrift voor Taalbeheersing, 45(1), 2–39. https://doi.org/10.5117/TVT2023.3.002.MAAT
Tiffin-Richards, S. P., & Schroeder, S. (2020). Context facilitation in text reading: A study of children’s eye movements. Journal of Experimental Psychology: Learning, Memory, and Cognition, 46(9), 1701–1713. https://doi.org/10.1037/XLM0000834
Warstadt, A., Mueller, A., Choshen, L., Wilcox, E., Zhuang, C., Ciro, J., Mosquera, R., Paranjabe, B., Williams, A., Linzen, T., & Cotterell, R. (2023). Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora. Proceedings of the BabyLM Challenge at the 27th Conference on Computational Natural Language Learning, 1–6. https://doi.org/10.18653/v1/2023.conll-babylm.1
Wilcox, E. G., Pimentel, T., Meister, C., Cotterell, R., & Levy, R. P. (2023). Testing the Predictions of Surprisal Theory in 11 Languages. Transactions of the Association for Computational Linguistics, 11, 1451–1470. https://doi.org/10.1162/tacl_a_00612