Op woensdag 22 januari promoveerde de 28-jarige Rochelle Choenni tot doctor aan de Universiteit van Amsterdam.
Zij is geboren in Nederland en van Hindostaans-Surinaamse afkomst. Haar proefschrift heeft de titel Multilinguality and Multiculturalism: Towards Effective and Inclusive Neural Language Models, onderdeel van het vakgebied Artificiële Intelligentie, afgekort AI. In Nederland staat deze studie bekend als kunstmatige intelligentie. Dat is een zware studie waar programmeren en het kunnen begrijpen van vooral hogere wiskunde vereisten zijn.
Rochelle Choenni is in 2020 cum laude afgestudeerd in de AI aan de Universiteit van Amsterdam en heeft voor haar masterscriptie de Amsterdam Data Science thesis award ontvangen (https://amsterdamnlp.github.io/blog/bestthesisaward-rochelle).
Tevens heeft zij, naast een aantal andere prijzen, in 2021 de prestigieuze Ph.D google fellowship gewonnen om haar onderzoek naar taalmodellen voort te zetten in de vorm van een promotieonderzoek (Google PhD Fellowship recipients).
Het is een uitzonderlijke prestatie dat een vrouw en in dit geval een jonge Hindostaanse vrouw uitblinkt in de studierichting, die wordt gedomineerd door witte mannen.
Dr. Rochelle Choenni is sinds oktober 2024 als postdoc verbonden aan de Universiteit van Amsterdam en de University of Edinburgh waar zij haar onderzoek voortzet.
Meertalige taalmodellen
Om enorme hoeveelheden informatie (data) op snelle en efficiënte manieren te verwerken door computers zijn taalmodellen nodig. Voor het trainen van taalmodellen zijn enorme hoeveelheden teksten in een bepaalde taal nodig. Daardoor kunnen dit soort trainingstechnieken slechts op een handvol talen worden toegepast, zoals het Engels. Om de inzetbaarheid van taalmodellen te vergroten hebben onderzoekers zich gericht op de ontwikkeling van modellen die in meerdere talen kunnen worden toegepast. Dit heeft geleid tot de ontwikkeling van meertalige taalmodellen (MLMs), oftewel modellen die afwisselend worden getraind op teksten uit meerdere talen. Dit werkt verrassend goed, maar het is moeilijk te begrijpen waarom en hoe dit zo goed werkt. Dit zijn de kernvragen van het promotieonderzoek. Een groot probleem om verschillende talen in een model te stoppen is dat modellen een beperkte capaciteit hebben, vergelijkbaar met hoe jij en ik overweldigd kunnen raken door te veel informatie. Een ander probleem zijn de conflicterende belangen, waarbij één taal het model iets wil leren dat in directe tegenspraak is met wat het voor een andere taal zou moeten leren. Dit leidt tot de vraag: hoe kunnen we “cross-lingual sharing” optimaliseren? Deze vraag kan opgesplitst worden in twee taken: de nuttige deling die we willen maximaliseren en de schadelijke conflicten die we proberen te minimaliseren. Er zijn concepten en technieken ontwikkeld om een balans te vinden tussen deze twee taken.
De toepasbaarheid van MLMs is een ander onderwerp die de revue passeert in het proefschrift. Als we willen dat MLMs door verschillende gemeenschappen in de praktijk wordt gebruikt, is het bouwen van een technisch goed model niet genoeg.
Dit leidt tot de vraag: welke vooroordelen zijn gecodeerd in onze modellen? Het blijkt dat vooroordelen in modellen grotendeels voortkomen uit trainingsdata. In een meertalige context komen vooroordelen uit meerdere talen en culturen samen, wat leidt tot verschillende en soms tegenstrijdige vooroordelen. Om MLM’s in cultureel diverse gemeenschappen in te kunnen zetten, moet hun output in overeenstemming zijn met de sociaal-culturele normen en vooroordelen van die gemeenschappen. Dit vereist dat MLMs ook inherent multicultureel verwerkt moeten worden.
Rochelle Choenni is de dochter van lector dr. ir. Sunil Choenni, de jongere broer van de bekende professor dr. Chan Choenni.