Rekenen met taal: computationele taalkunde en historisch Iers

From Kelten
k84-2020-fransen-oudiers-computationele-taalkunde-morfologie-deep-learning
84

Gepubliceerd: 17 augustus 2020
Rekenen met taal: computationele taalkunde en historisch Iers
Theodorus Fransen
Title (EN): Language by number: computational linguistics and historical Irish
Abstract (EN):

Language and mathematics meet in the dynamic field of computational linguistics. Using the latest deep learning techniques and transferring results from better resourced languages, Theodorus Fransen of the Cardamom project in Galway hopes to develop an algorithm capable of analysing the various forms of the Irish verb across time and space, adding to the linguistic tools available to both students and scholars of historical Irish.

Vanaf het moment dat je in aanraking komt met het onderwijs, krijg je taal en rekenen als afzonderlijke vakken aangeboden. In het vervolgonderwijs komt wel algebra aan bod, ofwel sommetjes met letters: x 2 = 4. Dat laatste is een functie met een operatie op het argument x, die we kunnen noteren als f(x) = x 2. In een natuurlijke (ofwel menselijke) taal hebben we het meestal niet over een functie en een argument, maar over respectievelijk het predicaat en onderwerp. Een zin als Dorus woont in Galway zouden we formeler kunnen opschrijven als woont_in_Galway(x), waarbij het predicaat woont_in_Galway het onderwerp x (hier Dorus) specificeert. We zijn hier bij de grondbeginselen van de logica, die teruggaan op de verhandelingen van de Griekse filosofen Plato en Aristoteles. Met de logica hebben we de schakel tussen taal en rekenen te pakken. De programmeertalen uit ons digitale tijdperk kun je zowel zien als een verlenging als toepassing van concepten uit de logica. Een programmeertaal is niet veel meer dan een specificatie van een grammatica of syntaxis (de geoorloofde combinaties) geldend voor een beperkt aantal elementen; de gecommuniceerde instructies worden uiteindelijk vertaald naar de voor de processor begrijpelijke binaire machinetaal.

De invloedrijke en inmiddels 91-jarige taalkundige Noam Chomsky en zijn volgelingen zien het menselijk taalvermogen niet als iets fundamenteel anders dan een computer (al beweren zij uiteraard niet dat we in 0’en en 1’en spreken). Zij benadrukken bovendien het verschijnsel recursie, dat ook in de computerwereld nog al eens ter sprake komt: met een eindig aantal bouwstenen kunnen we een oneindig aantal verschillende berichten genereren. Dit principe is duidelijk te illustreren aan de hand van zinsbouw (syntaxis). Een zin kan in principe eindeloos in een andere zin worden ingesloten: In Kelten stond een artikel dat ging over een onderzoek waarin een zekere Theodorus Fransen stelde dat … Of dit een universeel geldend taalkundig principe is, daarover zijn de taalkundigen het nog steeds niet eens.[1]n. 1 Zie bijvoorbeeld Everett, D.L., ‘What does Pirahã grammar have to teach us about human language and the mind?’, WIREs Cognitive Science 3 (2012) 555-563. doi: 10.1002/wcs.1195 [geraadpleegd op 30 april 2020].  Dat is verder ook niet zo relevant voor mijn verhaal. Ik wil in dit artikel vooral duidelijk maken dat er interessante parallellen bestaan tussen (computermatig) rekenen en taal. Een ogenschijnlijke tegenstelling – zoals bijvoorbeeld tussen rekenen en taal – is dan ook vaak geen echte tegenstelling wanneer je iets dieper graaft. Dit neemt overigens niet weg dat het voor mij een uitdaging blijft om leken uit te leggen waarmee ik nu eigenlijk precies mijn brood verdien (en waarom mijn beroep, ja zelfs roeping, eigenlijk een heel logische keuze is). Hopelijk gaat dat nu beter lukken, en gaat uw begrip van mijn bezigheden, na het lezen van dit artikel, net even iets verder dan ‘iets met computers en Iers’.­­­­­

Mijn achtergrond en ambitie

Laat ik beginnen met een beetje persoonlijke voorgeschiedenis, om de relatie tussen mijn huidige baan, interesse en academische levenswandel te verduidelijken. In 2007 behaalde ik aan de Universiteit Utrecht zowel mijn bachelordiploma Taalkunde als Keltische talen en cultuur, gevolgd door mijn masterdiploma Keltisch in 2010, ook in Utrecht. Toen emigreerde ik naar Ierland. De laatste tien jaar heb ik mij verdiept in de computationele taalkunde. Aan het Trinity College Dublin behaalde ik in 2013 mijn Master of Philosophy in Speech and Language Processing. Ik ben het jaar daarop aan diezelfde universiteit verder gegaan met een PhD (letterlijk Philosophiae Doctor), en heb eind vorig jaar mijn proefschrift afgerond; ik wacht momenteel nog op de eerstvolgende buluitreiking (door COVID-19 is dat voorlopig nog met onbekende datum). Sinds september 2019 ben ik werkzaam als postdoc en verbonden aan het Data Science Institute, National University of Ireland Galway. Binnen dit onderzoeksinstituut maak ik dan weer deel uit van een vierjarig project genaamd Cardamom Comparative deep models for minority and historical languages (projectleider John P. McCrae), gefinancierd door de Irish Research Council.[2]n. 2 De website van het project is http://cardamom.insight-centre.org/.

Op basis van mijn opleidingen zou je kunnen zeggen dat ik zowel taalkundige, keltoloog als (een beetje) informaticus ben. Een wiskundige ben ik echter zeker niet (en ik heb ook geen enkele ambitie om dat te worden). Niettemin vind ik het vreselijk interessant om historische verschijnselen en veranderingen in het Iers te onderzoeken en met een wiskundige precisie te modelleren. Mijn academische ambitie behelst het creëren van een softwareproduct dat verwante woordvormen in historisch-Ierse teksten herkent en inzichtelijk maakt. Zo’n hulpmiddel zou een belangrijk aandeel kunnen leveren aan het op dit moment redelijk beperkte digitale arsenaal voor de studie van historisch Iers. Ik moet bekennen dat dit een lange-termijn-project is, en tot nu toe ook een one-man show. Ik hoop in mijn huidige rol anderen te enthousiasmeren zodat we mijn ideeën gezamenlijk in praktijk kunnen brengen.

De complexe regels van het Oudierse werkwoord

In mijn doctoraatsonderzoek heb ik mij op historisch-Ierse werkwoorden geconcentreerd.[3]n. 3 Fransen, Theodorus, Past, present and future: computational approaches to mapping historical Irish cognate verb forms (proefschrift: Trinity College Dublin 2019). Zie: https://github.com/ThFransen84/OIfst/wiki/Ph.D.-thesis-(2019) [geraadpleegd op 30 april 2020].  Dit grammaticale subsysteem is het meest fascinerende, maar zonder twijfel ook moeilijkste aspect van met name het Oudiers (ca. 600-900 n. Chr.). Dat komt niet alleen door het betrekkelijk grote aantal vormen per werkwoord, waarbij de relatie tussen die vormen vaak ver te zoeken is, maar wordt ook veroorzaakt door de vele voor-, in- en achtervoegsels die zich hechten aan het werkwoord. Neem bijvoorbeeld nos·carim-se (Würzburg 5c7)[4]n. 4 In dit artikel worden werkwoorden voor de leesbaarheid middels punten en streepjes opgebroken. Dergelijke leestekens zijn puur redactioneel van aard en komen niet voor in de handschriften zelf. De hier besproken vorm is afkomstig uit de Oudierse glossen op de brieven van de apostel Paulus (in het Latijn) in de Codex Paulinus Wirziburgensis. Zie Stokes, Whitley en John Strachan (red.), Thesaurus Palaeohibernicus, 2 delen (Londen 1901-1910), deel 1. De glossen zijn ook digitaal beschikbaar op https://wuerzburg.ie/ (een project van Adrian Doyle) [geraadpleegd op 30 april 2020]. ‘ik bemin hen’, bestaande uit, van links naar rechts, het betekenisloze, aangehechte no waaraan het voornaamwoord -s ‘hen’ als het ware hangt, de beklemtoonde wortel of stam car ‘beminnen’, gevolgd door de eerste-persoonsuitgang enkelvoud van het presens -im, dat nog eens extra benadrukt wordt door -se. Het Oudierse werkwoord staat normaliter aan het begin van de zin, maar kan, zoals het bovenstaande voorbeeld duidelijk maakt, voorafgegaan worden door een (altijd onbeklemtoond) partikel, mogelijk gevolgd door een als lijdend of meewerkend voorwerp gebruikt voornaamwoord. In een Nederlandse of Engelse vertaling hebben we vaak een korte zin nodig om zo’n complex ‘woord’ weer te geven. Zou het niet mooi zijn als we de complexe woordvorming in het Oudiers wat inzichtelijker kunnen maken met behulp van moderne, computationele technieken?

Mijn proefschrift gaat met name over de toepassing van computationele morfologie[5]n. 5 Het woord 'morfologie' betekent 'vormleer'. In de taalkunde staat deze term voor de leer van woordstructuur en woordvorming. Morfologen zijn geïnteresseerd in de kleinste betekenisdragende eenheden in woorden, die zij 'morfemen' noemen. In combinatie met het woord 'computationele' gaat het hier om de taalkundige subdiscipline die zich bezighoudt met het ontwikkelen van algoritmes teneinde woordvormingsprocessen en/of woordherkenning te automatiseren.  op de zwakke werkwoorden van het Oudiers. In het Nederlands is een zwak werkwoord een regelmatig werkwoord zoals fietsen, met verleden tijd fietste en voltooid deelwoord gefietst. Een sterk werkwoord daarentegen ondergaat een verandering in de stam, zoals in lopen, liep, gelopen; de vervoeging is onregelmatig en daardoor onvoorspelbaar. Ik kwam er in mijn PhD-onderzoek echter geleidelijk achter dat er geen eenduidige definitie te geven valt voor de werkwoordstam in het Oudiers, zelfs niet voor zwakke werkwoorden. In een op regels gebaseerd woordvormingsmodel heb je desondanks een beginpunt nodig, en dus toch een stam. De vraag is echter waar je begint met Oudierse woordenboekvormen zoals het zwakke werkwoord do·sluindi ‘(hij) ontkent’ (Würzburg 6c14, zie noot 4), dat ook voorkomt als ní·díltai ‘hij ontkent niet’ (Sankt Gallen 201b10).[6]n. 6 Deze vorm is afkomstig uit de Oudierse glossen op de Latijnse tekst Institutiones Grammaticae van Priscianus, in een manuscript dat bewaard wordt in Sankt Gallen. Zie Stokes, Whitley en John Strachan (red.), Thesaurus Palaeohibernicus, 2 delen (Londen 1901-1910), deel 2. De glossen zijn ook digitaal beschikbaar: Bauer, Bernhard, Rijcklof Hofman en Pádraic Moran, St Gall Priscian Glosses, version 2.0 (2017), te vinden op www.stgallpriscian.ie/resource [geraadpleegd op 30 april 2020].  De vormen do·sluindi en ·díltai bestaan beide uit het oorspronkelijke voorzetsel *dī ‘van(daan)’,[7]n. 7 Woorden of woorddelen voorafgegaan door een asterisk zijn gereconstrueerde vormen. de prehistorische werkwoordswortel *slond- ‘noemen’ en de derde-persoonsuitgang enkelvoud van het presens -i.  

De oorzaak voor de nogal merkwaardige stamvariant ·díltai is een klemtoonverschuiving binnen samengestelde werkwoorden bij het verschijnen van een onbeklemtoond aangehecht partikel (prefix) zoals ‘niet’. Dat werkt als volgt. Het werkwoord staat in de regel aan het begin van de zin. Als er zich geen element voor de werkwoordswortel bevindt, ligt de klemtoon op deze wortel. In het geval van een (onbeklemtoond) prefix verschuift de klemtoon naar de tweede positie. Omdat do (*) in do·sluindi niet de werkwoordswortel vormt, verschuift de klemtoon naar de tweede positie, en ligt dus op de werkwoordswortel sluind (*slond). In ·díltai ligt de klemtoon echter op de eerste lettergreep (*) van het werkwoord (*-slond) aangezien een prefix (het onbeklemtoonde partikel ) de eerste positie heeft ingenomen. De onbeklemtoonde werkwoordswortel *slond is nu enkel nog zichtbaar in de reflex lt als gevolg van een reeks historisch-fonologische veranderingen, waaronder het wegvallen van klinkers in niet-beklemtoonde lettergrepen. Een volledige herleiding van de in zekere zin identieke vormen do·sluindi en ·díltai uit *-slond-i zou te ver voeren voor dit stukje en is ook niet relevant voor de computationele methodes in mijn onderzoek; ik houd het bij de observatie dat er in de Oudierse vormen maar drie letters overeenkomen: d, l en i. In de oren van een taalkundige en keltoloog moet die laatste observatie behoorlijk simplistisch en naïef klinken. Dat is inderdaad het geval, totdat we ons realiseren – en ik verplaats me nu even in mijn rol van informaticus – dat ogenschijnlijk oppervlakkige of zelfs arbitraire relaties tussen taalvormen voor een computer best leerzaam kunnen zijn. Deze moet dan wel heel veel voorbeelden gepresenteerd krijgen. Maar laat ik niet op de zaken vooruit lopen.

Tot nu toe heb ik grammaticale variatie in het Oudiers verklaard vanuit gereconstrueerde, prehistorische vormen. Je zou deze gereconstrueerde entiteiten inderdaad als het beginpunt voor stamvorming in het Oudiers kunnen nemen. Die strategie gaat er echter van uit dat we van alle Oudierse werkwoorden precies weten wat de etymologische componenten zijn. Bovendien moeten we maar hopen dat zo’n afleiding altijd tot een vorm leidt die we daadwerkelijk in een manuscript tegenkomen. Met andere woorden, bij zo’n benadering komen een hoop methodologische en computationele uitdagingen kijken. Belangrijker nog is het feit dat oervormen en reconstructiewerk nooit centraal hebben gestaan in mijn thesis – bij het verbinden van verwante vormen heeft mijn focus altijd gelegen op de historische periode (en daarbinnen op het Oudiers). Het leek mij zinvoller om in plaats van oervormen meerdere onveranderlijke stammen voor ieder Oudiers werkwoord te formuleren, om zo ook tot een eenvoudiger en transparanter systeem voor vervoegingen te komen. Mijn computationele benadering kan als zodanig gezien worden als een abstracte afspiegeling van de taalregels die verworven moesten worden door moedertaalsprekers van het Oudiers – kinderen worden immers niet geboren met een kennis van oervormen en historisch-taalkundige afleidingen. Het nadenken over en het op een rijtje zetten van Oudierse stamvarianten bleek daarnaast ook relevant voor een eventueel toekomstig project, namelijk het formuleren van grondvormen voor het Middeliers (ca. 900–1200), de in mijn ogen belangrijkste schakel tussen het Oudiers en hedendaags Iers. Het reeds besproken Oudierse do·sluindi en ·díltai ‘ontkent’, bijvoorbeeld, maakt plaats voor het meer eenduidige Middelierse díltaid of diúltaid; hetzelfde werkwoord vind je onder diúltaigh in een Modern Iers woordenboek. De taalkundige innovaties in dit voorbeeld zijn goed te verklaren vanuit de Oudierse stamvariant ·díltai.

In feite heb ik een groot deel van mijn doctoraatsonderzoek besteed aan het formuleren van dergelijke Oudierse stammen, en hoe deze te implementeren in een computermodel dat Oudierse werkwoorden kan genereren en analyseren. Een ander belangrijk aspect van mijn implementatie betreft de combinatorische regels met betrekking tot uitgangen en voor-, in- en achtervoegsels. Deze regels zijn van groot belang voor het genereren van grammaticaal correcte vormen. Veel van de aangehechte woorddelen kunnen namelijk niet zomaar vóór of achter een willekeurige stam worden geplaatst. De kracht van mijn computerprogramma, of ‘machine', die in de afgelopen jaren langzaam vorm kreeg, is vooral de gigantische hoeveelheid gegenereerde correcte (maar niet persé gedocumenteerde) combinaties op basis van een relatief klein aantal stammen. Ik moet daarbij wel vermelden dat het apparaat geen raad weet met werkwoorden waarvoor ik (nog) geen stammen heb geformuleerd, met vormen die net even iets afwijken van de (mijn) regels, of wanneer er sprake is van spellingvariatie. Variatie is een algemeen probleem in de informatica; computers denken immers (vooralsnog) niet, maar rekenen enkel (al doen ze dat vliegensvlug). Technieken om succesvol om te gaan met taalvariatie zijn overigens niet alleen relevant voor het automatisch analyseren van historische talen, maar hebben ook toepassingen in andere domeinen waar niet-standaardtaal gebruikelijk is; te denken valt aan dialecten of taal op sociale media (of het gebruik van dialecten op sociale media!).

Taal als data

Ik heb in het voorgaande nogal de nadruk gelegd op het verband tussen taal en regels. Een dergelijke uitgangspositie vormt echter zeker niet de enige valide of gangbare strategie in de computationele taalkunde. Sterker nog, de exponentiële groei in zowel het aantal digitaal beschikbare teksten als de rekenkracht van computers heeft in de laatste decennia geleid tot een verschuiving van een rule-based naar een data-driven approach; het zijn nu niet zozeer de regels, maar de gegevens (data) die centraal staan. Die laatste aanpak bestaat er simpelweg uit om eerder waargenomen patronen in de gegevens te gebruiken om niet eerder waargenomen fenomenen te voorspellen. Binnen zo’n werkwijze passen momenteel veelgehoorde termen zoals machine learning en big data. Een taalmodel is in deze zienswijze niet zozeer een architectuur van regels, maar een statistisch model. Een computerprogramma werkt dan dus niet meer met door een taalkundige vooraf bedachte regels om bijvoorbeeld woorden of zinnen te genereren, maar extraheert kennis uit door het programma zelf geobserveerde patronen in woorden of zinnen. De voorspellingen van een dergelijk model worden uiteraard beter als er meer data voorhanden is. Veel computationeel taalkundigen zijn momenteel niet (enkel) meer geïnteresseerd in de grammaticaliteit van een taaluiting als functie van combinatorische regels, maar in de káns op het voorkomen van bepaalde woorden (of klanken, letters, etc.) in een bepaalde volgorde, of in een vergelijkbare context. We kunnen een functie als woont_in_Galway(x), en de vraag of x = Dorus een grammaticale (of betekenisvolle) zin oplevert, herdefiniëren met de functie P(woont, in, Galway / Dorus): dat wil zeggen, hoe waarschijnlijk is de woordcombinatie woont, in en Galway, gegeven het beginwoord Dorus? Een zoekopdracht op Google, die overigens wel met aanhalingstekens moet worden omsloten, zegt genoeg: op het hele internet bestaat er maar één zin als deze, en wel in het stuk dat u nu aan het lezen bent. In de praktijk worden zinnen daarom opgedeeld in kleinere woordgroepen; de kans op het voorkomen van bekende, kortere woordcombinaties in een onbekende tekst is namelijk veel groter. Daartegenover staat dat er betekenis verloren gaat naarmate de woordcombinaties kleiner worden. De betekenis van een gezegde bijvoorbeeld is niet de som van de afzonderlijke woorden; je kunt je voorstellen hoe een automatisch vertaalprogramma hier vreselijk de mist in kan gaan.

Ontwikkelingen in de informatica gaan razendsnel. Statistische taalmodellen gebaseerd op woordsequenties zoals hierboven zijn inmiddels al grotendeels vervangen door word embeddings. Dit begrip omvat algoritmes voor het leren van taal door de distributie van en de relaties tussen woorden te analyseren in een grote hoeveelheid teksten. De achterliggende gedachte voor deze technieken wordt vaak geïllustreerd aan de hand van het adagium ‘You shall know a word by the company it keeps!’, afkomstig uit een publicatie uit 1957 van de Britse taalkundige John Rupert Firth.[8]n. 8 Het citaat is te vinden op pagina 11 van A synopsis of linguistic theory 1930-1955, hoofdstuk 1 in Firth, John Rupert (red.), Studies in linguistic analysis (Oxford 1957).  Het hier gecommuniceerde idee is dat woorden die in een vergelijkbare context voorkomen qua betekenis sterk geassocieerd zijn. Het instrumentarium om computermatig tot deze numerieke representaties te komen is meestal een neuraal netwerk, dat wil zeggen een onderling verbonden groep van knooppunten. De term deep learning verwijst naar de aanwezigheid van meerdere lagen in zo’n netwerk, zodat abstracte (bijvoorbeeld talige) kenmerken uit ongestructureerde data afgeleid kunnen worden. De illustratie hieronder is een weergave van een driedimensionale ruimte en de talige verbanden die hierin geometrisch uitgedrukt worden. Experimenten hebben aangetoond dat word embeddings ons in staat stellen om letterlijk te rekenen met taal, zoals in het voorbeeld voor Male-Female: king man + woman = queen, ofwel king staat tot queen zoals man tot woman staat.

Voorbeelden van word embeddings in een driedimensionale ruimte en de opmerkelijke analogieën die zij opleveren.[9]n. 9 Bron: https://developers.google.com/machine-learning/crash-course/embeddings/translating-to-a-lower-dimensional-space [geraadpleegd op 17 juli 2020].

Het doel van het Cardamom-project waarvan ik momenteel deel uitmaak is om moderne inzichten in de computationele taalkunde en deep learning-technieken toe te passen op talen met weinig digitale ondersteuning: minderheidstalen en historische talen (met de focus op Keltische, Germaanse en Indiase talen). De uitdaging hier is het gebrek aan data. Dat proberen we enerzijds op te lossen door zo creatief mogelijk zoveel mogelijk data te verzamelen (bijvoorbeeld door zo veel mogelijk berichten in minderheidstalen te vinden op sociale media), en anderzijds door methodes te ontwikkelen die de behoefte aan data verminderen. Dat laatste verwachten we te bereiken door middel van transfer learning, waarmee we de geleerde kenmerken van digitaal goed ondersteunde talen kunnen projecteren op verwante minderheidstalen of historische talen. De hierboven genoemde word embeddings spelen daarbij een grote rol; je kunt je zo’n multidimensionale ruimte ook voorstellen met woorden uit verschillende talen, en zelfs uit verschillende perioden. Woorden als het Friese woord hûn, het Nederlandse hond, het Oudengelse hund en zowel het Engelse hound als dog komen in het ideale geval heel dicht bij elkaar te liggen in de multidimensionale ‘betekenisruimte’.

Deep learning en Oudiers

Mijn persoonlijke onderzoeksplannen zijn er momenteel op gericht om oplossingen te vinden voor de vraag hoe deep learning succesvol kan bijdragen aan het automatisch ontleden van Oudierse werkwoorden. Hopelijk zal inmiddels duidelijk zijn dat het Oudierse werkwoordsysteem gekenmerkt wordt door een enorme complexiteit, die zich met name openbaart in de op het eerste oog regelloze stamvariatie. In de context van de meerdere malen aangehaalde vormen do·sluindi en ·díltai heb ik hierboven al een tipje van de sluier opgelicht: computers kunnen net als mensen (of beter dan mensen!) ogenschijnlijk arbitraire woordrelaties leren. Een computationele taak als deze is feitelijk een statistisch georiënteerde vertaalopdracht: geef op basis van woord x in de brontaal het meest waarschijnlijke woord y in de doeltaal. De bovengenoemde word embeddings maken zeker deel uit van zo’n onderliggend taalmodel, of, in dit geval beter, vertaalmodel. Er zijn echter aanvullende technieken op letterniveau die bij een vertaaltaak ingezet kunnen worden, bijvoorbeeld als er voor woord x geen woord y kan worden gegenereerd. Deze technieken ‘rekenen’ niet met de context van een woord, maar met die van één of meerdere lettertekens. In de praktijk blijken deze modellen een abstract begrip van lettergrepen of zelfs betekenisvolle woorddelen goed te kunnen verwerven. En dat is precies wat we nodig hebben bij het identificeren van complexe variatie op woordniveau, zoals in het Oudiers het geval is.

Algoritmes gericht op lettertekens in plaats van woorden kunnen ingezet worden om een ogenschijnlijk arbitraire vertaalslag van woord x naar woord y te maken. Hoe we dergelijke mappings vormgeven kunnen we zelf bepalen, mits we genoeg data tot onze beschikking hebben op basis waarvan het model de beoogde relatie moet leren. Als je zoals ik geïnteresseerd bent in het inzichtelijk maken van werkwoordsvervoegingen, dan zul je een model moeten trainen dat de vervoegingsvariant in een tekst kan relateren aan de bijbehorende woordenboekvorm en de grammaticale beschrijving. Het onderstaande schema verduidelijkt deze methode. Merk op dat een grammaticale beschrijving als pres (presens) een niet opdeelbaar symbool betreft; met andere woorden, voor het vertaalmodel zijn de grammaticale beschrijven zoals pres (ook wel tags genoemd) afzonderlijke lettertekens, en dus van dezelfde orde als d, o, s, etc.

Vervoegingsvariant

Woordenboekvorm

Grammaticale

beschrijving

d o s l u i n d i  

d o s l u i n d i

pres ind 3sg

d í l t a i

d o s l u i n d i

pres ind 3sg


Ik hoop deze (voor mij) nieuwe computationele inzichten op korte termijn zinvol te combineren met de in mijn PhD opgedane kennis en vaardigheden. Hiermee verwacht ik niet alleen mezelf een plezier te doen, maar ook studenten en andere academici die worstelen met de aanzienlijke complexiteit en variatie met betrekking tot middeleeuws-Ierse werkwoordsvormen in vaak ook nog weinig bestudeerde teksten en manuscripten uit verschillende tijdsvakken. Technieken in deep learning, die momenteel binnen Cardamom in groepsverband verder worden ontwikkeld, bieden als zodanig hernieuwde mogelijkheden voor het ontwikkelen van adequaat taalkundig gereedschap voor het begrijpelijker maken van het historisch-Ierse werkwoord en zijn fascinerende historische ontwikkeling.

Eindnoten

Zie bijvoorbeeld Everett, D.L., ‘What does Pirahã grammar have to teach us about human language and the mind?’, WIREs Cognitive Science 3 (2012) 555-563. doi: 10.1002/wcs.1195 [geraadpleegd op 30 april 2020].
De website van het project is http://cardamom.insight-centre.org/.
Fransen, Theodorus, Past, present and future: computational approaches to mapping historical Irish cognate verb forms (proefschrift: Trinity College Dublin 2019). Zie: https://github.com/ThFransen84/OIfst/wiki/Ph.D.-thesis-(2019) [geraadpleegd op 30 april 2020].
In dit artikel worden werkwoorden voor de leesbaarheid middels punten en streepjes opgebroken. Dergelijke leestekens zijn puur redactioneel van aard en komen niet voor in de handschriften zelf. De hier besproken vorm is afkomstig uit de Oudierse glossen op de brieven van de apostel Paulus (in het Latijn) in de Codex Paulinus Wirziburgensis. Zie Stokes, Whitley en John Strachan (red.), Thesaurus Palaeohibernicus, 2 delen (Londen 1901-1910), deel 1. De glossen zijn ook digitaal beschikbaar op https://wuerzburg.ie/ (een project van Adrian Doyle) [geraadpleegd op 30 april 2020].
Het woord 'morfologie' betekent 'vormleer'. In de taalkunde staat deze term voor de leer van woordstructuur en woordvorming. Morfologen zijn geïnteresseerd in de kleinste betekenisdragende eenheden in woorden, die zij 'morfemen' noemen. In combinatie met het woord 'computationele' gaat het hier om de taalkundige subdiscipline die zich bezighoudt met het ontwikkelen van algoritmes teneinde woordvormingsprocessen en/of woordherkenning te automatiseren.
Deze vorm is afkomstig uit de Oudierse glossen op de Latijnse tekst Institutiones Grammaticae van Priscianus, in een manuscript dat bewaard wordt in Sankt Gallen. Zie Stokes, Whitley en John Strachan (red.), Thesaurus Palaeohibernicus, 2 delen (Londen 1901-1910), deel 2. De glossen zijn ook digitaal beschikbaar: Bauer, Bernhard, Rijcklof Hofman en Pádraic Moran, St Gall Priscian Glosses, version 2.0 (2017), te vinden op www.stgallpriscian.ie/resource [geraadpleegd op 30 april 2020].
Woorden of woorddelen voorafgegaan door een asterisk zijn gereconstrueerde vormen.
Het citaat is te vinden op pagina 11 van A synopsis of linguistic theory 1930-1955, hoofdstuk 1 in Firth, John Rupert (red.), Studies in linguistic analysis (Oxford 1957).

Vorige bijdrage
Nieuws en mededelingen Kelten 83
Anouk Nuijten
13 juli 2020
Volgende bijdrage
Bringing medieval English and Welsh literature together
David Callander
14 september 2020