Digitale corpora


Voor bepaalde types van variatieonderzoek staan er tegenwoordig digitale corpora van schriftelijk en mondeling taalgebruik ter beschikking.

 

  • Het CONDIV-corpus is bij uitstek geschikt voor (lexicaal) onderzoek naar verschillen tussen het Nederlandse en het Belgische Nederlands: het bestaat uit ongeveer 30 miljoen woorden tekst, min of meer evenredig verdeeld over Nederland en Vlaanderen. Ongeveer een derde van het corpus bestaat uit krantentaal, de rest is spontaan taalgebruik van op het Internet (onder meer uit chatkanalen). Het CONDIV-corpus is daardoor ook de meest geschikte bron voor onderzoek naar informeel geschreven taalgebruik.

 

  • Voor onderzoek naar het gesproken taalgebruik is er het Corpus Gesproken Nederlands, met ongeveer tien miljoen woorden gesproken taal, evenredig verdeeld over Nederland en Vlaanderen. Uiteraard zeer nuttig voor fonologisch onderzoek, maar ook voor de studie van allerlei spreektalige verschijnselen in woordenschat en grammatica. Zie de CGN-website voor documentatie over de inhoud van het corpus en over de zoekmogelijkheden.

 

  • Voor historisch onderzoek is vooral de CD-ROM Middelnederlands van belang. Deze cd-rom bevat het volledige corpus Gysseling, 200 rijmende teksten en 90 prozateksten. Daarnaast bevat hij ook het Middelnederlandsch Woordenboek (MNW) van Verwijs en Verdam. Nog een interessante bron voor historisch onderzoek zijn de elektronische edities van klassiekers uit de Nederlandse literatuur en taalkunde op de website van de DBNL (Digitale Bibliotheek voor de Nederlandse Letteren), met honderden titels, uit alle periodes.

 

Doordat er momenteel een grote hoeveelheid teksten elektronisch beschikbaar is (en die hoeveelheid zal uiteraard steeds toenemen) is het relatief gemakkelijk om zelf een uitgebreid corpus aan te leggen (teksten van websites, nieuwsgroepen, IRC, tijdschriften en boeken op cd-rom, ...).