Verwerking van de gegevens: statistiek

Statistische verwerking van gegevens is uit de sociale wetenschappen via de (correlationele) sociolinguïstiek (en later corpuslinguïstiek) in de variatielinguïstiek geïntroduceerd.

De verklarende statistiek wordt ingeschakeld wanneer een bepaald domein niet volledig geobserveerd kan worden: via een steekproef (= het geheel van effectief verzamelde gegevens) probeert men conclusies te trekken over de hele populatie (= verzameling individuen of objecten) waaruit de steekproef is genomen.


Een belangrijke notie is significantie, die wordt nagegaan door middel van significantietests. Dergelijke tests gaan na hoe groot de kans is dat een bepaald resultaat in een steekproef naar de hele populatie geëxtrapoleerd mag worden. Ze berekenen dus de kans dat de zgn. nulhypothese (= het gevonden resultaat moet aan het toeval toegeschreven worden), klopt.

De uitkomst van een significantietest is de zgn. p-waarde. Bijv. 0.15 > p = er is minder dan 15% kans dat de nulhypothese klopt.

In de praktijk wordt gewerkt met significantieniveaus (= bepaalde conventionele drempelwaarden). Als een p-waarde kleiner is dan een bepaald significantieniveau, heeft men een significant resultaat; in de sociale wetenschappen werkt men doorgaans met een significantieniveau van 0.05 > p (= 5%). Concreet voor de sociale wetenschappen:

  • 0.10 > p > 0.05 = tendens
  • 0.05 > p > 0.01 = significant resultaat
  • 0.01 > p = hoogst significant resultaat

De bekendste significantietest in de linguïstiek is de (Pearson) Chi-Kwadraattest.

 

Voor meer inlichtingen omtrent statistiek voor linguïstische toepassingen, kun je onder andere hier terecht. 

Via deze site kun je een en ander berekenen.