4. Correlatie

Uitleggen wat een scatterplot is.
Een scatterplot is een grafische weergave van individuele punten in een tweedimensionaal coördinatensysteem. Elke punt vertegenwoordigt de waarden van twee variabelen en hun relatie. De ene variabele wordt op de horizontale as (x-as) geplaatst, en de andere variabele op de verticale as (y-as).
Bepalen of een scatterplot een positief of negatief verband uitdrukt.
Een positief verband betekent dat naarmate de waarde van de variabele op de 𝑥-as toeneemt of afneemt, de waarde van de variabele op de 𝑦-as ook toeneemt of afneemt.
Bij een negatief verband geldt dat onderzoekseenheden die hoger scoren op de variabele op de 𝑥-as, juist lager scoren op de variabele op de 𝑦-as, en andersom. Kortom, als een scatterplot een positief verband uitdrukt, liggen de stipjes grofweg in een wolk, of rondom een lijn, die van linksonder naar rechtsboven loopt. Als een scatterplot een negatief verband uitdrukt, liggen de stipjes grofweg in een wolk, of rondom een lijn, die van linksboven naar rechtsonder loopt.
Uitleggen wat een correlatie is.
Vaak zijn we in onderzoek geinteresseerd in de samenhang tussen twee of meer variabelen. Een handige manier om dit te onderzoeken is met behulp van de correlatiecoëfficent. De correlatiecoëfficiënt of simpelweg correlatie of Pearson’s 𝑟 drukt uit hoe sterk twee continue variabelen – dus van minimaal intervalniveau – met elkaar samenhangen.
Een correlatie interpreteren in termen van richting.
Als iemand op een variabele ver boven het gemiddelde scoort en op een andere variabele ook, draagt die persoon bij aan een positief verband. Personen die op beide variabelen juist onder het gemiddelde scoren, dragen ook bij aan een positief verband. Personen die op de ene variabele boven en op de andere variabele onder het gemiddelde scoren, dragen bij aan een negatief verband. Een scatterplot is dus eigenlijk in te delen in vier kwadranten, die bij elkaar komen op het gemiddelde. Nu is het zo dat een punt dat verder van het gemiddelde af ligt meer invloed heeft op het verband tussen twee variabelen dan punten die dichter bij het gemiddelde liggen.
Een correlatie interpreteren in termen van sterkte van het verband.
Correlatiecoëfficiënten drukken uit hoe sterk twee continue variabelen samenhangen en liggen altijd tussen −1 en 1, waarbij 0 staat voor een gebrek aan verband, −1 voor een perfecte negatieve samenhang, en 1 voor een perfecte positieve samenhang. Deze waarden corresponderen met patronen in een scatterplot. Als er perfecte samenhang is – positief of negatief – liggen de punten in een scatterplot op een rechte lijn. Als er geen samenhang is, vormen ze een ronde wolk.
Uitleggen waarom een correlatie niets zegt over causaliteit.
Correlatie zegt niets over de vraag of het verband tussen twee variabelen causaal is. Dat twee variabelen samenhangen, hoe sterk ook, zegt niets over de vraag of de ene variabele ook invloed heeft op de andere variabele. Sterker nog, veruit de meeste variabelen die correleren of zelfs heel sterk correleren, hebben geen invloed op elkaar. Om conclusies te kunnen trekken over causaliteit of om nog sterkere causale uitspraken te kunnen doen, zijn experimentele studie ontwerpen nodig.
Beschrijven dat elke steekproefcorrelatie uit een steekproevenverdeling komt.
Net zoals de steekproevenverdeling van het gemiddelde alle mogelijke gemiddelden bevat die je in een steekproef van een gegeven omvang kunt vinden, bevat de steekproevenverdeling van de correlatie alle correlaties die je in een steekproef van een gegeven omvang kunt vinden.
Uitleggen hoe die steekproevenverdeling verandert als een steekproef groter wordt.
Wanneer de steekproefomvang toeneemt, wordt de steekproevenverdeling van de correlatie meer symmetrisch en nauwkeuriger. Dit betekent dat de gevonden correlaties in grotere steekproeven minder variabel zijn en dichter bij de ware populatiecorrelatie liggen.
Uitleggen waarom puntschattingen voor correlaties uit kleine steekproeven weinig informatief zijn.
Ten eerste wordt de steekproevenverdeling steeds meer symmetrisch naarmate de steekproefomvang stijgt. Ten tweede is de kans op sterk afwijkende correlaties bij kleine steekproeven (van 100 deelnemers of minder) nog steeds erg groot is. Bij een steekproef van 10 deelnemers is er zelfs een kans (van 3%). dat in een steekproef een negatieve correlatie wordt gevonden. De invloed van een deelnemer die toevallig een uitzondering is, is namelijk veel groter in kleine steekproeven. Pas in grote steekproeven wordt de invloed van toeval een beetje ingeperkt. Voor een enigszins accurate schatting, zijn dus vrij grote steekproeven nodig.
Uitleggen wat een betrouwbaarheidsinterval voor een correlatiecoëfficiënt is.
Met de betrouwbaarheidsintervallen voor correlaties, kunnen we eindelijk iets zeggen over het verband tussen twee variabelen. Maar, zoals eerder aangegeven geldt nog steeds: ‘één studie is géén studie’. Zelfs als een studie relatief veel deelnemers heeft, kunnen er verstorende factoren en specifieke omstandigheden zijn waardoor de uitkomsten van een volgende studie weer anders zijn. Ook is het duidelijk geworden dat een betrouwbaarheidsinterval uit een willekeurige steekproef zomaar naast de populatiecorrelatie kan liggen. Bovendien zijn er zeer grote steekproeven nodig om voldoende nauwe betrouwbaarheidsintervallen te krijgen die met enige zekerheid vaststellen hoe sterk een correlatie in de populatie is.
Uitleggen wat een p-waarde is.
De nulhypothese drukt uit wat je verwacht te vinden als de theoretische voorspelling niet klopt. In veel onderzoek betreft een theoretische voorspelling een verband tussen twee (of meer) variabelen. De nulhypothese beschrijft dan juist een situatie waarin er geen verband bestaat. De “nul” in het woord “nulhypothese” staat echter niet voor 0. De “nul” staat voor “zonder theoretische voorspelling”, oftewel, in een “lege situatie”, afgeleid uit het Latijnse woord “nullus” dat “geen” betekent.
Uitleggen hoe p-waarden berekend worden.
I. Formuleer de nulhypothese. Bij correlatie is dit meestal H0 : R = 0 (aka er is geen verband in de populatie)
II. Gebruik de steekproefverdeling onder de nulhypothese. We kijken naar de steekproevenverdeling die zou gelden als r = 0 in de populatie.
III. Bereken de kans op de gevonden waarde (of extremer – ofwel verder van 0 af.)
Uitleggen wat nulhypothese-significantietoetsing (NHST) inhoudt.
Nulhypothese-significantietoetsing is een statistische procedure die wordt gebruikt om te beoordelen of de waargenomen resultaten van een onderzoek statistisch significant zijn Het begrip “statistisch significant” verwijst naar de resultaten van een statistische analyse die aangeven dat een waargenomen effect in de data waarschijnlijk niet het gevolg is van willekeurige variatie (toeval). Wanneer we zeggen dat een resultaat statistisch significant is, betekent dit dat het onwaarschijnlijk is dat het effect puur te wijten is aan toeval.
Uitleggen wat alfa, het significantieniveau, of de kritieke p-waarde is.
Dit is het vooraf bepaalde niveau van significantie, ook wel het foutenpercentage van het eerste type genoemd. Het vertegenwoordigt de kans om een fout te maken door de nulhypothese te verwerpen terwijl deze eigenlijk waar is.
Noemen wat de waarde van alfa meestal is.
De meest gangbare waarde voor α is 0.05, wat betekent dat onderzoekers een foutenpercentage van 5% accepteren bij het verwerpen van de nulhypothese.
Uitleggen wat een type 1-fout is.
Dit is wanneer je ten-onrechte concludeert dat er een verband is tussen de variabelen in de hele bevolking, terwijl dat eigenlijk niet het geval is. Dus de nulhypothese wordt onterecht verworpen. De kans op een type 1-fout kan alleen worden verlaagd door een lagere alpha te kiezen.
Uitleggen wat een type 2-fout is.
Ten onrechte de nulhypothese aanhouden. Dit is een nadelig gevolg van de mechaniek van NHST: als de alpha lager is, wordt de kans op een type 1-fout kleiner, maar de kans op een type 2-fout wordt groter.
Uitleggen hoe de kans op een type 1 en type 2 fouten afhangt van alfa, de steekproefomvang en de sterkte van het verband in de populatie.
Significantieniveau (Alfa):
Lage Alfa (bijv. 0,01): Maakt de kans op een type 1-fout kleiner, maar verhoogt de kans op een type 2-fout. D.w.z., we verwerpen de nulhypothese minder snel als deze eigenlijk onwaar is, maar we kunnen ook echte effecten missen.
Hoge Alfa (bijv. 0,05): Vergroot de kans op een type 1-fout, maar verlaagt de kans op een type 2-fout. We verwerpen de nulhypothese sneller, zelfs als er eigenlijk geen echt effect is.
Steekproefomvang:
Kleine steekproef (bijv. 50 deelnemers): Vergroot de kans op beide soorten fouten. We hebben mogelijk niet genoeg gegevens om echte effecten te detecteren (type 2-fout) en lopen het risico om toevallige effecten als significant te beschouwen (type 1-fout).
Grote steekproef (bijv. 500 deelnemers): Verkleint de kans op beide soorten fouten. Het biedt meer statistische kracht om echte effecten te identificeren en vermindert het risico om toevallige effecten als significant te beschouwen.
Sterkte van het werkelijke verband in de populatie:
Sterk verband (bijv. r = 0,70): Verkleint de kans op beide fouten. Sterke effecten zijn gemakkelijker te detecteren, zelfs met kleinere steekproeven.
Zwak verband (bijv. r = 0,20): Vergroot de kans op beide fouten. Zwakkere effecten zijn moeilijker te detecteren, vooral met kleinere steekproeven.
Uitleggen wat power is.
De kans dat we een verband van een bepaalde omvang kunnen detecteren, aangenomen dat deze echt bestaat. Een onderzoek met hoge power is beter in staat om echte effecten op te sporen.
Uitleggen hoe de power afhangt van alfa, de steekproefomvang en de sterkte van het verband in de populatie
Alfa (Significantieniveau): Lagere alfa (bijv. 0,01) verhoogt de power, maar het vergroot ook de kans op een type 2-fout. Hogere alfa (bijv. 0,05) verlaagt de power, maar vermindert de kans op een type 2-fout.
Steekproefomvang: Grotere steekproefomvang verhoogt de power. Met meer deelnemers is het gemakkelijker om echte effecten te detecteren.
Sterkte van het verband in de populatie: Sterkere werkelijke effecten verhogen de power. Een krachtig effect is gemakkelijker te detecteren, zelfs met kleinere steekproeven.
Uitleggen wat multiple testing inhoudt.
Multiple testing verwijst naar het herhaaldelijk uitvoeren van statistische tests op dezelfde gegevensset. Dit verhoogt het risico op het vinden van significante resultaten puur door kans, zelfs als er geen echt effect is.

0 Comments

Add Your Comment

0 Comments

Leave a Reply Cancel reply