5. Regressie - MinsEducation

Uitleggen hoe regressie zich verhoudt tot correlatie.
Correlatie meet de mate van samenhang tussen variabelen, een regressieanalyse gebruikt deze relatie om een model te bouwen dat de ene variabele voorspelt op basis van de andere variabele. De helling van de regressielijn in een eenvoudige regressie komt overeen met de correlatie tussen de variabelen.
Uitleggen wat een regressiecoëfficiënt is.
Een regressiecoëfficiënt is een maat voor de sterkte en richting van de relatie tussen een onafhankelijke variabele en de afhankelijke variabele in een regressiemodel. Het geeft aan hoeveel een verandering in de waarde van de onafhankelijke variabele geassocieerd is met een verandering in de waarde van de afhankelijke variabele, waarbij andere variabelen constant worden gehouden. Regressiecoëfficiënten worden aangeduid met b’s of β’s, oftewel bèta’s.
Beschrijven wat de regressiecoëfficiënt voor het intercept is.
Het intercept (of het snijpunt) in de statistiek is de verwachte waarde van de afhankelijke variabele (Y) wanneer alle onafhankelijke variabelen (X) gelijk zijn aan nul. Het vertegenwoordigt het startpunt van de regressielijn op de y-as en wordt vaak aangeduid als de constante (β0) in een regressiemodel.
Extrapolatie: het berekenen van voorspellingen van een model voor waarden buiten het bereik van de data waarop dat model gebaseerd is.
Interpolatie: het gebruik van een model om tussenliggende waarden te berekenen.
Beschrijven wat de regressiecoëfficiënt voor de helling is.
De hellingscoëfficiënt (β1) geeft de stijging (of daling) in de variabele op de 𝑦-as aan als de variabele op de 𝑥-as met 1 eenheid toeneemt.
Uitleggen of regressiecoëfficiënten symmetrisch zijn.
Nee regressiecoëfficiënten zijn niet symmetrisch. Een regressieanalyse geeft richting, omdat de ruis alleen veronderstelt wordt te bestaan op de y-as, alle ruis is toegeschreven aan de y-as
Uitleggen wat de proportie verklaarde variantie (R²) is.
Proportie verklaarde variantie (R2) is een statistische maat die aangeeft hoeveel van de variabiliteit in de afhankelijke variabele y wordt verklaard door de voorspellende variabele(n) x in een regressiemodel. Het kan waarden aannemen tussen 0 en 1.
Uitleggen hoe de steekproevenverdeling van een regressiecoëfficiënt verdeeld is.
De steekproevenverdeling van 𝑏0 en 𝑏1 is de zogenaamde 𝑡-verdeling. De 𝑡-verdeling is eigenlijk een variatie op de 𝑧-verdeling met een aanpassing voor kleine steekproeven van bijvoorbeeld 10 of 20 deelnemers.
Uitleggen wat de t-verdeling is en uitleggen hoe t-verdeling verschilt van z-verdeling.
De t-verdeling (of student-t-verdeling) is een kansverdeling die lijkt op de normale verdeling, maar met zwaardere staarten (ivm z verderling), gebruikt voor het schatten van populatiegemiddelden bij kleine steekproeven (n<30) of wanneer de populatie standaarddeviatie onbekend is. De vorm hangt af van het aantal vrijheidsgraden (df).
Uitleggen hoe het betrouwbaarheidsinterval voor een regressiecoëfficiënt wordt opgesteld.
Betrouwbaarheidsinterval = steekproefwaarde ± breedte-index × standaardfout
Steekproefwaarde is de puntschatting van de regressie coëfficiënt uit de steekproef
Breedte-index: Voor een 95%-betrouwbaarheidsinterval is de breedte-index afkomstig van de t-verdeling en komt overeen met de t-waarde waarvoor slechts 2,5% van de t-waarden hoger is. Deze waarde verschilt van 1,96 voor de z-verdeling en varieert afhankelijk van het
aantal vrijheidsgraden.
Standaardfout: De standaardfout is een maat voor hoeveel de geschatte regressiecoëfficiënt naar verwachting zal afwijken van de ware populatiewaarde. Het wordt gegeven door statistische software en wordt kleiner naarmate de steekproefomvang groter wordt.
Uitleggen wat de invloed van steekproefomvang is op het betrouwbaarheidsinterval voor een regressiecoëfficiënt.
Hoe groter de steekproef is, hoe kleiner de standaardfout. Dit betekent dat de betrouwbaarheidsintervallen smaller worden en de regressiecoëfficiënten dus accuraat geschat kunnen worden.
Beschrijven hoe de p-waarde van een regressiecoëfficiënt wordt bepaald.
De berekeningen die worden uitgevoerd om de p-waarden te verkrijgen en conclusies te trekken over de significantie van de regressiecoëfficiënten, zijn gebaseerd op de principes van nulhypothese-significantietoetsing.
1. Opstellen van de nulhypothese: De nulhypothese stelt dat er geen verband is tussen de variabelen in de populatie, wat betekent dat de populatie-regressiecoëfficiënt gelijk is aan nul.
2. Opstellen van de steekproevenverdeling onder de nulhypothese: Als de nulhypothese waar is, zou elke steekproef-regressiecoëfficiënt die we krijgen, het resultaat zijn van toeval. Dus, we simuleren de steekproevenverdeling van de regressiecoëfficiënten
onder de aanname dat de populatie-coëfficiënt gelijk is aan nul. Dit wordt meestal gedaan door bootstrapping of via wiskundige modellering.
3. Berekenen van de p-waarde: De P-waarde is de kans om een regressiecoëfficiënt te verkrijgen die gelijk is aan of extremer dan die in de steekproef, als de nulhypothese waar is. Dit wordt berekend door te kijken naar de verhouding van de proportie van de steekproevenverdeling die gelijk is aan of extremer is dan de waargenomen waarde in de steekproef.
4. Interpretatie van de P-waarde: Als de p-waarde lager is dan een vooraf bepaald significantieniveau (meestal 0.05), wordt de nulhypothese verworpen en wordt geconcludeerd dat de regressiecoëfficiënt significant verschilt van nul. Anders wordt de nulhypothese niet verworpen en wordt geconcludeerd dat er geen significant verband is tussen de variabelen.
Aangeven hoe de power voor een enkelvoudige regressieanalyse bepaald kan worden.
De power voor een enkelvoudige regressieanalyse geeft de kans dat je een bestaand verband tussen X en Y daadwerkelijk detecteert (dus dat je de nulhypothese 𝐻0 : 𝛽1 = 0 H0 : β1 = 0 verwerpt wanneer er echt een effect is). Deze wordt bepaald door:
1. Effectgroote (hoe sterker het verband hoe groter de power)
2. Steekproefgrootte (N) (hoe meer observaties hoe meer power)
3. Significantieniveau (a) (meestal 0.05, hoe groter a is hoe meer power maar ook meer kans op een type-1 fout)
4. Variatie/ruis in de data (minder meetfout of spreiding rond de regressielijn is ook hogere power)
Het verschil tussen ruwe en gestandaardiseerde regressiecoëfficiënten benoemen.
– Ruwe: de ‘gewone’ score in de meeteenheid van de steekproef.
– Gestandaardiseerde: ‘beide variabelen standaardiseren (idem z-scores) zodat je ze kunt vergelijken.
Voordeel van gestandaardiseerde regressiecoefficient: ze zijn onafhankelijk van schaat en daarom makkelijk vergelijken met verschillende variabelen en schalen.
Belangrijk te weten van gestandaardiseerde regressiecoëfÏciënten:
– Berekening van ruw naar gestandaardiseerd: haal het gemiddelde er vanaf en deel het door de SD.
– Een gestandaardiseerde variabele heeft altijd een gemiddelde van 0 en een SD van 1.
– Gestandaardiseerde coëfficienten zijn symmetrisch (regressieanalyse is dan dus wel symmetrisch).
– Wanneer twee variabelen zijn gestandaardiseerd dan is het intercept 0.
– Een horizontale lijn boven een teken staat voor ‘gemiddelde’
Noemen welke aannames er bij regressieanalyse gemaakt worden.
In een enkelvoudige regressieanalyse worden vijf aannames gemaakt. De eerste vier van deze aannames zijn ‘harde’ aannames: als deze worden geschonden, is het regressiemodel het verkeerde model.
I. Continu meetniveau. In een regressieanalyse wordt aangenomen dat beide variabelen een continu meetniveau hebben (dus interval of ratio).
II. Lineariteit. Regressieanalyse veronderstelt dat het verband tussen de twee variabelen lineair is.
III. Onafhankelijkheid. Regressieanalyse neemt aan dat alle observaties onafhankelijk zijn.
IV. Normaliteit. Regressieanalyse neemt ook aan dat voor elke waarde van de voorspeller, de afhankelijke variabele normaal verdeeld is, oftewel dat de ruis (de error) normaal verdeeld is.
V. Homoscedasticiteit. Dit betekent homogeniteit (gelijkheid) van varianties. Deze aanname houdt in dat voor elke waarde van de onafhankelijke variabele, de variantie in de afhankelijke variabele gelijk is.
Uitleggen wat dummycodering is.
Het representeren van de meetwaarden van een categorische variabele met getallen heet dummycoderen.
Uitleggen wat de regressiecoëfficiënt van het intercept is bij een dichotome voorspeller.
Het intercept (β₀) is gelijk aan de gemiddelde waarde van de afhankelijke variabele voor de groep met waarde 0.
Uitleggen wat de regressiecoëfficiënt van de helling is bij een dichotome voorspeller.
De regressiecoëfficiënt van de helling is het verschil tussen de gemiddelden in de twee groepen.