Tabla de Contenidos
Når vi statistisk analyserer serier av kvantitative data, står vi ofte overfor parede data eller ordnede par. Disse tilsvarer data fra to forskjellige variabler, som vanligvis kommer fra samme individ og som derfor er knyttet til hverandre. Det er da snakk om data som ikke vurderes hver for seg, men som alltid må vurderes samlet, for eksempel høyden og vekten til en bestemt person, eller vekten og makshastigheten til en bil.
Når vi har sammenkoblet data, gir statistikk oss mulighet til å fastslå om det er en sammenheng mellom disse variablene. Dette er spesielt vanlig i de forskjellige vitenskapene, spesielt når det observeres at oppførselen til en variabel ser ut til å påvirke eller bestemme oppførselen til en annen. Når vi etablerer disse sammenhengene, gir statistikk oss med to forskjellige typer verktøy: korrelasjonsstudier mellom to eller flere variabler og justering av sammenkoblede data til forskjellige matematiske modeller gjennom en regresjonsprosess.
For data som oppfører seg lineært, kan det beregnes en lineær regresjonskoeffisient, r , som måler hvor lineært dataene oppfører seg. På den annen side kan den matematiske ligningen for den rette linjen som passer best til dataene også oppnås gjennom lineær regresjon. Når vi gjør dette får vi regresjonskoeffisientene i form av skjæringspunktet til linjen og dens helning.
Hvis vi ser på mange eksempler på beregninger av lineære regresjonskoeffisienter og av helningen til linjen oppnådd ved lineær regresjon, vil vi raskt legge merke til at det er en sammenheng mellom begge verdiene. Spesielt vil vi merke oss at når helningen er negativ, er regresjonskoeffisienten også negativ; når den er positiv er koeffisienten også positiv og når helningen er null, er det også regresjonskoeffisienten.
I de følgende delene vil vi utforske hvorfor dette skjer og hva som er den virkelige sammenhengen mellom disse to statistiske verdiene som nesten alltid går hånd i hånd.
Korrelasjon og regresjon i statistikk og vitenskap
Korrelasjonsstudier gir en rekke statistikker som korrelasjons- og bestemmelseskoeffisienter, som gjør det mulig å fastslå hvor korrelert to eller flere variabler er med hverandre. Med andre ord lar de oss fastslå hvilken andel av variabiliteten til en tilfeldig variabel (vanligvis kvantitativ) som kan forklares i form av variabiliteten til en annen tilfeldig variabel, i stedet for å bli forklart i form av dens egne tilfeldige variasjoner. Dette betyr at de tillater å fastslå hvor godt variasjonen til en eller flere variabler forklarer variasjonen til en annen.
Det skal bemerkes at korrelasjonsstudier bare ser at korrelasjonen mellom to eller flere variabler, men de gir ikke direkte bevis på årsak og virkning (det vil si at de ikke tillater å fastslå hvilken av de to variablene som forårsaker variasjonen av den andre ).
På den annen side, når vi vet (gjennom en korrelasjonsstudie) eller intuit at to variabler er korrelert på en eller annen måte, søker vi generelt å etablere en matematisk modell som lar oss representere den generelle oppførselen til en variabel som en funksjon av den andre , slik at man kan forutsi verdien av en av variablene basert på verdien av den andre. Dette oppnås takket være en regresjonsprosess der koeffisientene til en matematisk modell som minimerer forskjellene mellom de observerte dataene (de bestilte parene eller sammenkoblede dataene) og verdiene forutsagt av modellen beregnes.
Lineær korrelasjon og Pearsons korrelasjonskoeffisient
Det enkleste tilfellet av korrelasjon er lineær korrelasjon. Dette oppstår når det er en lineær sammenheng mellom to kvantitative variabler på en slik måte at når en av dem øker, øker den andre enten alltid i samme proporsjon, eller minker alltid i samme proporsjon.
Lineære korrelasjonsstudier er basert på å beregne den lineære korrelasjonskoeffisienten for dataserien. Det er flere forskjellige lineære korrelasjonskoeffisienter som kan beregnes, hvorav de vanligste er:
- Pearsons lineære korrelasjonskoeffisient
- Spearmans lineære korrelasjon
- Kendalls korrelasjon
Av de tre er den enkleste og også den mest brukte Pearson lineære korrelasjonskoeffisienten. Dette kan brukes når de sammenkoblede dataene oppfyller følgende betingelser:
- Forholdet mellom variablene er lineært.
- Begge variablene er kvantitative.
- Begge variablene følger en normalfordeling (selv om noen forfattere hevder at Pearsons korrelasjon kan brukes selv om variablene ikke passer perfekt til en gaussisk klokke).
- Variansen til variabelen som tas som den avhengige variabelen (den vi representerer på Y-aksen) er konstant for de forskjellige verdiene til den uavhengige variabelen (den på X-aksen).
Hvis disse betingelsene er oppfylt, kan vi beregne Pearson-korrelasjonskoeffisienten for å bestemme hvor god den lineære korrelasjonen er mellom begge variablene.
Hvis vi kjenner variansene til begge variablene (s 2 x ys 2 y ) og kovariansen (Cov x, y os xy ), kan vi beregne Pearson-koeffisienten for populasjonen (ρ xy ) ved å bruke følgende formel:
På den annen side er det vanligste at vi ikke kjenner alle dataene til populasjonen, men kun har et utvalg. I dette tilfellet kan vi beregne utvalget av Pearson-korrelasjonskoeffisienten, som er en estimator av populasjonen. Det beregnes ved hjelp av følgende formel:
Der r er korrelasjonskoeffisienten, x̅ er prøvegjennomsnittet for variabelen x, y̅ er prøvegjennomsnittet av variabelen y, og x i og y i er de individuelle verdiene for hver av de to variablene.
Minste kvadraters lineær regresjonstilpasning
Lineær regresjon er prosessen med å tilpasse en sammenkoblet dataserie til en rett linje. Det innebærer å oppnå den matematiske ligningen for linjen som passer best til dataserien, og derfor minimerer den gjennomsnittlige avstanden mellom alle punktene og linjen når begge er representert i et kartesisk koordinatsystem.
Lineær regresjon utføres nesten alltid ved hjelp av minste kvadraters metode, og resultatet er oppnåelse av de to parameterne som definerer en linje, nemlig kuttet med Y-aksen og helningen.
Uansett om en dataserie oppfører seg lineært eller ikke, er det alltid mulig å få likningen til linjen som passer best til den. Hvis vi betrakter en variabel som vi tar som uavhengig, X, og en annen som vi tar som en avhengig variabel, Y, er linjens ligning gitt av:
I denne ligningen er koeffisientene a og b de lineære regresjonskoeffisientene og representerer henholdsvis Y-skjæringspunktet og helningen til linjen. Det kan enkelt vises at koeffisientene som minimerer kvadratet av modellprediksjonsfeilen (forskjellen mellom den sanne verdien og verdien estimert av modellen) er gitt av:
Forholdet mellom helningen til den lineære regresjonslinjen, b, og korrelasjonskoeffisienten, r
Nå som vi er mer klare på hva de lineære regresjonskoeffisientene a og b er og hva Pearsons lineære korrelasjonskoeffisient r er , er vi klare til å forstå hvorfor og hvordan helningen b er relatert til r .
Faktisk resulterer kombinasjonen av den forrige ligningen for b og definisjonen av Pearson-koeffisienten i det matematiske forholdet mellom disse to statistikkene, når det gjelder et utvalg av data:
Som man kan se, siden prøvestandardavvikene s x og s y per definisjon er positive (siden de er den positive kvadratroten av de respektive variansene), vil deres kvotient nødvendigvis være positiv. Av denne grunn bestemmes tegnet for skråningen, b , av tegnet til korrelasjonskoeffisienten, r , og omvendt.
I tillegg, siden helningen er uttrykt som produktet mellom r og den nevnte kvotienten mellom de to standardavvikene, i de tilfellene der de to variablene ikke viser noen korrelasjon (det vil si når det er verifisert at r = 0 ) , da vil helningen til linjen tilpasset ved lineær regresjon til dataene også være null, som vi observerte tidligere.
Dette gir mye mening, siden hvis alle de andre faktorene som påvirker den avhengige variabelen holder, hvis det ikke er noen korrelasjon mellom den og den uavhengige variabelen, er det å forvente at en endring i den uavhengige (det vil si i x ) vil ikke vil produsere noen observerbar endring i den første (dvs. i y). Følgelig, når vi beveger oss fra venstre til høyre langs grafen, vil vi ikke observere noen økning eller reduksjon i y-verdiene, og enhver variasjon vi observerer skyldes utelukkende den tilfeldige naturen til den variabelen.
Forholdet mellom Pearsons koeffisient og helning ved populasjonsdata
Det som nettopp er sagt i forhold til utvalgsdataene gjelder på samme måte når man har alle dataene til en populasjon. Det eneste som endres er at i stedet for statistikk ( a, b og r ), er vi i populasjonens tilfelle i nærvær av parametere.
Som det er vanlig i statistikk, er parametere vanligvis representert med de samme bokstavene som statistikk, bare ved bruk av bokstavene i det greske alfabetet. Av denne grunn er avskjæringen og helningen til linjen tilpasset alle populasjonsdata representert med bokstavene α og β (i stedet for a og b ) , og Pearson-koeffisienten er representert med bokstaven ρ (i stedet for ). r ), mens populasjonsstandardavvik er representert med bokstaven s (i stedet for s ).
Dermed er forholdet mellom helningen og den lineære korrelasjonskoeffisienten for populasjonen gitt av:
Referanser
Carollo Limeres, MC (2012). ENKEL LINEÆR REGRESJON . Universitetet i Santiago de Compostela. http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf
LesKanaris. (nd). Hva er sammenkoblede data i statistikk? – Tips – 2022 . https://us.leskanaris.com/7419-paired-data-in-statistics.html
Martinez Vara De Rey, CC (sf). Dataanalyse i psykologi II – Pearsons lineære korrelasjonskoeffisient . Universitetet i Sevilla. https://personal.us.es/vararey/correlacion-lineal-pearson.pdf
Rodrigo, JA (2016, juni). Lineær korrelasjon og enkel lineær regresjon . CienciaDeDatos.Net. https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal
Santos Cuervo, L. (2000). Regresjon og korrelasjon . kaster. http://recursostic.educacion.es/descartes/web/Descartes1/Bach_CNST_1/Variables_estadisticas_bidimensionales_regresion_correlacion/regresi2.htm
Superprof. (2020, 25. mai). Hva er regresjonslinjen? | Superprof . Didaktisk materiale – Superprof. https://www.superprof.es/apuntes/escolar/matematicas/estadistica/disbidimension/recta-de-regresion.html
Ucha, AP (2021, 19. februar). Lineær korrelasjonskoeffisient . Economipedia. https://economipedia.com/definiciones/coeficiente-de-correlacion-lineal.html