Regressioviivan kaltevuus ja korrelaatiokerroin

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.


Kun tilastollisesti analysoidaan kvantitatiivisten tietojen sarjoja, kohtaamme usein datapareja tai järjestettyjä pareja. Nämä vastaavat kahden eri muuttujan tietoja, jotka ovat yleensä peräisin samalta yksilöltä ja jotka siksi ovat yhteydessä toisiinsa. Tällöin on kyse tiedoista, joita ei käsitellä erikseen, vaan ne tulee aina tarkastella yhdessä, kuten yksittäisen henkilön pituus ja paino tai auton paino ja enimmäisnopeus.

Kun olemme yhdistäneet tiedot, tilastot antavat meille mahdollisuuden selvittää, onko näiden muuttujien välillä suhdetta . Tämä on erityisen yleistä eri tieteissä, varsinkin kun havaitaan, että yhden muuttujan käyttäytyminen näyttää vaikuttavan tai määräävän toisen käyttäytymistä. Näitä suhteita määritettäessä tilastot tarjoavat meille kaksi erilaista työkalua: kahden tai useamman muuttujan väliset korrelaatiotutkimukset ja dataparien sovittaminen erilaisiin matemaattisiin malleihin regressioprosessin avulla.

Lineaarisesti käyttäytyville tiedoille voidaan laskea lineaarinen regressiokerroin r , joka mittaa, kuinka lineaarisesti data käyttäytyy. Toisaalta dataan parhaiten sopiva suoran matemaattinen yhtälö voidaan saada myös lineaarisen regression avulla. Kun teemme tämän, saamme regressiokertoimet suoran leikkauspisteen ja sen kulman muodossa.

Jos tarkastelemme monia esimerkkejä lineaaristen regressiokertoimien ja lineaarisella regressiolla saadun suoran kaltevuuden laskemisesta, huomaamme nopeasti, että molempien arvojen välillä on suhde. Erityisesti tulee huomioida, että aina kun kulmakerroin on negatiivinen, myös regressiokerroin on negatiivinen; kun se on positiivinen, kerroin on myös positiivinen ja kun kulmakerroin on nolla, niin on myös regressiokerroin.

Regressioviivan kaltevuus ja korrelaatiokerroin

Seuraavissa osioissa tutkimme, miksi näin tapahtuu ja mikä on todellinen suhde näiden kahden tilastollisen arvon välillä, jotka kulkevat lähes aina käsi kädessä.

Korrelaatio ja regressio tilastoissa ja tieteessä

Korrelaatiotutkimukset tarjoavat joukon tilastoja, kuten korrelaatio- ja määrityskertoimia, joiden avulla voidaan määrittää, kuinka kaksi tai useampi muuttuja korreloivat keskenään. Toisin sanoen niiden avulla voimme määrittää, mikä osuus satunnaismuuttujan (yleensä kvantitatiivisesta) vaihtelusta voidaan selittää toisen satunnaismuuttujan vaihtelulla sen sijaan, että se selitettäisiin sen omilla satunnaismuuttujilla. Tämä tarkoittaa, että niiden avulla voidaan määrittää, kuinka hyvin yhden tai useamman muuttujan vaihtelu selittää toisen vaihtelun.

On huomattava, että korrelaatiotutkimukset näkevät vain kahden tai useamman muuttujan välisen korrelaation, mutta ne eivät tarjoa suoraa näyttöä syystä ja seurauksesta (eli ne eivät mahdollista määrittää, kumpi kahdesta muuttujasta aiheuttaa toisen vaihtelun ).

Toisaalta, kun tiedämme (korrelaatiotutkimuksen avulla) tai intuitiomme, että kaksi muuttujaa korreloivat jollain tavalla, pyrimme yleensä luomaan matemaattisen mallin, jonka avulla voimme esittää yhden muuttujan yleisen käyttäytymisen toisen muuttujan funktiona. , mikä mahdollistaa yhden muuttujan arvon ennustamisen toisen arvon perusteella. Tämä saavutetaan regressioprosessin ansiosta, jonka avulla lasketaan matemaattisen mallin kertoimet, jotka minimoivat erot havaittujen tietojen (järjestettyjen parien tai parillisten tietojen) ja mallin ennustamien arvojen välillä.

Lineaarinen korrelaatio ja Pearsonin korrelaatiokerroin

Yksinkertaisin tapaus korrelaatiosta on lineaarinen korrelaatio. Tämä tapahtuu, kun kahden kvantitatiivisen muuttujan välillä on lineaarinen suhde siten, että kun toinen niistä kasvaa, toinen joko aina kasvaa samassa suhteessa tai aina pienenee samassa suhteessa.

Lineaariset korrelaatiotutkimukset perustuvat tietosarjojen lineaarisen korrelaatiokertoimen laskemiseen. On olemassa useita erilaisia ​​lineaarisia korrelaatiokertoimia, jotka voidaan laskea, joista yleisimmät ovat:

  • Pearsonin lineaarinen korrelaatiokerroin
  • Spearmanin lineaarinen korrelaatio
  • Kendallin korrelaatio

Näistä kolmesta yksinkertaisin ja myös laajimmin käytetty on Pearsonin lineaarinen korrelaatiokerroin. Tätä voidaan käyttää, kun paritetut tiedot täyttävät seuraavat ehdot:

  • Muuttujien välinen suhde on lineaarinen.
  • Molemmat muuttujat ovat kvantitatiivisia.
  • Molemmat muuttujat noudattavat normaalijakaumaa (vaikka jotkut kirjoittajat väittävät, että Pearsonin korrelaatiota voidaan käyttää, vaikka muuttujat eivät sovi täydellisesti Gaussin kelloon).
  • Riippuvaiseksi muuttujaksi otetun muuttujan varianssi (se, jota edustamme Y-akselilla) on vakio riippumattoman muuttujan (X-akselilla olevan) eri arvoille.

Jos nämä ehdot täyttyvät, voimme laskea Pearson-korrelaatiokertoimen määrittääksemme, kuinka hyvä lineaarinen korrelaatio on molempien muuttujien välillä.

Jos tiedämme molempien muuttujien varianssit (s 2 x ys 2 y ) ja kovarianssin (Cov x,y os xy ), voimme laskea Pearson-kertoimen populaatiolle (ρ xy ) seuraavalla kaavalla:

Regressioviivan kaltevuus ja korrelaatiokerroin

Toisaalta yleisintä on se, että emme tiedä kaikkia perusjoukon tietoja, vaan meillä on vain otos. Tässä tapauksessa voimme laskea otoksen Pearson-korrelaatiokertoimen, joka on populaation estimaattori. Se lasketaan seuraavan kaavan avulla:

Regressioviivan kaltevuus ja korrelaatiokerroin

Missä r on korrelaatiokerroin, x̅ on muuttujan x otoskeskiarvo, y̅ on muuttujan y otoskeskiarvo ja x i ja y i ovat kummankin muuttujan yksittäiset arvot.

Pienimmän neliösumman lineaarinen regressiosovitus

Lineaarinen regressio on prosessi, jossa parillinen tietosarja sovitetaan suoralle viivalle. Se tarkoittaa tietosarjaan parhaiten sopivan suoran matemaattisen yhtälön hankkimista ja siten minimoi keskimääräisen etäisyyden kaikkien pisteiden ja suoran välillä, kun molemmat on esitetty suorakulmaisessa koordinaattijärjestelmässä.

Lineaarinen regressio suoritetaan lähes aina pienimmän neliösumman menetelmällä ja tuloksena saadaan kaksi suoraa määrittävää parametria, nimittäin leikkaus Y-akselilla ja kaltevuus.

Riippumatta siitä, käyttäytyykö tietosarja lineaarisesti vai ei, on aina mahdollista saada siihen parhaiten sopiva yhtälö. Jos katsomme muuttujaa , jonka otamme riippumattomana, X ja toista, jonka otamme riippuvaiseksi muuttujaksi, Y, saadaan suoran yhtälö:

Regressioviivan kaltevuus ja korrelaatiokerroin

Tässä yhtälössä kertoimet a ja b ovat lineaarisia regressiokertoimia ja edustavat vastaavasti Y-leikkauspistettä ja suoran kulmakerrointa. Voidaan helposti osoittaa, että kertoimet, jotka minimoivat mallin ennustusvirheen neliön (todellisen arvon ja mallin arvioiman arvon eron) saadaan seuraavasti:

Regressioviivan kaltevuus ja korrelaatiokerroin

Lineaarisen regressioviivan kaltevuuden b ja korrelaatiokertoimen r välinen suhde

Nyt kun olemme selvemmin mitkä lineaariset regressiokertoimet a ja b ovat ja mikä Pearsonin lineaarinen korrelaatiokerroin r on , olemme valmiita ymmärtämään, miksi ja miten kulmakerroin b liittyy r: ään .

Itse asiassa edellisen b:n yhtälön ja Pearson-kertoimen määritelmän yhdistelmä johtaa näiden kahden tilaston väliseen matemaattiseen suhteeseen dataotoksen tapauksessa:

Regressioviivan kaltevuus ja korrelaatiokerroin

Kuten voidaan nähdä, koska otoksen keskihajonnan s x ja s y ovat määritelmän mukaan positiivisia (koska ne ovat vastaavien varianssien positiivinen neliöjuuri), niiden osamäärä on välttämättä positiivinen. Tästä syystä kulmakertoimen etumerkki b määräytyy korrelaatiokertoimen etumerkillä r ja päinvastoin.

Lisäksi, koska kulmakerroin ilmaistaan ​​tulona r:n ja edellä mainitun kahden keskihajonnan välisen osamäärän välillä, tapauksissa, joissa nämä kaksi muuttujaa eivät osoita mitään korrelaatiota (eli kun varmistetaan, että r = 0 ) , silloin lineaarisella regressiolla dataan sovitetun suoran kaltevuus on myös nolla, kuten aiemmin havaitsimme.

Tämä on hyvin järkevää, koska jos kaikki muut riippuvaan muuttujaan vaikuttavat tekijät pätevät, jos sen ja riippumattoman muuttujan välillä ei ole korrelaatiota, on odotettavissa, että riippumattomassa muuttujassa (eli x:ssä) tapahtuu muutos. ) ei tuota havaittavaa muutosta ensimmäisessä (eli y:ssä). Näin ollen, kun siirrymme kaaviossa vasemmalta oikealle, emme havaitse y-arvojen nousua tai laskua, ja kaikki havaitsemamme vaihtelut johtuvat yksinomaan tuon muuttujan satunnaisesta luonteesta.

Pearsonin kertoimen ja kaltevuuden välinen suhde väestötietojen tapauksessa

Se, mitä äsken otosdatasta on sanottu, pätee samalla tavalla, kun on olemassa kaikki populaation tiedot. Ainoa asia, joka muuttuu, on se, että tilastojen ( a, b ja r ) sijasta populaation tapauksessa olemme parametrien läsnä ollessa.

Kuten tilastoissa on tavallista, parametrit esitetään yleensä samoilla kirjaimilla kuin tilastot, vain kreikkalaisten aakkosten kirjaimilla. Tästä syystä kaikkiin populaatiotietoihin sovitetun viivan rajaa ja kaltevuutta edustavat kirjaimet α ja β (a:n ja b sijasta ) ja Pearson-kerrointa kirjaimella ρ (sen sijaan ) . kun taas populaation keskihajonnat esitetään kirjaimella s ( s :n sijaan ).

Siten kaltevuuden ja populaation lineaarisen korrelaatiokertoimen välinen suhde saadaan seuraavasti:

Regressioviivan kaltevuus ja korrelaatiokerroin

Viitteet

Carollo Limeres, MC (2012). YKSINKERTAINEN LINEAARINEN REGRESSIO . Santiago de Compostelan yliopisto. http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf

LesKanaris. (nd). Mitä paritiedot ovat tilastoissa? – Vinkkejä – 2022 . https://us.leskanaris.com/7419-paired-data-in-statistics.html

Martinez Vara De Rey, CC (sf). Data-analyysi psykologiassa II – Pearsonin lineaarinen korrelaatiokerroin . Sevillan yliopisto. https://personal.us.es/vararey/correlacion-lineal-pearson.pdf

Rodrigo, JA (2016, kesäkuu). Lineaarinen korrelaatio ja yksinkertainen lineaarinen regressio . CienciaDeDatos.Net. https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal

Santos Cuervo, L. (2000). Regressio ja korrelaatio . heittää pois. http://recursostic.educacion.es/descartes/web/Descartes1/Bach_CNST_1/Variables_estadisticas_bidimensionales_regresion_correlacion/regresi2.htm

Superprof. (2020, 25. toukokuuta). Mikä on regressioviiva? | Superammattilainen . Didaktinen materiaali – Superprof. https://www.superprof.es/apuntes/escolar/matematicas/estadistica/disbidimension/recta-de-regresion.html

Ucha, AP (2021, 19. helmikuuta). Lineaarinen korrelaatiokerroin . Economipedia. https://economipedia.com/definiciones/coeficiente-de-correlacion-lineal.html

-Mainos-

mm
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados