Panta dreptei de regresie și coeficientul de corelație

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.


Când analizăm statistic serii de date cantitative, ne confruntăm adesea cu date perechi sau perechi ordonate. Acestea corespund datelor a două variabile diferite, care în general provin de la același individ și care, prin urmare, sunt legate între ele. Este atunci o chestiune de date care nu sunt luate în considerare separat, ci trebuie întotdeauna luate în considerare împreună, cum ar fi înălțimea și greutatea unui anumit individ sau greutatea și viteza maximă a unei mașini.

Când avem date pereche, statisticile ne oferă posibilitatea de a stabili dacă există o relație între aceste variabile. Acest lucru este deosebit de comun în diferitele științe, mai ales când se observă că comportamentul unei variabile pare să afecteze sau să determine comportamentul alteia. La stabilirea acestor relații, statistica ne oferă două tipuri diferite de instrumente: studii de corelație între două sau mai multe variabile și ajustarea datelor pereche la diferite modele matematice printr-un proces de regresie.

Pentru datele care se comportă liniar, se poate calcula un coeficient de regresie liniară, r , care măsoară cât de liniar se comportă datele. Pe de altă parte, ecuația matematică a dreptei care se potrivește cel mai bine datelor poate fi obținută și prin regresie liniară. Când facem acest lucru, obținem coeficienții de regresie sub forma interceptării dreptei și a pantei acesteia.

Dacă ne uităm la multe exemple de calcule ale coeficienților de regresie liniară și ale pantei dreptei obținute prin regresie liniară, vom observa rapid că există o relație între ambele valori. În special, vom observa că ori de câte ori panta este negativă, coeficientul de regresie este și el negativ; când este pozitiv coeficientul este și el pozitiv și când panta este zero, la fel este și coeficientul de regresie.

Panta dreptei de regresie și coeficientul de corelație

În secțiunile următoare vom explora de ce se întâmplă acest lucru și care este relația reală dintre aceste două valori statistice care merg aproape întotdeauna mână în mână.

Corelație și regresie în statistică și știință

Studiile de corelație oferă o serie de statistici precum coeficienții de corelare și de determinare, care permit stabilirea cât de corelate sunt două sau mai multe variabile între ele. Cu alte cuvinte, ele permit să se stabilească ce proporție din variabilitatea unei variabile aleatoare (de obicei cantitativă) poate fi explicată prin prisma variabilității altei variabile aleatoare, în loc să fie explicată în termenii propriilor variații aleatoare. Aceasta înseamnă că ele permit stabilirea cât de bine explică variația uneia sau mai multor variabile variația alteia.

De remarcat că studiile de corelație văd doar că, corelația dintre două sau mai multe variabile, dar nu oferă dovezi directe ale cauzei și efectului (adică nu permit stabilirea care dintre cele două variabile cauzează variația celeilalte). ).

Pe de altă parte, atunci când știm (printr-un studiu de corelație) sau intuim că două variabile sunt corelate într-un fel, în general, căutăm să stabilim un model matematic care să ne permită să reprezentăm comportamentul general al unei variabile în funcție de cealaltă. , permițând astfel prezicerea valorii uneia dintre variabile pe baza valorii celeilalte. Acest lucru se realizează datorită unui proces de regresie prin care se calculează coeficienții unui model matematic care minimizează diferențele dintre datele observate (perechile ordonate sau datele pereche) și valorile prezise de model.

Corelația liniară și coeficientul de corelație Pearson

Cel mai simplu caz de corelare este corelația liniară. Aceasta se întâmplă atunci când există o relație liniară între două variabile cantitative în așa fel încât, atunci când una dintre ele crește, cealaltă fie crește întotdeauna în aceeași proporție, fie scade întotdeauna în aceeași proporție.

Studiile de corelație liniară se bazează pe calcularea coeficientului de corelație liniară pentru seriile de date. Există mai mulți coeficienți de corelație liniară diferiți care pot fi calculați, dintre care cei mai comuni sunt:

  • Coeficientul de corelație liniară al lui Pearson
  • Corelația liniară a lui Spearman
  • Corelația lui Kendall

Dintre cele trei, cel mai simplu și, de asemenea, cel mai utilizat este coeficientul de corelație liniară Pearson. Acesta poate fi utilizat atunci când datele asociate îndeplinesc următoarele condiții:

  • Relația dintre variabile este liniară.
  • Ambele variabile sunt cantitative.
  • Ambele variabile urmează o distribuție normală (deși unii autori susțin că corelația lui Pearson poate fi folosită chiar dacă variabilele nu se potrivesc perfect cu un clopot gaussian).
  • Varianta variabilei care este luată ca variabilă dependentă (cea pe care o reprezentăm pe axa Y) este constantă pentru diferitele valori ale variabilei independente (cea pe axa X).

Dacă aceste condiții sunt îndeplinite, putem calcula coeficientul de corelație Pearson pentru a determina cât de bună este corelația liniară între ambele variabile.

Dacă știm varianțele ambelor variabile (s 2 x ys 2 y ) și covarianța (Cov x,y os xy ), putem calcula coeficientul Pearson pentru populație (ρ xy ) folosind următoarea formulă:

Panta dreptei de regresie și coeficientul de corelație

Pe de altă parte, cel mai frecvent este că nu cunoaștem toate datele populației, ci avem doar un eșantion. În acest caz, putem calcula coeficientul de corelație Pearson eșantion, care este un estimator al populației. Se calculează cu următoarea formulă:

Panta dreptei de regresie și coeficientul de corelație

Unde r este coeficientul de corelație, x̅ este media eșantionului a variabilei x, y̅ este media eșantionului a variabilei y, iar x i și y i sunt valorile individuale ale fiecăreia dintre cele două variabile.

Potrivire regresie liniară cu cele mai mici pătrate

Regresia liniară este procesul de potrivire a unei serii de date pereche la o linie dreaptă. Ea presupune obținerea ecuației matematice a dreptei care se potrivește cel mai bine cu seria de date și, prin urmare, minimizează distanța medie dintre toate punctele și linia atunci când ambele sunt reprezentate într-un sistem de coordonate carteziene.

Regresia liniară se realizează aproape întotdeauna prin metoda celor mai mici pătrate și rezultatul este obținerea celor doi parametri care definesc o dreaptă și anume tăierea cu axa Y și panta.

Indiferent dacă o serie de date se comportă liniar sau nu, este întotdeauna posibil să se obțină ecuația dreptei care i se potrivește cel mai bine. Dacă considerăm o variabilă pe care o luăm ca independentă, X, și alta pe care o luăm ca variabilă dependentă, Y, ecuația dreptei este dată de:

Panta dreptei de regresie și coeficientul de corelație

În această ecuație, coeficienții a și b sunt coeficienții de regresie liniară și reprezintă, respectiv, intersecția cu Y și panta dreptei. Se poate demonstra cu ușurință că coeficienții care minimizează pătratul erorii de predicție a modelului (diferența dintre valoarea adevărată și valoarea estimată de model) sunt dați de:

Panta dreptei de regresie și coeficientul de corelație

Relația dintre panta dreptei de regresie liniară, b, și coeficientul de corelație, r

Acum că suntem mai clari care sunt coeficienții de regresie liniară a și b și care este coeficientul de corelație liniară Pearson r , suntem gata să înțelegem de ce și cum panta b este legată de r .

De fapt, combinația dintre ecuația anterioară pentru b și definiția coeficientului Pearson, rezultă în relația matematică dintre aceste două statistici, pentru cazul unui eșantion de date:

Panta dreptei de regresie și coeficientul de corelație

După cum se poate observa, întrucât abaterile standard ale eșantionului s x și s y sunt, prin definiție, pozitive (deoarece sunt rădăcina pătrată pozitivă a variațiilor respective), coeficientul lor va fi în mod necesar pozitiv. Din acest motiv, semnul pantei, b , este determinat de semnul coeficientului de corelație, r , și invers.

În plus, întrucât panta se exprimă ca produs între r și coeficientul menționat mai sus dintre cele două abateri standard, în cazurile în care cele două variabile nu prezintă nicio corelație (adică când se verifică că r = 0 ) , atunci panta dreptei ajustate prin regresie liniară la date va fi, de asemenea, zero, așa cum am observat anterior.

Acest lucru are foarte mult sens, deoarece, dacă toți ceilalți factori care afectează variabila dependentă sunt valabile, dacă nu există o corelație între aceasta și variabila independentă, este de așteptat ca o modificare a variabilei independente (adică în x ) nu va produce nicio schimbare observabilă în primul (adică, în y). În consecință, pe măsură ce ne deplasăm de la stânga la dreapta de-a lungul graficului, nu vom observa nicio creștere sau descreștere a valorilor y și orice variație pe care o observăm se datorează exclusiv naturii aleatoare a acelei variabile.

Relația dintre coeficientul Pearson și pantă în cazul datelor populației

Ceea ce tocmai s-a spus în legătură cu datele eșantionului se aplică în același mod și în cazul deținerii tuturor datelor unei populații. Singurul lucru care se schimbă este că, în loc de statistici ( a, b și r ), în cazul populației suntem în prezența parametrilor.

Așa cum este obișnuit în statistică, parametrii sunt de obicei reprezentați prin aceleași litere ca și statisticile, folosind doar literele alfabetului grecesc. Din acest motiv, cutoff-ul și panta liniei potrivite tuturor datelor populației sunt reprezentate de literele α și β (în loc de a și b ) , iar coeficientul Pearson este reprezentat de litera ρ (în loc de ). r ), în timp ce abaterile standard ale populației sunt reprezentate de litera s (în loc de s ).

Astfel, relația dintre pantă și coeficientul de corelație liniară pentru populație este dată de:

Panta dreptei de regresie și coeficientul de corelație

Referințe

Carollo Limeres, MC (2012). REGRESIE LINARĂ SIMPLU . Universitatea din Santiago de Compostela. http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf

LesKanaris. (nd). Ce sunt datele împerecheate în statistici? – Sfaturi – 2022 . https://us.leskanaris.com/7419-paired-data-in-statistics.html

Martinez Vara De Rey, CC (sf). Analiza datelor în psihologie II – Coeficientul de corelație liniară al lui Pearson . Universitatea din Sevilla. https://personal.us.es/vararey/correlacion-lineal-pearson.pdf

Rodrigo, JA (2016, iunie). Corelație liniară și regresie liniară simplă . CienciaDeDatos.Net. https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal

Santos Cuervo, L. (2000). Regresia și corelația . aruncări. http://recursostic.educacion.es/descartes/web/Descartes1/Bach_CNST_1/Variables_estadisticas_bidimensionales_regresion_correlacion/regresi2.htm

Superprof. (25 mai 2020). Care este linia de regresie? | Superprof . Material Didactic – Superprof. https://www.superprof.es/apuntes/escolar/matematicas/estadistica/disbidimension/recta-de-regresion.html

Ucha, AP (2021, 19 februarie). Coeficient de corelație liniară . Economipedia. https://economipedia.com/definiciones/coeficiente-de-correlacion-lineal.html

-Publicitate-

mm
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados