La pendenza della retta di regressione e il coefficiente di correlazione

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.


Quando si analizzano statisticamente serie di dati quantitativi, ci troviamo spesso di fronte a dati appaiati o coppie ordinate. Questi corrispondono a dati di due variabili diverse, generalmente provenienti dallo stesso individuo e che, quindi, sono legate tra loro. Si tratta poi di dati che non vanno considerati separatamente, ma vanno sempre considerati insieme, come l’altezza e il peso di un determinato individuo, oppure il peso e la velocità massima di un’auto.

Quando disponiamo di dati accoppiati, le statistiche ci danno la possibilità di stabilire se esiste una relazione tra queste variabili. Ciò è particolarmente comune nelle diverse scienze, specialmente quando si osserva che il comportamento di una variabile sembra influenzare o determinare il comportamento di un’altra. Nello stabilire queste relazioni, la statistica ci fornisce due diversi tipi di strumenti: studi di correlazione tra due o più variabili e l’adeguamento di dati appaiati a diversi modelli matematici attraverso un processo di regressione.

Per i dati che si comportano in modo lineare, è possibile calcolare un coefficiente di regressione lineare, r , che misura il comportamento lineare dei dati. D’altra parte, l’equazione matematica della retta che meglio si adatta ai dati può essere ottenuta anche attraverso la regressione lineare. Quando lo facciamo, otteniamo i coefficienti di regressione sotto forma dell’intercetta della linea e della sua pendenza.

Se osserviamo molti esempi di calcolo dei coefficienti di regressione lineare e della pendenza della retta ottenuta mediante regressione lineare, noteremo subito che esiste una relazione tra i due valori. In particolare, noteremo che ogni volta che la pendenza è negativa, anche il coefficiente di regressione è negativo; quando è positivo anche il coefficiente è positivo e quando la pendenza è zero lo è anche il coefficiente di regressione.

La pendenza della retta di regressione e il coefficiente di correlazione

Nelle sezioni seguenti esploreremo perché ciò accade e qual è la reale relazione tra questi due valori statistici che vanno quasi sempre di pari passo.

Correlazione e regressione in statistica e scienza

Gli studi di correlazione forniscono una serie di statistiche come i coefficienti di correlazione e determinazione, che consentono di stabilire quanto siano correlate tra loro due o più variabili. In altre parole, consentono di stabilire quale proporzione della variabilità di una variabile aleatoria (solitamente quantitativa) può essere spiegata in termini di variabilità di un’altra variabile aleatoria, invece di essere spiegata in termini delle sue stesse variazioni aleatorie. Ciò significa che consentono di stabilire quanto bene la variazione di una o più variabili spiega la variazione di un’altra.

Si noti che gli studi di correlazione vedono solo quella, la correlazione tra due o più variabili, ma non forniscono evidenza diretta di causa ed effetto (non consentono cioè di stabilire quale delle due variabili causa la variazione dell’altra ).

Quando invece sappiamo (attraverso uno studio di correlazione) o intuiamo che due variabili sono in qualche modo correlate, generalmente cerchiamo di stabilire un modello matematico che ci permetta di rappresentare il comportamento generale di una variabile in funzione dell’altra , permettendo così di prevedere il valore di una delle variabili in base al valore dell’altra. Ciò si ottiene grazie a un processo di regressione attraverso il quale vengono calcolati i coefficienti di un modello matematico che minimizzano le differenze tra i dati osservati (le coppie ordinate o dati appaiati) e i valori previsti dal modello.

Correlazione lineare e coefficiente di correlazione di Pearson

Il caso più semplice di correlazione è la correlazione lineare. Ciò si verifica quando esiste una relazione lineare tra due variabili quantitative in modo tale che, quando una di esse aumenta, l’altra o cresce sempre nella stessa proporzione, oppure diminuisce sempre nella stessa proporzione.

Gli studi di correlazione lineare si basano sul calcolo del coefficiente di correlazione lineare per le serie di dati. Esistono diversi coefficienti di correlazione lineare che possono essere calcolati, i più comuni dei quali sono:

  • Coefficiente di correlazione lineare di Pearson
  • Correlazione lineare di Spearman
  • Correlazione di Kendall

Dei tre, il più semplice e anche il più utilizzato è il coefficiente di correlazione lineare di Pearson. Questo può essere utilizzato quando i dati accoppiati soddisfano le seguenti condizioni:

  • La relazione tra le variabili è lineare.
  • Entrambe le variabili sono quantitative.
  • Entrambe le variabili seguono una distribuzione normale (sebbene alcuni autori sostengano che la correlazione di Pearson possa essere utilizzata anche se le variabili non si adattano perfettamente a una campana gaussiana).
  • La varianza della variabile che viene assunta come variabile dipendente (quella che rappresentiamo sull’asse Y) è costante per i diversi valori della variabile indipendente (quella sull’asse X).

Se queste condizioni sono soddisfatte, possiamo calcolare il coefficiente di correlazione di Pearson per determinare quanto è buona la correlazione lineare tra entrambe le variabili.

Se conosciamo le varianze di entrambe le variabili (s 2 x ys 2 y ) e la covarianza (Cov x,y os xy ), possiamo calcolare il coefficiente di Pearson per la popolazione (ρ xy ) utilizzando la seguente formula:

La pendenza della retta di regressione e il coefficiente di correlazione

D’altra parte, il più comune è che non conosciamo tutti i dati della popolazione, ma abbiamo solo un campione. In questo caso, possiamo calcolare il coefficiente di correlazione di Pearson campione, che è uno stimatore della popolazione. Si calcola mediante la seguente formula:

La pendenza della retta di regressione e il coefficiente di correlazione

Dove r è il coefficiente di correlazione, x̅ è la media campionaria della variabile x, y̅ è la media campionaria della variabile y, e x i e y i sono i singoli valori di ciascuna delle due variabili.

Adattamento della regressione lineare dei minimi quadrati

La regressione lineare è il processo di adattamento di una serie di dati accoppiati a una linea retta. Implica l’ottenimento dell’equazione matematica della retta che meglio si adatta alla serie di dati e, quindi, minimizza la distanza media tra tutti i punti e la retta quando entrambi sono rappresentati in un sistema di coordinate cartesiane.

La regressione lineare viene quasi sempre effettuata con il metodo dei minimi quadrati e il risultato è l’ottenimento dei due parametri che definiscono una retta, ovvero il taglio con l’asse Y e la pendenza.

Indipendentemente dal fatto che una serie di dati si comporti linearmente o meno, è sempre possibile ottenere l’equazione della retta che meglio le si adatta. Se consideriamo una variabile che prendiamo come indipendente, X, e un’altra che prendiamo come variabile dipendente, Y, l’equazione della retta è data da:

La pendenza della retta di regressione e il coefficiente di correlazione

In questa equazione, i coefficienti a e b sono i coefficienti di regressione lineare e rappresentano, rispettivamente, l’intercetta Y e la pendenza della retta. Si può facilmente dimostrare che i coefficienti che minimizzano il quadrato dell’errore di previsione del modello (la differenza tra il valore vero e il valore stimato dal modello) sono dati da:

La pendenza della retta di regressione e il coefficiente di correlazione

La relazione tra la pendenza della retta di regressione lineare, b, e il coefficiente di correlazione, r

Ora che abbiamo più chiaro cosa siano i coefficienti di regressione lineare a e b e cosa sia il coefficiente di correlazione lineare di Pearson r , siamo pronti a capire perché e come la pendenza b è correlata a r .

Infatti, la combinazione dell’equazione di cui sopra per b e la definizione del coefficiente di Pearson, risulta nella relazione matematica tra queste due statistiche, per il caso di un campione di dati:

La pendenza della retta di regressione e il coefficiente di correlazione

Come si vede, poiché le deviazioni standard campionarie s x e s y sono, per definizione, positive (in quanto radice quadrata positiva delle rispettive varianze), il loro quoziente sarà necessariamente positivo. Per questo motivo il segno della pendenza, b , è determinato dal segno del coefficiente di correlazione, r , e viceversa.

Inoltre, poiché la pendenza è espressa come prodotto tra r e il suddetto quoziente tra le due deviazioni standard, nei casi in cui le due variabili non presentano alcuna correlazione (ovvero quando si verifica che r = 0 ) , allora anche la pendenza della retta adattata dalla regressione lineare ai dati sarà zero, come abbiamo osservato in precedenza.

Ciò ha molto senso, poiché, se tutti gli altri fattori che influenzano la variabile dipendente valgono, se non c’è correlazione tra essa e la variabile indipendente, è prevedibile che un cambiamento nell’indipendente (cioè in x ) non produrrà alcun cambiamento osservabile nel primo (cioè in y). Di conseguenza, mentre ci spostiamo da sinistra a destra lungo il grafico, non osserveremo alcun aumento o diminuzione dei valori y e qualsiasi variazione che osserviamo è dovuta esclusivamente alla natura casuale di quella variabile.

Relazione tra coefficiente di Pearson e pendenza nel caso di dati di popolazione

Quanto appena detto a proposito dei dati campionari vale allo stesso modo nel caso di avere tutti i dati di una popolazione. L’unica cosa che cambia è che, invece di statistiche ( a, b e r ), nel caso della popolazione siamo in presenza di parametri.

Come è comune nelle statistiche, i parametri sono solitamente rappresentati dalle stesse lettere delle statistiche, utilizzando solo le lettere dell’alfabeto greco. Per questo motivo, il limite e la pendenza della retta adattata a tutti i dati della popolazione sono rappresentati dalle lettere α e β (invece di a e b ) e il coefficiente di Pearson è rappresentato dalla lettera ρ (invece di ).r ) , mentre le deviazioni standard della popolazione sono rappresentate dalla lettera s (invece di s ).

Pertanto, la relazione tra la pendenza e il coefficiente di correlazione lineare per la popolazione è data da:

La pendenza della retta di regressione e il coefficiente di correlazione

Riferimenti

Carollo Limeres, MC (2012). REGRESSIONE LINEARE SEMPLICE . Università di Santiago di Compostela. http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf

Les Kanaris. (nd). Che cosa sono i dati accoppiati nelle statistiche? – Suggerimenti – 2022 . https://us.leskanaris.com/7419-paired-data-in-statistics.html

Martinez Vara De Rey, CC (sf). Analisi dei dati in psicologia II – Coefficiente di correlazione lineare di Pearson . Università di Siviglia. https://personal.us.es/vararey/correlacion-lineal-pearson.pdf

Rodrigo, JA (2016, giugno). Correlazione lineare e regressione lineare semplice . CienciaDeDatos.Net. https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal

Santos Cuervo, L. (2000). Regressione e correlazione . scarti. http://recursostic.educacion.es/descartes/web/Descartes1/Bach_CNST_1/Variables_estadisticas_bidimensionales_regresion_correlacion/regresi2.htm

Superprof. (2020, 25 maggio). Cos’è la retta di regressione? | Superprof . Materiale Didattico – Superprof. https://www.superprof.es/apuntes/escolar/matematicas/estadistica/disbidimension/recta-de-regresion.html

Ucha, AP (2021, 19 febbraio). Coefficiente di correlazione lineare . Economipedia. https://economipedia.com/definiciones/coeficiente-de-correlacion-lineal.html

-Annuncio-

mm
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados