Regressionslinjens lutning och korrelationskoefficienten

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.


När vi statistiskt analyserar serier av kvantitativa data står vi ofta inför parade data eller ordnade par. Dessa motsvarar data för två olika variabler, som vanligtvis kommer från samma individ och som därför är kopplade till varandra. Det är då fråga om data som inte betraktas separat, utan alltid måste betraktas tillsammans, såsom höjd och vikt på en viss individ, eller vikt och maxhastighet på en bil.

När vi har parat data ger statistiken oss möjlighet att fastställa om det finns ett samband mellan dessa variabler. Detta är särskilt vanligt inom de olika vetenskaperna, särskilt när det observeras att beteendet hos en variabel verkar påverka eller bestämma beteendet hos en annan. När vi etablerar dessa samband ger statistiken oss två olika typer av verktyg: korrelationsstudier mellan två eller flera variabler och anpassning av parade data till olika matematiska modeller genom en regressionsprocess.

För data som beter sig linjärt kan en linjär regressionskoefficient, r , beräknas som mäter hur linjärt data beter sig. Å andra sidan kan den matematiska ekvationen för den räta linjen som bäst passar data också erhållas genom linjär regression. När vi gör detta får vi regressionskoefficienterna i form av skärningen av linjen och dess lutning.

Om vi ​​tittar på många exempel på beräkningar av linjära regressionskoefficienter och av lutningen på linjen som erhålls genom linjär regression, kommer vi snabbt att märka att det finns ett samband mellan båda värdena. Speciellt kommer vi att notera att närhelst lutningen är negativ är regressionskoefficienten också negativ; när den är positiv är koefficienten också positiv och när lutningen är noll så är regressionskoefficienten likaså.

Regressionslinjens lutning och korrelationskoefficienten

I de följande avsnitten kommer vi att utforska varför detta händer och vad är det verkliga förhållandet mellan dessa två statistiska värden som nästan alltid går hand i hand.

Korrelation och regression inom statistik och vetenskap

Korrelationsstudier ger en rad statistik såsom korrelations- och bestämningskoefficienter, som gör det möjligt att fastställa hur korrelerade två eller flera variabler är med varandra. Med andra ord tillåter de oss att fastställa vilken andel av variabiliteten hos en slumpvariabel (vanligtvis kvantitativ) som kan förklaras i termer av variabiliteten hos en annan slumpvariabel, istället för att förklaras i termer av dess egna slumpvariationer. Detta innebär att de gör det möjligt att fastställa hur väl variationen av en eller flera variabler förklarar variationen hos en annan.

Det bör noteras att korrelationsstudier bara ser att korrelationen mellan två eller flera variabler, men de ger inte direkta bevis för orsak och verkan (det vill säga de tillåter inte att fastställa vilken av de två variablerna som orsakar variationen av den andra ).

Å andra sidan, när vi vet (genom en korrelationsstudie) eller intuit att två variabler är korrelerade på något sätt, försöker vi i allmänhet upprätta en matematisk modell som tillåter oss att representera det allmänna beteendet hos en variabel som en funktion av den andra , vilket gör det möjligt att förutsäga värdet av en av variablerna baserat på värdet av den andra. Detta uppnås tack vare en regressionsprocess genom vilken koefficienterna för en matematisk modell som minimerar skillnaderna mellan de observerade data (de ordnade paren eller parade data) och de värden som förutspås av modellen beräknas.

Linjär korrelation och Pearsons korrelationskoefficient

Det enklaste fallet av korrelation är linjär korrelation. Detta inträffar när det finns ett linjärt samband mellan två kvantitativa variabler på ett sådant sätt att när en av dem ökar, den andra antingen alltid ökar i samma proportion eller alltid minskar i samma proportion.

Linjära korrelationsstudier bygger på att beräkna den linjära korrelationskoefficienten för dataserien. Det finns flera olika linjära korrelationskoefficienter som kan beräknas, varav de vanligaste är:

  • Pearsons linjära korrelationskoefficient
  • Spearmans linjära korrelation
  • Kendalls korrelation

Av de tre är den enklaste och även den mest använda Pearson linjära korrelationskoefficienten. Detta kan användas när den parade datan uppfyller följande villkor:

  • Relationen mellan variablerna är linjär.
  • Båda variablerna är kvantitativa.
  • Båda variablerna följer en normalfördelning (även om vissa författare hävdar att Pearsons korrelation kan användas även om variablerna inte passar perfekt till en gaussisk klocka).
  • Variansen för variabeln som tas som beroende variabel (den vi representerar på Y-axeln) är konstant för de olika värdena på den oberoende variabeln (den på X-axeln).

Om dessa villkor är uppfyllda kan vi beräkna Pearsons korrelationskoefficient för att bestämma hur bra den linjära korrelationen är mellan båda variablerna.

Om vi ​​känner till varianserna för båda variablerna (s 2 x ys 2 y ) och kovariansen (Cov x, y os xy ), kan vi beräkna Pearson-koefficienten för populationen (ρ xy ) med följande formel:

Regressionslinjens lutning och korrelationskoefficienten

Å andra sidan är det vanligaste att vi inte känner till alla uppgifter om populationen utan bara har ett urval. I det här fallet kan vi beräkna Pearson-korrelationskoefficienten, som är en estimator av populationen. Det beräknas med hjälp av följande formel:

Regressionslinjens lutning och korrelationskoefficienten

Där r är korrelationskoefficienten, x̅ är stickprovets medelvärde för variabeln x, y̅ är provmedelvärdet för variabeln y, och x i och y i är de individuella värdena för var och en av de två variablerna.

Minsta kvadraters linjär regression passar

Linjär regression är processen att anpassa en parad dataserie till en rät linje. Det innebär att man erhåller den matematiska ekvationen för den linje som bäst passar dataserien och minimerar därför medelavståndet mellan alla punkter och linjen när båda är representerade i ett kartesiskt koordinatsystem.

Linjär regression utförs nästan alltid med minsta kvadraters metod och resultatet är erhållandet av de två parametrarna som definierar en linje, nämligen skärningen med Y-axeln och lutningen.

Oavsett om en dataserie beter sig linjärt eller inte, är det alltid möjligt att få den ekvation för den linje som passar den bäst. Om vi ​​betraktar en variabel som vi tar som oberoende, X, och en annan som vi tar som en beroende variabel, Y, ges linjens ekvation av:

Regressionslinjens lutning och korrelationskoefficienten

I denna ekvation är koefficienterna a och b de linjära regressionskoefficienterna och representerar Y-snittet respektive linjens lutning. Det kan enkelt visas att koefficienterna som minimerar kvadraten på modellens prediktionsfel (skillnaden mellan det sanna värdet och det värde som uppskattas av modellen) ges av:

Regressionslinjens lutning och korrelationskoefficienten

Förhållandet mellan lutningen på den linjära regressionslinjen, b, och korrelationskoefficienten, r

Nu när vi är mer tydliga med vad de linjära regressionskoefficienterna a och b är och vad Pearsons linjära korrelationskoefficient r är , är vi redo att förstå varför och hur lutningen b är relaterad till r .

Faktum är att kombinationen av föregående ekvation för b och definitionen av Pearson-koefficienten resulterar i det matematiska sambandet mellan dessa två statistik, för fallet med ett urval av data:

Regressionslinjens lutning och korrelationskoefficienten

Som man kan se, eftersom urvalets standardavvikelser s x och s y per definition är positiva (eftersom de är den positiva kvadratroten av respektive varians), kommer deras kvot nödvändigtvis att vara positiv. Av denna anledning bestäms tecknet för lutningen, b , av tecknet för korrelationskoefficienten r , och vice versa.

Dessutom, eftersom lutningen uttrycks som produkten mellan r och den tidigare nämnda kvoten mellan de två standardavvikelserna, i de fall där de två variablerna inte visar någon korrelation (det vill säga när det är verifierat att r = 0 ) , då kommer lutningen för linjen som anpassas av linjär regression till data också att vara noll, som vi observerade tidigare.

Detta är mycket vettigt, eftersom om alla andra faktorer som påverkar den beroende variabeln håller, om det inte finns någon korrelation mellan den och den oberoende variabeln, kan det förväntas att en förändring i den oberoende (det vill säga i x) ) kommer inte att producera någon observerbar förändring i den första (dvs i y). Följaktligen, när vi rör oss från vänster till höger längs grafen, kommer vi inte att observera någon ökning eller minskning av y-värdena, och alla variationer som vi observerar beror enbart på variabelns slumpmässiga natur.

Samband mellan Pearsons koefficient och lutning när det gäller populationsdata

Vad som nyss har sagts i förhållande till urvalsdata gäller på samma sätt när det gäller att ha alla uppgifter om en population. Det enda som förändras är att istället för statistik ( a, b och r ), när det gäller populationen är vi i närvaro av parametrar.

Som vanligt i statistik representeras parametrar vanligtvis av samma bokstäver som statistik, endast med bokstäverna i det grekiska alfabetet. Av denna anledning representeras cutoff och lutning för linjen som är anpassad till alla populationsdata av bokstäverna α och β (istället för a och b ) , och Pearson-koefficienten representeras av bokstaven ρ (istället för ). r ), medan populationens standardavvikelser representeras av bokstaven s (istället för s ).

Således ges förhållandet mellan lutningen och den linjära korrelationskoefficienten för populationen av:

Regressionslinjens lutning och korrelationskoefficienten

Referenser

Carollo Limeres, MC (2012). ENKEL LINJÄR REGRESSION . Universitetet i Santiago de Compostela. http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf

LesKanaris. (nd). Vad är parad data i statistik? – Tips – 2022 . https://us.leskanaris.com/7419-paired-data-in-statistics.html

Martinez Vara De Rey, CC (sf). Data Analysis in Psychology II – Pearsons linjära korrelationskoefficient . Sevillas universitet. https://personal.us.es/vararey/correlacion-lineal-pearson.pdf

Rodrigo, JA (2016, juni). Linjär korrelation och enkel linjär regression . CienciaDeDatos.Net. https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal

Santos Cuervo, L. (2000). Regression och korrelation . kasserar. http://recursostic.educacion.es/descartes/web/Descartes1/Bach_CNST_1/Variables_estadisticas_bidimensionales_regresion_correlacion/regresi2.htm

Superprof. (2020, 25 maj). Vad är regressionslinjen? | Superproff . Didaktiskt material – Superprof. https://www.superprof.es/apuntes/escolar/matematicas/estadistica/disbidimension/recta-de-regresion.html

Ucha, AP (2021, 19 februari). Linjär korrelationskoefficient . Ekonomipedia. https://economipedia.com/definiciones/coeficiente-de-correlacion-lineal.html

-Annons-

mm
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados