Nachylenie linii regresji i współczynnik korelacji

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.


Analizując statystycznie serie danych ilościowych, często mamy do czynienia z danymi sparowanymi lub uporządkowanymi parami. Odpowiadają one danym dwóch różnych zmiennych, na ogół pochodzącym od tej samej osoby i dlatego są ze sobą powiązane. Jest to zatem kwestia danych, które nie są rozpatrywane osobno, ale zawsze muszą być rozpatrywane łącznie, takie jak wzrost i waga konkretnej osoby lub masa i maksymalna prędkość samochodu.

Kiedy mamy sparowane dane, statystyki dają nam możliwość ustalenia, czy istnieje związek między tymi zmiennymi. Jest to szczególnie powszechne w różnych naukach, zwłaszcza gdy obserwuje się, że zachowanie jednej zmiennej wydaje się wpływać na lub determinować zachowanie innej. Podczas ustalania tych zależności statystyka dostarcza nam dwóch różnych rodzajów narzędzi: badania korelacji między dwiema lub więcej zmiennymi oraz dopasowanie sparowanych danych do różnych modeli matematycznych poprzez proces regresji.

W przypadku danych, które zachowują się liniowo, można obliczyć współczynnik regresji liniowej r , który mierzy liniowość zachowania danych. Z drugiej strony równanie matematyczne linii prostej, które najlepiej pasuje do danych, można również uzyskać za pomocą regresji liniowej. Gdy to zrobimy, otrzymamy współczynniki regresji w postaci punktu przecięcia linii i jej nachylenia.

Jeśli przyjrzymy się wielu przykładom obliczeń współczynników regresji liniowej i nachylenia linii otrzymanej z regresji liniowej, szybko zauważymy, że istnieje zależność między obiema wartościami. W szczególności zauważymy, że ilekroć nachylenie jest ujemne, współczynnik regresji jest również ujemny; gdy jest dodatni, współczynnik jest również dodatni, a gdy nachylenie wynosi zero, podobnie jest ze współczynnikiem regresji.

Nachylenie linii regresji i współczynnik korelacji

W kolejnych sekcjach zbadamy, dlaczego tak się dzieje i jaki jest prawdziwy związek między tymi dwiema wartościami statystycznymi, które prawie zawsze idą w parze.

Korelacja i regresja w statystyce i nauce

Badania korelacji dostarczają szeregu statystyk, takich jak współczynniki korelacji i determinacji, które umożliwiają ustalenie, w jakim stopniu dwie lub więcej zmiennych są ze sobą skorelowane. Innymi słowy, pozwalają nam ustalić, jaka część zmienności zmiennej losowej (zwykle ilościowej) może być wyjaśniona w kategoriach zmienności innej zmiennej losowej, zamiast być wyjaśniona w kategoriach jej własnych zmienności losowych. Oznacza to, że pozwalają one ustalić, w jakim stopniu zmienność jednej lub kilku zmiennych wyjaśnia zmienność innej.

Należy zauważyć, że badania korelacji dostrzegają tylko korelację między dwiema lub więcej zmiennymi, ale nie dostarczają bezpośrednich dowodów na związek przyczynowo-skutkowy (to znaczy nie pozwalają ustalić, która z dwóch zmiennych powoduje zmienność drugiej ).

Z drugiej strony, kiedy wiemy (poprzez badanie korelacji) lub intuicyjnie, że dwie zmienne są w jakiś sposób skorelowane, na ogół staramy się ustanowić model matematyczny, który pozwoli nam przedstawić ogólne zachowanie jednej zmiennej jako funkcję drugiej , umożliwiając w ten sposób przewidywanie wartości jednej ze zmiennych na podstawie wartości drugiej. Osiąga się to dzięki procesowi regresji, poprzez który obliczane są współczynniki modelu matematycznego minimalizujące różnice między obserwowanymi danymi (parami uporządkowanymi lub danymi sparowanymi) a wartościami przewidywanymi przez model.

Korelacja liniowa i współczynnik korelacji Pearsona

Najprostszym przypadkiem korelacji jest korelacja liniowa. Dzieje się tak, gdy istnieje liniowa zależność między dwiema zmiennymi ilościowymi w taki sposób, że gdy jedna z nich rośnie, druga albo zawsze rośnie w tej samej proporcji, albo zawsze maleje w tej samej proporcji.

Badania korelacji liniowej opierają się na obliczeniu współczynnika korelacji liniowej dla serii danych. Istnieje kilka różnych współczynników korelacji liniowej, które można obliczyć, z których najczęstsze to:

  • Współczynnik korelacji liniowej Pearsona
  • Korelacja liniowa Spearmana
  • Korelacja Kendalla

Spośród tych trzech, najprostszym i najczęściej stosowanym jest współczynnik korelacji liniowej Pearsona. Można tego użyć, gdy sparowane dane spełniają następujące warunki:

  • Związek między zmiennymi jest liniowy.
  • Obie zmienne są ilościowe.
  • Obie zmienne mają rozkład normalny (chociaż niektórzy autorzy twierdzą, że korelację Pearsona można zastosować, nawet jeśli zmienne nie pasują idealnie do dzwonka Gaussa).
  • Wariancja zmiennej, która jest traktowana jako zmienna zależna (tej, którą reprezentujemy na osi Y) jest stała dla różnych wartości zmiennej niezależnej (tej na osi X).

Jeśli te warunki są spełnione, możemy obliczyć współczynnik korelacji Pearsona, aby określić, jak dobra jest korelacja liniowa między obiema zmiennymi.

Znając wariancje obu zmiennych (s 2 x ys 2 y ) oraz kowariancję (Cov x,y os xy ), możemy obliczyć współczynnik Pearsona dla populacji (ρ xy ) korzystając ze wzoru:

Nachylenie linii regresji i współczynnik korelacji

Z drugiej strony najczęściej spotykane jest to, że nie znamy wszystkich danych populacji, a jedynie mamy próbkę. W tym przypadku możemy obliczyć współczynnik korelacji Pearsona z próby, który jest estymatorem populacji. Oblicza się go za pomocą następującego wzoru:

Nachylenie linii regresji i współczynnik korelacji

Gdzie r to współczynnik korelacji, x̅ to średnia próbki zmiennej x, y̅ to średnia próby zmiennej y, a x i oraz y i to indywidualne wartości każdej z dwóch zmiennych.

Dopasowanie regresji liniowej metodą najmniejszych kwadratów

Regresja liniowa to proces dopasowywania sparowanych serii danych do linii prostej. Polega na uzyskaniu równania matematycznego linii, która najlepiej pasuje do serii danych, a zatem minimalizuje średnią odległość między wszystkimi punktami a linią, gdy oba są reprezentowane w kartezjańskim układzie współrzędnych.

Regresję liniową prawie zawsze przeprowadza się metodą najmniejszych kwadratów, a jej wynikiem jest uzyskanie dwóch parametrów definiujących linię, a mianowicie przecięcia z osią Y oraz nachylenia.

Niezależnie od tego, czy szereg danych zachowuje się liniowo, czy nie, zawsze można uzyskać równanie linii, która najlepiej do niego pasuje. Jeśli weźmiemy pod uwagę zmienną , którą bierzemy jako niezależną, X, i inną, którą bierzemy jako zmienną zależną, Y, równanie linii jest określone wzorem:

Nachylenie linii regresji i współczynnik korelacji

W tym równaniu współczynniki aib są współczynnikami regresji liniowej i reprezentują odpowiednio punkt przecięcia z osią Y i nachylenie linii. Można łatwo wykazać, że współczynniki minimalizujące kwadrat błędu predykcji modelu (różnica między wartością prawdziwą a wartością oszacowaną przez model) wyrażają się następująco:

Nachylenie linii regresji i współczynnik korelacji

Zależność między nachyleniem linii regresji liniowej b a współczynnikiem korelacji r

Teraz, gdy mamy już większą jasność co do współczynników regresji liniowej a i b oraz współczynnika korelacji liniowej Pearsona r , jesteśmy gotowi zrozumieć, dlaczego i jak nachylenie b jest powiązane z r .

W rzeczywistości połączenie poprzedniego równania dla b i definicji współczynnika Pearsona daje matematyczny związek między tymi dwiema statystykami w przypadku próbki danych:

Nachylenie linii regresji i współczynnik korelacji

Jak widać, ponieważ odchylenia standardowe s x i s y próby są z definicji dodatnie (ponieważ są dodatnim pierwiastkiem kwadratowym odpowiednich wariancji), ich iloraz będzie z konieczności dodatni. Z tego powodu znak nachylenia b jest określony przez znak współczynnika korelacji r i odwrotnie.

Ponadto, ponieważ nachylenie jest wyrażone jako iloczyn r i wspomnianego wcześniej ilorazu między dwoma odchyleniami standardowymi, w przypadkach, w których dwie zmienne nie wykazują żadnej korelacji (to znaczy, gdy potwierdzono, że r = 0 ) , wówczas nachylenie linii dopasowanej do danych za pomocą regresji liniowej również będzie równe zeru, jak zaobserwowaliśmy wcześniej.

Ma to duży sens, ponieważ jeśli wszystkie inne czynniki wpływające na zmienną zależną są zachowane, jeśli nie ma korelacji między nią a zmienną niezależną, należy oczekiwać, że zmiana niezależnej (tj. ) nie spowoduje żadnej zauważalnej zmiany w pierwszym (tj. w y). W związku z tym, przesuwając się od lewej do prawej wzdłuż wykresu, nie zaobserwujemy żadnego wzrostu ani spadku wartości y, a wszelkie zmiany, które obserwujemy, wynikają wyłącznie z losowego charakteru tej zmiennej.

Zależność między współczynnikiem Pearsona a nachyleniem w przypadku danych populacyjnych

To, co zostało powiedziane w odniesieniu do danych z próby, stosuje się w ten sam sposób w przypadku posiadania wszystkich danych z populacji. Zmienia się tylko to, że zamiast statystyk ( a, b i r ) w przypadku populacji mamy do czynienia z parametrami.

Jak to zwykle bywa w statystyce, parametry są zwykle reprezentowane przez te same litery co statystyki, tylko przy użyciu liter alfabetu greckiego. Z tego powodu punkt odcięcia i nachylenie linii dopasowanej do wszystkich danych populacji są reprezentowane przez litery α i β (zamiast a i b ) , a współczynnik Pearsona jest reprezentowany przez literę ρ (zamiast ).r ) , podczas gdy odchylenia standardowe populacji są reprezentowane przez literę s (zamiast s ).

Zatem związek między nachyleniem a współczynnikiem korelacji liniowej dla populacji jest określony wzorem:

Nachylenie linii regresji i współczynnik korelacji

Bibliografia

Carollo Limeres, MC (2012). PROSTA REGRESJA LINIOWA . Uniwersytet w Santiago de Compostela. http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf

LesKanaris. (nd). Czym są sparowane dane w statystykach? – Wskazówki – 2022 . https://us.leskanaris.com/7419-paired-data-in-statistics.html

Martinez Vara De Rey, CC (sf). Analiza danych w psychologii II – liniowy współczynnik korelacji Pearsona . Uniwersytet w Sewilli. https://personal.us.es/vararey/correlacion-lineal-pearson.pdf

Rodrigo, JA (2016, czerwiec). Korelacja liniowa i prosta regresja liniowa . CienciaDeDatos.Net. https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal

Santos Cuervo, L. (2000). Regresja i korelacja . odrzuty. http://recursostic.educacion.es/descartes/web/Descartes1/Bach_CNST_1/Variables_estadisticas_bidimensionales_regresion_correlacion/regresi2.htm

Superprof. (2020, 25 maja). Co to jest linia regresji? | Superprof . Materiał dydaktyczny – Superprof. https://www.superprof.es/apuntes/escolar/matematicas/estadistica/disbidimension/recta-de-regresion.html

Ucha, AP (2021, 19 lutego). Współczynnik korelacji liniowej . Economipedia. https://economipedia.com/definiciones/coeficiente-de-correlacion-lineal.html

-Reklama-

mm
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados

zmienne zależne