Наклонът на регресионната линия и корелационният коефициент

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.

Когато анализираме статистически серии от количествени данни, често се сблъскваме със сдвоени данни или подредени двойки. Те съответстват на данни за две различни променливи, обикновено идващи от едно и също лице и следователно са свързани помежду си. Тогава става въпрос за данни, които не се разглеждат отделно, а винаги трябва да се разглеждат заедно, като например височината и теглото на конкретен индивид или теглото и максималната скорост на автомобил.

Когато имаме сдвоени данни, статистиката ни дава възможност да установим дали има връзка между тези променливи. Това е особено често срещано в различните науки, особено когато се наблюдава, че поведението на една променлива изглежда влияе или определя поведението на друга. Когато установяваме тези връзки, статистиката ни предоставя два различни вида инструменти: изследвания на корелация между две или повече променливи и коригиране на сдвоени данни към различни математически модели чрез процес на регресия.

За данни, които се държат линейно, може да се изчисли коефициент на линейна регресия, r , който измерва колко линейно се държат данните. От друга страна, математическото уравнение на правата линия, което най-добре пасва на данните, също може да бъде получено чрез линейна регресия. Когато правим това, получаваме регресионните коефициенти под формата на пресечната точка на правата и нейния наклон.

Ако разгледаме много примери за изчисления на коефициентите на линейна регресия и на наклона на линията, получени чрез линейна регресия, бързо ще забележим, че има връзка между двете стойности. По-специално ще отбележим, че когато наклонът е отрицателен, регресионният коефициент също е отрицателен; когато е положителен, коефициентът също е положителен, а когато наклонът е нула, регресионният коефициент също е положителен.

Наклонът на регресионната линия и корелационният коефициент

В следващите раздели ще проучим защо това се случва и каква е реалната връзка между тези две статистически стойности, които почти винаги вървят ръка за ръка.

Корелация и регресия в статистиката и науката

Корелационните изследвания предоставят поредица от статистически данни като коефициентите на корелация и детерминация, които позволяват да се установи колко корелирани са две или повече променливи една с друга. С други думи, те ни позволяват да установим каква част от променливостта на една случайна променлива (обикновено количествена) може да бъде обяснена от гледна точка на променливостта на друга случайна променлива, вместо да бъде обяснена от гледна точка на нейните собствени случайни вариации. Това означава, че те позволяват да се установи колко добре вариацията на една или повече променливи обяснява вариацията на друга.

Трябва да се отбележи, че корелационните изследвания виждат само корелацията между две или повече променливи, но те не предоставят пряко доказателство за причина и следствие (т.е. не позволяват да се установи коя от двете променливи причинява вариацията на другата ).

От друга страна, когато знаем (чрез корелационно изследване) или интуитивно доловим, че две променливи са свързани по някакъв начин, ние обикновено се стремим да създадем математически модел, който ни позволява да представим общото поведение на една променлива като функция на другата , позволявайки по този начин да се предвиди стойността на една от променливите въз основа на стойността на другата. Това се постига благодарение на процес на регресия, чрез който се изчисляват коефициентите на математическия модел, които минимизират разликите между наблюдаваните данни (подредените двойки или сдвоени данни) и стойностите, предвидени от модела.

Линейна корелация и корелационен коефициент на Пиърсън

Най-простият случай на корелация е линейната корелация. Това се случва, когато има линейна връзка между две количествени променливи по такъв начин, че когато едната от тях се увеличава, другата или винаги се увеличава в същата пропорция, или винаги намалява в същата пропорция.

Изследванията на линейната корелация се основават на изчисляване на коефициента на линейна корелация за сериите от данни. Има няколко различни коефициента на линейна корелация, които могат да бъдат изчислени, най-често срещаните от които са:

  • Линеен корелационен коефициент на Пиърсън
  • Линейна корелация на Спирман
  • Корелация на Кендъл

От трите най-простият и най-широко използваният е линейният корелационен коефициент на Пиърсън. Това може да се използва, когато сдвоените данни отговарят на следните условия:

  • Връзката между променливите е линейна.
  • И двете променливи са количествени.
  • И двете променливи следват нормално разпределение (въпреки че някои автори твърдят, че корелацията на Пиърсън може да се използва дори ако променливите не пасват идеално на камбана на Гаус).
  • Дисперсията на променливата, която се приема като зависима променлива (тази, която представяме на оста Y), е постоянна за различните стойности на независимата променлива (тази на оста X).

Ако тези условия са изпълнени, можем да изчислим коефициента на корелация на Pearson, за да определим колко добра е линейната корелация между двете променливи.

Ако знаем дисперсиите на двете променливи (s 2 x ys 2 y ) и ковариацията (Cov x,y os xy ), можем да изчислим коефициента на Пиърсън за популацията (ρ xy ), като използваме следната формула:

Наклонът на регресионната линия и корелационният коефициент

От друга страна, най-често срещаният е, че не знаем всички данни за съвкупността, а имаме само извадка. В този случай можем да изчислим примерния коефициент на корелация на Пиърсън, който е оценка на съвкупността. Изчислява се по следната формула:

Наклонът на регресионната линия и корелационният коефициент

Където r е корелационният коефициент, x̅ е извадковата средна стойност на променливата x, y̅ е извадковата средна стойност на променливата y, а x i и y i са индивидуалните стойности на всяка от двете променливи.

Напасване на линейната регресия на най-малките квадрати

Линейната регресия е процес на напасване на сдвоени серии от данни към права линия. Това включва получаване на математическото уравнение на линията, което най-добре отговаря на серията от данни и следователно минимизира средното разстояние между всички точки и линията, когато и двете са представени в декартова координатна система.

Линейната регресия почти винаги се извършва по метода на най-малките квадрати и резултатът е получаването на двата параметъра, които определят една линия, а именно разрезът с оста Y и наклонът.

Независимо от това дали серия от данни се държи линейно или не, винаги е възможно да се получи уравнението на линията, което най-добре пасва на нея. Ако разгледаме променлива , която приемаме като независима, X, и друга, която приемаме като зависима променлива, Y, уравнението на линията се дава от:

Наклонът на регресионната линия и корелационният коефициент

В това уравнение коефициентите a и b са коефициентите на линейна регресия и представляват съответно Y-пресечната точка и наклона на правата. Лесно може да се покаже, че коефициентите, които минимизират квадрата на грешката на прогнозиране на модела (разликата между истинската стойност и стойността, оценена от модела), се дават от:

Наклонът на регресионната линия и корелационният коефициент

Връзката между наклона на линията на линейна регресия, b, и коефициента на корелация, r

Сега, когато сме по-ясни какво представляват коефициентите на линейна регресия a и b и какъв е коефициентът на линейна корелация на Пиърсън r , ние сме готови да разберем защо и как наклонът b е свързан с r .

Всъщност комбинацията от горното уравнение за b и дефиницията на коефициента на Пиърсън води до математическата връзка между тези две статистики в случай на извадка от данни:

Наклонът на регресионната линия и корелационният коефициент

Както може да се види, тъй като стандартните отклонения на извадката s x и s y са, по дефиниция, положителни (тъй като те са положителен квадратен корен от съответните дисперсии), техният коефициент непременно ще бъде положителен. Поради тази причина знакът на наклона b се определя от знака на корелационния коефициент r и обратно.

В допълнение, тъй като наклонът се изразява като произведение между r и гореспоменатото частно между двете стандартни отклонения, в случаите, в които двете променливи не показват никаква корелация (т.е. когато се провери, че r = 0 ) , тогава наклонът на линията, напаснат чрез линейна регресия към данните, също ще бъде нула, както отбелязахме по-рано.

Това има много смисъл, тъй като, ако всички други фактори, които влияят на зависимата променлива, са валидни, ако няма корелация между нея и независимата променлива, трябва да се очаква промяна в независимата (т.е. в x ) няма да доведе до видима промяна в първия (т.е. в y). Следователно, докато се движим отляво надясно по графиката, няма да наблюдаваме увеличение или намаляване на y-стойностите и всяка вариация, която наблюдаваме, се дължи единствено на случайния характер на тази променлива.

Връзка между коефициента на Пиърсън и наклона в случай на данни за населението

Това, което току-що беше казано във връзка с извадковите данни, се прилага по същия начин в случай на наличие на всички данни за популация. Единственото, което се променя е, че вместо статистика ( a, b и r ), в случая на съвкупността имаме параметри.

Както е обичайно в статистиката, параметрите обикновено се представят със същите букви като статистиката, като се използват само буквите от гръцката азбука. Поради тази причина границата и наклонът на линията, напаснати към всички данни за населението, са представени с буквите α и β (вместо a и b ) , а коефициентът на Пиърсън е представен с буквата ρ (вместо r ). докато стандартните отклонения на съвкупността са представени с буквата s (вместо s ).

По този начин връзката между наклона и коефициента на линейна корелация за съвкупността се дава от:

Наклонът на регресионната линия и корелационният коефициент

Препратки

Кароло Лимерес, MC (2012). ПРОСТА ЛИНЕЙНА РЕГРЕСИЯ . Университет на Сантяго де Компостела. http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf

ЛесКанарис. (nd). Какво представляват сдвоените данни в статистиката? – Съвети – 2022 . https://us.leskanaris.com/7419-paired-data-in-statistics.html

Мартинес Вара де Рей, CC (sf). Анализ на данни в психологията II – Линеен корелационен коефициент на Пиърсън . Университет на Севиля. https://personal.us.es/vararey/correlacion-lineal-pearson.pdf

Rodrigo, JA (2016, юни). Линейна корелация и проста линейна регресия . CienciaDeDatos.Net. https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal

Сантос Куерво, Л. (2000). Регресия и корелация . изхвърля. http://recursostic.educacion.es/descartes/web/Descartes1/Bach_CNST_1/Variables_estadisticas_bidimensionales_regresion_correlacion/regresi2.htm

Суперпроф. (2020 г., 25 май). Какво представлява регресионната линия? | Суперпроф . Дидактически материали – Суперпроф. https://www.superprof.es/apuntes/escolar/matematicas/estadistica/disbidimension/recta-de-regresion.html

Уча, AP (2021 г., 19 февруари). Линеен коефициент на корелация . Икономипедия. https://economipedia.com/definiciones/coeficiente-de-correlacion-lineal.html

mm
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados