प्रतिगमन रेखा का ढलान और सहसंबंध गुणांक

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.

मात्रात्मक डेटा की श्रृंखला का सांख्यिकीय विश्लेषण करते समय, हमें अक्सर युग्मित डेटा या आदेशित जोड़े के साथ सामना करना पड़ता है। ये दो अलग-अलग चर के डेटा के अनुरूप हैं, आम तौर पर एक ही व्यक्ति से आते हैं और इसलिए, एक दूसरे से जुड़े होते हैं। यह तब डेटा का विषय है जिसे अलग से नहीं माना जाता है, लेकिन हमेशा एक साथ माना जाना चाहिए, जैसे किसी विशेष व्यक्ति की ऊंचाई और वजन, या कार का वजन और अधिकतम गति।

जब हमारे पास युग्मित डेटा होता है, तो आँकड़े हमें यह स्थापित करने की संभावना प्रदान करते हैं कि इन चरों के बीच कोई संबंध है या नहीं। यह विभिन्न विज्ञानों में विशेष रूप से आम है, खासकर जब यह देखा गया है कि एक चर का व्यवहार दूसरे के व्यवहार को प्रभावित या निर्धारित करता है। इन संबंधों को स्थापित करते समय, आँकड़े हमें दो अलग-अलग प्रकार के उपकरण प्रदान करते हैं: दो या दो से अधिक चरों के बीच सहसंबंध अध्ययन और एक प्रतिगमन प्रक्रिया के माध्यम से विभिन्न गणितीय मॉडल के लिए युग्मित डेटा का समायोजन।

डेटा के लिए जो रैखिक रूप से व्यवहार करता है, एक रैखिक प्रतिगमन गुणांक, r की गणना की जा सकती है जो यह मापता है कि डेटा कैसे रैखिक रूप से व्यवहार करता है। दूसरी ओर, डेटा को सर्वोत्तम रूप से फिट करने वाली सीधी रेखा का गणितीय समीकरण भी रैखिक प्रतिगमन के माध्यम से प्राप्त किया जा सकता है। जब हम ऐसा करते हैं, तो हमें रेखा और उसके ढलान के अवरोधन के रूप में प्रतिगमन गुणांक मिलते हैं।

यदि हम रेखीय प्रतिगमन गुणांक की गणना और रैखिक प्रतिगमन द्वारा प्राप्त रेखा के ढलान के कई उदाहरणों को देखते हैं, तो हम जल्दी से ध्यान देंगे कि दोनों मूल्यों के बीच एक संबंध है। विशेष रूप से, हम ध्यान देंगे कि जब भी ढलान ऋणात्मक होता है, समाश्रयण गुणांक भी ऋणात्मक होता है; जब यह सकारात्मक होता है तो गुणांक भी सकारात्मक होता है और जब ढलान शून्य होता है, तो प्रतिगमन गुणांक भी होता है।

प्रतिगमन रेखा का ढलान और सहसंबंध गुणांक

निम्नलिखित खंडों में हम यह पता लगाएंगे कि ऐसा क्यों होता है और इन दो सांख्यिकीय मूल्यों के बीच वास्तविक संबंध क्या है जो लगभग हमेशा साथ-साथ चलते हैं।

सांख्यिकी और विज्ञान में सहसंबंध और प्रतिगमन

सहसंबंध अध्ययन सहसंबंध और दृढ़ संकल्प गुणांक जैसे आँकड़ों की एक श्रृंखला प्रदान करते हैं, जो यह स्थापित करना संभव बनाते हैं कि दो या दो से अधिक चर एक दूसरे के साथ कितने सहसंबद्ध हैं। दूसरे शब्दों में, वे हमें यह स्थापित करने की अनुमति देते हैं कि एक यादृच्छिक चर (आमतौर पर मात्रात्मक) की परिवर्तनशीलता के किस अनुपात को दूसरे यादृच्छिक चर की परिवर्तनशीलता के संदर्भ में समझाया जा सकता है, इसके बजाय अपने स्वयं के यादृच्छिक रूपांतरों के संदर्भ में समझाया जा सकता है। इसका मतलब यह है कि वे यह स्थापित करने की अनुमति देते हैं कि एक या अधिक चरों की भिन्नता दूसरे की भिन्नता को कितनी अच्छी तरह समझाती है।

यह ध्यान दिया जाना चाहिए कि सहसंबंध अध्ययन केवल यह देखते हैं कि, दो या दो से अधिक चर के बीच संबंध, लेकिन वे कारण और प्रभाव का प्रत्यक्ष प्रमाण प्रदान नहीं करते हैं (अर्थात, वे यह स्थापित करने की अनुमति नहीं देते हैं कि दो चरों में से कौन सा अन्य की भिन्नता का कारण बनता है ).

दूसरी ओर, जब हम जानते हैं (सहसंबंध अध्ययन के माध्यम से) या यह जानते हैं कि दो चर किसी तरह से सहसंबद्ध हैं, तो हम आम तौर पर एक गणितीय मॉडल स्थापित करना चाहते हैं जो हमें एक चर के सामान्य व्यवहार को दूसरे के कार्य के रूप में प्रस्तुत करने की अनुमति देता है। , इस प्रकार दूसरे के मूल्य के आधार पर एक चर के मूल्य की भविष्यवाणी करने की अनुमति देता है। यह एक प्रतिगमन प्रक्रिया के माध्यम से प्राप्त किया जाता है जिसके माध्यम से एक गणितीय मॉडल के गुणांक की गणना की जाती है जो देखे गए डेटा (आदेशित जोड़े या युग्मित डेटा) और मॉडल द्वारा अनुमानित मूल्यों के बीच अंतर को कम करता है।

रैखिक सहसंबंध और पियर्सन का सहसंबंध गुणांक

सहसंबंध का सबसे सरल मामला रैखिक सहसंबंध है। यह तब होता है जब दो मात्रात्मक चर के बीच एक रैखिक संबंध इस तरह से होता है कि, जब उनमें से एक बढ़ता है, तो दूसरा या तो हमेशा उसी अनुपात में बढ़ता है, या हमेशा उसी अनुपात में घटता है।

रैखिक सहसंबंध अध्ययन डेटा श्रृंखला के लिए रैखिक सहसंबंध गुणांक की गणना पर आधारित होते हैं। कई अलग-अलग रैखिक सहसंबंध गुणांक हैं जिनकी गणना की जा सकती है, जिनमें से सबसे आम हैं:

  • पियर्सन का रैखिक सहसंबंध गुणांक
  • स्पीयरमैन का रैखिक सहसंबंध
  • केंडल का सहसंबंध

तीन में से, सबसे सरल और सबसे व्यापक रूप से इस्तेमाल किया जाने वाला पियर्सन रैखिक सहसंबंध गुणांक है। इसका उपयोग तब किया जा सकता है जब युग्मित डेटा निम्न शर्तों को पूरा करता है:

  • चर के बीच संबंध रैखिक है।
  • दोनों चर मात्रात्मक हैं।
  • दोनों चर एक सामान्य वितरण का पालन करते हैं (हालांकि कुछ लेखकों का तर्क है कि पियर्सन के सहसंबंध का उपयोग तब भी किया जा सकता है, जब चर गॉसियन बेल के लिए पूरी तरह से फिट नहीं होते हैं)।
  • चर का विचरण जिसे आश्रित चर के रूप में लिया जाता है (जिसे हम Y अक्ष पर दर्शाते हैं) स्वतंत्र चर (X अक्ष पर एक) के विभिन्न मूल्यों के लिए स्थिर है।

यदि ये शर्तें पूरी होती हैं, तो हम यह निर्धारित करने के लिए पियर्सन सहसंबंध गुणांक की गणना कर सकते हैं कि दोनों चरों के बीच रैखिक सहसंबंध कितना अच्छा है।

यदि हम दोनों चरों (s 2 x ys 2 y ) और सहप्रसरण (Cov x,y os xy ) के प्रसरण जानते हैं , तो हम निम्नलिखित सूत्र का उपयोग करके जनसंख्या (ρ xy ) के लिए पियर्सन गुणांक की गणना कर सकते हैं:

प्रतिगमन रेखा का ढलान और सहसंबंध गुणांक

दूसरी ओर, सबसे आम बात यह है कि हम जनसंख्या के सभी डेटा नहीं जानते हैं, लेकिन केवल एक नमूना है। इस मामले में, हम नमूना पियर्सन सहसंबंध गुणांक की गणना कर सकते हैं, जो जनसंख्या का एक अनुमानक है। इसकी गणना निम्न सूत्र के माध्यम से की जाती है:

प्रतिगमन रेखा का ढलान और सहसंबंध गुणांक

जहाँ r सहसंबंध गुणांक है, x̅ चर x का नमूना माध्य है, y̅ चर y का नमूना माध्य है, और x i और y i प्रत्येक दो चर के अलग-अलग मान हैं ।

कम से कम वर्ग रैखिक प्रतिगमन फ़िट

रेखीय प्रतिगमन एक युग्मित डेटा श्रृंखला को एक सीधी रेखा में फ़िट करने की प्रक्रिया है। इसमें उस रेखा का गणितीय समीकरण प्राप्त करना शामिल है जो डेटा श्रृंखला के लिए सबसे उपयुक्त है और इसलिए, सभी बिंदुओं और रेखा के बीच की औसत दूरी को कम करता है जब दोनों को कार्तीय समन्वय प्रणाली में दर्शाया जाता है।

रैखिक प्रतिगमन लगभग हमेशा कम से कम वर्गों की विधि द्वारा किया जाता है और इसका परिणाम दो मापदंडों को प्राप्त करना होता है जो एक रेखा को परिभाषित करता है, अर्थात् Y अक्ष और ढलान के साथ कट।

इस बात की परवाह किए बिना कि कोई डेटा श्रृंखला रैखिक रूप से व्यवहार करती है या नहीं, उस रेखा का समीकरण प्राप्त करना हमेशा संभव होता है जो उसके लिए सबसे उपयुक्त हो। यदि हम एक चर पर विचार करते हैं जिसे हम स्वतंत्र मानते हैं, X, और दूसरा जिसे हम एक आश्रित चर, Y के रूप में लेते हैं, तो रेखा का समीकरण इस प्रकार दिया जाता है:

प्रतिगमन रेखा का ढलान और सहसंबंध गुणांक

इस समीकरण में, गुणांक और बी रैखिक प्रतिगमन गुणांक हैं और क्रमशः वाई-अवरोधन और रेखा की ढलान का प्रतिनिधित्व करते हैं। यह आसानी से दिखाया जा सकता है कि मॉडल भविष्यवाणी त्रुटि के वर्ग को कम करने वाले गुणांक (वास्तविक मूल्य और मॉडल द्वारा अनुमानित मूल्य के बीच का अंतर) द्वारा दिया जाता है:

प्रतिगमन रेखा का ढलान और सहसंबंध गुणांक

रेखीय प्रतिगमन रेखा, बी, और सहसंबंध गुणांक, आर के ढलान के बीच संबंध

अब जब हम इस बारे में अधिक स्पष्ट हैं कि रैखिक प्रतिगमन गुणांक a और b क्या हैं और पियर्सन रैखिक सहसंबंध गुणांक r क्या है , तो हम यह समझने के लिए तैयार हैं कि ढलान b r से क्यों और कैसे संबंधित है ।

वास्तव में, बी के लिए उपरोक्त समीकरण का संयोजन और पियरसन गुणांक की परिभाषा, डेटा के नमूने के मामले में इन दो आंकड़ों के बीच गणितीय संबंध में परिणाम देती है:

प्रतिगमन रेखा का ढलान और सहसंबंध गुणांक

जैसा कि देखा जा सकता है, चूंकि नमूना मानक विचलन s x और s y , परिभाषा के अनुसार, धनात्मक हैं (चूंकि वे संबंधित प्रसरणों के धनात्मक वर्गमूल हैं), उनका भागफल आवश्यक रूप से धनात्मक होगा। इस कारण से, ढलान का चिह्न, b , सहसंबंध गुणांक, r और इसके विपरीत के चिह्न द्वारा निर्धारित किया जाता है ।

इसके अलावा, चूंकि ढलान को दो मानक विचलन के बीच r और पूर्वोक्त भागफल के बीच उत्पाद के रूप में व्यक्त किया जाता है , ऐसे मामलों में जिनमें दो चर कोई सहसंबंध नहीं दिखाते हैं (अर्थात, जब यह सत्यापित किया जाता है कि r = 0 ) , फिर डेटा के लिए रेखीय प्रतिगमन द्वारा फिट की गई रेखा का ढलान भी शून्य होगा, जैसा कि हमने पहले देखा था।

यह बहुत मायने रखता है, क्योंकि, यदि अन्य सभी कारक जो आश्रित चर को प्रभावित करते हैं, यदि इसके और स्वतंत्र चर के बीच कोई संबंध नहीं है, तो यह उम्मीद की जानी चाहिए कि स्वतंत्र में परिवर्तन (अर्थात, x में) ) पहले (यानी, y में) में कोई अवलोकन योग्य परिवर्तन नहीं करेगा। नतीजतन, जब हम ग्राफ के साथ बाएं से दाएं चलते हैं, तो हम y-मानों में कोई वृद्धि या कमी नहीं देखेंगे, और जो भी भिन्नता हम देखते हैं वह केवल उस चर की यादृच्छिक प्रकृति के कारण होती है।

जनसंख्या डेटा के मामले में पियर्सन के गुणांक और ढलान के बीच संबंध

नमूना डेटा के संबंध में अभी जो कहा गया है, उसी तरह जनसंख्या के सभी डेटा होने के मामले में भी लागू होता है। केवल एक चीज जो बदलती है वह यह है कि जनसंख्या के मामले में आँकड़ों ( ए, बी और आर ) के बजाय हम मापदंडों की उपस्थिति में हैं।

जैसा कि आँकड़ों में आम है, पैरामीटर आमतौर पर आंकड़ों के समान अक्षरों द्वारा दर्शाए जाते हैं, केवल ग्रीक वर्णमाला के अक्षरों का उपयोग करते हुए। इस कारण से, सभी जनसंख्या डेटा के लिए फिट की गई रेखा का कटऑफ और ढलान अक्षर α और β (a और b के बजाय ) द्वारा दर्शाया गया है , और पियर्सन गुणांक अक्षर ρ (के बजाय) r द्वारा दर्शाया गया है । जबकि जनसंख्या मानक विचलन अक्षर s ( s के बजाय ) द्वारा दर्शाए जाते हैं।

इस प्रकार, जनसंख्या के लिए ढलान और रैखिक सहसंबंध गुणांक के बीच संबंध निम्न द्वारा दिया जाता है:

प्रतिगमन रेखा का ढलान और सहसंबंध गुणांक

संदर्भ

कैरोलो लिमेरेस, एमसी (2012)। सरल रैखिक प्रतिगमन । सैंटियागो डी कॉम्पोस्टेला विश्वविद्यालय। http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf

LesKanaris। (रा)। सांख्यिकी में युग्मित डेटा क्या है? – टिप्स – 2022https://us.leskanaris.com/7419-paired-data-in-statistics.html

मार्टिनेज वारा डे रे, सीसी (एसएफ)। मनोविज्ञान II में डेटा विश्लेषण – पियर्सन का रैखिक सहसंबंध गुणांक । सेविला विश्वविद्यालय। https://personal.us.es/vararey/correlacion-lineal-pearson.pdf

रोड्रिगो, जेए (2016, जून)। रैखिक सहसंबंध और सरल रैखिक प्रतिगमन । CienciaDeDatos.Net। https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal

सैंटोस कुर्वो, एल. (2000). प्रतिगमन और सहसंबंध । त्याग देता है। http://recursostic.educacion.es/descartes/web/Descartes1/Bach_CNST_1/Variables_estadisticas_bidimensionales_regresion_correlacion/regresi2.htm

सुपरप्रोफ। (2020, 25 मई)। प्रतिगमन रेखा क्या है? | सुपरप्रोफ । उपदेशात्मक सामग्री – सुपरप्रोफ। https://www.superprof.es/apuntes/escolar/matematicas/estadistica/disbidimension/recta-de-regresion.html

उचा, एपी (2021, 19 फरवरी)। रैखिक सहसंबंध गुणांक । इकोनॉमीपीडिया। https://economipedia.com/definiciones/coeficiente-de-correlacion-lineal.html

mm
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados