Tabla de Contenidos
Όταν αναλύουμε στατιστικά σειρές ποσοτικών δεδομένων, ερχόμαστε συχνά αντιμέτωποι με ζεύγη δεδομένων ή διατεταγμένα ζεύγη. Αυτά αντιστοιχούν σε δεδομένα δύο διαφορετικών μεταβλητών, που προέρχονται γενικά από το ίδιο άτομο και, ως εκ τούτου, συνδέονται μεταξύ τους. Είναι λοιπόν θέμα δεδομένων που δεν εξετάζονται χωριστά, αλλά πρέπει πάντα να εξετάζονται μαζί, όπως το ύψος και το βάρος ενός συγκεκριμένου ατόμου ή το βάρος και η μέγιστη ταχύτητα ενός αυτοκινήτου.
Όταν έχουμε ζευγαρωμένα δεδομένα, τα στατιστικά μας παρέχουν τη δυνατότητα να διαπιστώσουμε εάν υπάρχει σχέση μεταξύ αυτών των μεταβλητών. Αυτό είναι ιδιαίτερα κοινό στις διάφορες επιστήμες, ειδικά όταν παρατηρείται ότι η συμπεριφορά μιας μεταβλητής φαίνεται να επηρεάζει ή να καθορίζει τη συμπεριφορά μιας άλλης. Κατά τη δημιουργία αυτών των σχέσεων, τα στατιστικά μάς παρέχουν δύο διαφορετικούς τύπους εργαλείων: μελέτες συσχέτισης μεταξύ δύο ή περισσότερων μεταβλητών και την προσαρμογή των ζευγαρωμένων δεδομένων σε διαφορετικά μαθηματικά μοντέλα μέσω μιας διαδικασίας παλινδρόμησης.
Για δεδομένα που συμπεριφέρονται γραμμικά, μπορεί να υπολογιστεί ένας συντελεστής γραμμικής παλινδρόμησης, r , που μετρά πόσο γραμμικά συμπεριφέρονται τα δεδομένα. Από την άλλη πλευρά, η μαθηματική εξίσωση της ευθείας που ταιριάζει καλύτερα στα δεδομένα μπορεί επίσης να ληφθεί μέσω γραμμικής παλινδρόμησης. Όταν το κάνουμε αυτό, παίρνουμε τους συντελεστές παλινδρόμησης με τη μορφή της τομής της γραμμής και της κλίσης της.
Αν δούμε πολλά παραδείγματα υπολογισμών των συντελεστών γραμμικής παλινδρόμησης και της κλίσης της ευθείας που προκύπτει από τη γραμμική παλινδρόμηση, θα παρατηρήσουμε γρήγορα ότι υπάρχει σχέση μεταξύ των δύο τιμών. Συγκεκριμένα, θα σημειώσουμε ότι όποτε η κλίση είναι αρνητική, ο συντελεστής παλινδρόμησης είναι επίσης αρνητικός. όταν είναι θετικός ο συντελεστής είναι επίσης θετικός και όταν η κλίση είναι μηδέν, το ίδιο ισχύει και για τον συντελεστή παλινδρόμησης.
Στις επόμενες ενότητες θα διερευνήσουμε γιατί συμβαίνει αυτό και ποια είναι η πραγματική σχέση μεταξύ αυτών των δύο στατιστικών τιμών που σχεδόν πάντα συμβαδίζουν.
Συσχέτιση και παλινδρόμηση στη στατιστική και την επιστήμη
Οι μελέτες συσχέτισης παρέχουν μια σειρά στατιστικών στοιχείων, όπως οι συντελεστές συσχέτισης και προσδιορισμού, που καθιστούν δυνατό τον προσδιορισμό του πόσο συσχετίζονται δύο ή περισσότερες μεταβλητές μεταξύ τους. Με άλλα λόγια, μας επιτρέπουν να καθορίσουμε ποια αναλογία της μεταβλητότητας μιας τυχαίας μεταβλητής (συνήθως ποσοτική) μπορεί να εξηγηθεί ως προς τη μεταβλητότητα μιας άλλης τυχαίας μεταβλητής, αντί να εξηγείται με όρους των δικών της τυχαίων παραλλαγών. Αυτό σημαίνει ότι επιτρέπουν τον προσδιορισμό του πόσο καλά η παραλλαγή μιας ή περισσότερων μεταβλητών εξηγεί την παραλλαγή μιας άλλης.
Θα πρέπει να σημειωθεί ότι οι μελέτες συσχέτισης βλέπουν μόνο ότι, τη συσχέτιση μεταξύ δύο ή περισσότερων μεταβλητών, αλλά δεν παρέχουν άμεσες ενδείξεις αιτίας και αποτελέσματος (δηλαδή, δεν επιτρέπουν τον προσδιορισμό ποια από τις δύο μεταβλητές προκαλεί τη μεταβολή της άλλης ).
Από την άλλη πλευρά, όταν γνωρίζουμε (μέσω μιας μελέτης συσχέτισης) ή διαισθανόμαστε ότι δύο μεταβλητές συσχετίζονται με κάποιο τρόπο, γενικά επιδιώκουμε να δημιουργήσουμε ένα μαθηματικό μοντέλο που μας επιτρέπει να αναπαραστήσουμε τη γενική συμπεριφορά μιας μεταβλητής ως συνάρτηση της άλλης , επιτρέποντας έτσι την πρόβλεψη της τιμής μιας από τις μεταβλητές με βάση την τιμή της άλλης. Αυτό επιτυγχάνεται χάρη σε μια διαδικασία παλινδρόμησης μέσω της οποίας υπολογίζονται οι συντελεστές ενός μαθηματικού μοντέλου που ελαχιστοποιούν τις διαφορές μεταξύ των παρατηρούμενων δεδομένων (τα διατεταγμένα ζεύγη ή ζευγαρωμένα δεδομένα) και των τιμών που προβλέπονται από το μοντέλο.
Γραμμική συσχέτιση και συντελεστής συσχέτισης Pearson
Η απλούστερη περίπτωση συσχέτισης είναι η γραμμική συσχέτιση. Αυτό συμβαίνει όταν υπάρχει μια γραμμική σχέση μεταξύ δύο ποσοτικών μεταβλητών με τέτοιο τρόπο ώστε, όταν η μία από αυτές αυξάνεται, η άλλη είτε αυξάνεται πάντα με την ίδια αναλογία, είτε μειώνεται πάντα με την ίδια αναλογία.
Οι μελέτες γραμμικής συσχέτισης βασίζονται στον υπολογισμό του συντελεστή γραμμικής συσχέτισης για τις σειρές δεδομένων. Υπάρχουν αρκετοί διαφορετικοί συντελεστές γραμμικής συσχέτισης που μπορούν να υπολογιστούν, οι πιο συνηθισμένοι από τους οποίους είναι:
- Συντελεστής γραμμικής συσχέτισης Pearson
- Γραμμική συσχέτιση Spearman
- Συσχέτιση Kendall
Από τους τρεις, ο απλούστερος και επίσης ο πιο ευρέως χρησιμοποιούμενος είναι ο γραμμικός συντελεστής συσχέτισης Pearson. Αυτό μπορεί να χρησιμοποιηθεί όταν τα ζευγοποιημένα δεδομένα πληρούν τις ακόλουθες συνθήκες:
- Η σχέση μεταξύ των μεταβλητών είναι γραμμική.
- Και οι δύο μεταβλητές είναι ποσοτικές.
- Και οι δύο μεταβλητές ακολουθούν μια κανονική κατανομή (αν και ορισμένοι συγγραφείς υποστηρίζουν ότι η συσχέτιση του Pearson μπορεί να χρησιμοποιηθεί ακόμα κι αν οι μεταβλητές δεν ταιριάζουν απόλυτα σε ένα κουδούνι Gauss).
- Η διακύμανση της μεταβλητής που λαμβάνεται ως εξαρτημένη μεταβλητή (αυτή που αντιπροσωπεύουμε στον άξονα Υ) είναι σταθερή για τις διαφορετικές τιμές της ανεξάρτητης μεταβλητής (αυτή στον άξονα Χ).
Εάν πληρούνται αυτές οι προϋποθέσεις, μπορούμε να υπολογίσουμε τον συντελεστή συσχέτισης Pearson για να προσδιορίσουμε πόσο καλή είναι η γραμμική συσχέτιση μεταξύ των δύο μεταβλητών.
Εάν γνωρίζουμε τις διακυμάνσεις και των δύο μεταβλητών (s 2 x ys 2 y ) και της συνδιακύμανσης (Cov x,y os xy ), μπορούμε να υπολογίσουμε τον συντελεστή Pearson για τον πληθυσμό (ρ xy ) χρησιμοποιώντας τον ακόλουθο τύπο:
Από την άλλη, το πιο συνηθισμένο είναι ότι δεν γνωρίζουμε όλα τα δεδομένα του πληθυσμού, αλλά έχουμε μόνο δείγμα. Σε αυτή την περίπτωση, μπορούμε να υπολογίσουμε το δείγμα του συντελεστή συσχέτισης Pearson, ο οποίος είναι ένας εκτιμητής του πληθυσμού. Υπολογίζεται με τον ακόλουθο τύπο:
Όπου r είναι ο συντελεστής συσχέτισης, x είναι ο μέσος όρος του δείγματος της μεταβλητής x, ο y̅ είναι ο μέσος όρος του δείγματος της μεταβλητής y και x i και y i είναι οι μεμονωμένες τιμές καθεμιάς από τις δύο μεταβλητές.
Προσαρμογή γραμμικής παλινδρόμησης ελαχίστων τετραγώνων
Η γραμμική παλινδρόμηση είναι η διαδικασία προσαρμογής μιας ζευγαρωμένης σειράς δεδομένων σε μια ευθεία γραμμή. Συνεπάγεται τη λήψη της μαθηματικής εξίσωσης της ευθείας που ταιριάζει καλύτερα στη σειρά δεδομένων και, επομένως, ελαχιστοποιεί τη μέση απόσταση μεταξύ όλων των σημείων και της ευθείας όταν και τα δύο αναπαριστώνται σε ένα καρτεσιανό σύστημα συντεταγμένων.
Η γραμμική παλινδρόμηση πραγματοποιείται σχεδόν πάντα με τη μέθοδο των ελαχίστων τετραγώνων και το αποτέλεσμα είναι η λήψη των δύο παραμέτρων που ορίζουν μια γραμμή, δηλαδή την τομή με τον άξονα Υ και την κλίση.
Ανεξάρτητα από το αν μια σειρά δεδομένων συμπεριφέρεται γραμμικά ή όχι, είναι πάντα δυνατό να ληφθεί η εξίσωση της γραμμής που της ταιριάζει καλύτερα. Αν θεωρήσουμε μια μεταβλητή που λαμβάνουμε ως ανεξάρτητη, X, και μια άλλη που παίρνουμε ως εξαρτημένη μεταβλητή, την Y, η εξίσωση της γραμμής δίνεται από:
Σε αυτήν την εξίσωση, οι συντελεστές a και b είναι οι συντελεστές γραμμικής παλινδρόμησης και αντιπροσωπεύουν, αντίστοιχα, την τομή Υ και την κλίση της ευθείας. Μπορεί εύκολα να αποδειχθεί ότι οι συντελεστές που ελαχιστοποιούν το τετράγωνο του σφάλματος πρόβλεψης του μοντέλου (η διαφορά μεταξύ της πραγματικής τιμής και της τιμής που εκτιμάται από το μοντέλο) δίνονται από:
Η σχέση μεταξύ της κλίσης της γραμμής γραμμικής παλινδρόμησης, b, και του συντελεστή συσχέτισης, r
Τώρα που είμαστε πιο σαφείς σχετικά με το ποιοι είναι οι συντελεστές γραμμικής παλινδρόμησης a και b και ποιος είναι ο συντελεστής γραμμικής συσχέτισης Pearson r , είμαστε έτοιμοι να καταλάβουμε γιατί και πώς η κλίση b σχετίζεται με το r .
Στην πραγματικότητα, ο συνδυασμός της παραπάνω εξίσωσης για το b και ο ορισμός του συντελεστή Pearson, έχει ως αποτέλεσμα τη μαθηματική σχέση μεταξύ αυτών των δύο στατιστικών, για την περίπτωση ενός δείγματος δεδομένων:
Όπως φαίνεται, δεδομένου ότι οι τυπικές αποκλίσεις του δείγματος s x και s y είναι, εξ ορισμού, θετικές (καθώς είναι η θετική τετραγωνική ρίζα των αντίστοιχων διακυμάνσεων), το πηλίκο τους θα είναι αναγκαστικά θετικό. Για το λόγο αυτό, το πρόσημο της κλίσης, b , καθορίζεται από το πρόσημο του συντελεστή συσχέτισης, r και αντίστροφα.
Επιπλέον, δεδομένου ότι η κλίση εκφράζεται ως το γινόμενο μεταξύ r και του προαναφερθέντος πηλίκου μεταξύ των δύο τυπικών αποκλίσεων, στις περιπτώσεις που οι δύο μεταβλητές δεν παρουσιάζουν καμία συσχέτιση (δηλαδή όταν επαληθεύεται ότι r = 0 ) , τότε η κλίση της γραμμής που προσαρμόζεται με γραμμική παλινδρόμηση στα δεδομένα θα είναι επίσης μηδενική, όπως παρατηρήσαμε προηγουμένως.
Αυτό είναι πολύ λογικό, καθώς, εάν ισχύουν όλοι οι άλλοι παράγοντες που επηρεάζουν την εξαρτημένη μεταβλητή, εάν δεν υπάρχει συσχέτιση μεταξύ αυτής και της ανεξάρτητης μεταβλητής, είναι αναμενόμενο ότι μια αλλαγή στην ανεξάρτητη (δηλαδή, στο x ) δεν θα προκαλέσει καμία παρατηρήσιμη αλλαγή στο πρώτο (δηλαδή στο y). Κατά συνέπεια, καθώς κινούμαστε από αριστερά προς τα δεξιά κατά μήκος του γραφήματος, δεν θα παρατηρήσουμε καμία αύξηση ή μείωση στις τιμές y και οποιαδήποτε μεταβολή που παρατηρούμε οφείλεται αποκλειστικά στην τυχαία φύση αυτής της μεταβλητής.
Σχέση συντελεστή Pearson και κλίσης στην περίπτωση πληθυσμιακών δεδομένων
Αυτό που μόλις ειπώθηκε σε σχέση με τα δεδομένα του δείγματος ισχύει με τον ίδιο τρόπο και στην περίπτωση που υπάρχουν όλα τα δεδομένα ενός πληθυσμού. Το μόνο που αλλάζει είναι ότι, αντί για στατιστικές ( a, b και r ), στην περίπτωση του πληθυσμού βρισκόμαστε σε παρουσία παραμέτρων.
Όπως συνηθίζεται στις στατιστικές, οι παράμετροι συνήθως αντιπροσωπεύονται με τα ίδια γράμματα με τα στατιστικά, χρησιμοποιώντας μόνο τα γράμματα του ελληνικού αλφαβήτου. Για το λόγο αυτό, η αποκοπή και η κλίση της γραμμής που προσαρμόζονται σε όλα τα δεδομένα πληθυσμού αντιπροσωπεύονται από τα γράμματα α και β (αντί για a και b ) και ο συντελεστής Pearson αντιπροσωπεύεται από το γράμμα ρ (αντί για). r ). ενώ οι τυπικές αποκλίσεις του πληθυσμού αντιπροσωπεύονται από το γράμμα s (αντί για s ).
Έτσι, η σχέση μεταξύ της κλίσης και του συντελεστή γραμμικής συσχέτισης για τον πληθυσμό δίνεται από:
βιβλιογραφικές αναφορές
Carollo Limeres, MC (2012). ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΙΣΤΩΣΗ . Πανεπιστήμιο του Σαντιάγο ντε Κομποστέλα. http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf
ΛεςΚανάρης. (ν). Τι είναι τα ζευγαρωμένα δεδομένα στα στατιστικά; – Συμβουλές – 2022 . https://us.leskanaris.com/7419-paired-data-in-statistics.html
Martinez Vara De Rey, CC (sf). Ανάλυση Δεδομένων στην Ψυχολογία II – Συντελεστής Γραμμικής Συσχέτισης Pearson . Πανεπιστήμιο της Σεβίλλης. https://personal.us.es/vararey/correlacion-lineal-pearson.pdf
Rodrigo, JA (2016, Ιούνιος). Γραμμική συσχέτιση και απλή γραμμική παλινδρόμηση . CienciaDeDatos.Net. https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal
Santos Cuervo, L. (2000). Παλινδρόμηση και Συσχέτιση . απορρίπτει. http://recursostic.educacion.es/descartes/web/Descartes1/Bach_CNST_1/Variables_estadisticas_bidimensionales_regresion_correlacion/regresi2.htm
Υπερκαθ. (2020, 25 Μαΐου). Ποια είναι η γραμμή παλινδρόμησης; | Υπερκαθηγητής . Διδακτικό Υλικό – Υπερκαθ. https://www.superprof.es/apuntes/escolar/matematicas/estadistica/disbidimension/recta-de-regresion.html
Ucha, AP (2021, 19 Φεβρουαρίου). Συντελεστής γραμμικής συσχέτισης . Economipedia. https://economipedia.com/definiciones/coeficiente-de-correlacion-lineal.html