Kemiringan garis regresi dan koefisien korelasi

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.


Ketika menganalisis serangkaian data kuantitatif secara statistik, kita sering dihadapkan pada data berpasangan atau pasangan terurut. Ini sesuai dengan data dari dua variabel yang berbeda, umumnya berasal dari individu yang sama dan, oleh karena itu, terkait satu sama lain. Kemudian soal data yang tidak dianggap terpisah, tetapi harus selalu dipertimbangkan bersama, seperti tinggi dan berat individu tertentu, atau berat dan kecepatan maksimum sebuah mobil.

Ketika kami telah memasangkan data, statistik memberi kami kemungkinan untuk menetapkan apakah ada hubungan antara variabel-variabel ini. Ini sangat umum dalam ilmu yang berbeda, terutama ketika diamati bahwa perilaku satu variabel tampaknya mempengaruhi atau menentukan perilaku yang lain. Saat menetapkan hubungan ini, statistik memberi kita dua jenis alat yang berbeda: studi korelasi antara dua variabel atau lebih dan penyesuaian data berpasangan ke model matematika yang berbeda melalui proses regresi.

Untuk data yang berperilaku linier, koefisien regresi linier, r , dapat dihitung yang mengukur seberapa linier perilaku data. Di sisi lain, persamaan matematis garis lurus yang paling sesuai dengan data juga dapat diperoleh melalui regresi linier. Saat kita melakukan ini, kita mendapatkan koefisien regresi dalam bentuk titik potong garis dan kemiringannya.

Jika kita melihat banyak contoh perhitungan koefisien regresi linier dan kemiringan garis yang diperoleh dengan regresi linier, kita akan segera melihat bahwa ada hubungan antara kedua nilai tersebut. Secara khusus, kami akan mencatat bahwa setiap kali kemiringan negatif, koefisien regresi juga negatif; bila positif koefisiennya juga positif dan bila kemiringannya nol, maka koefisien regresinya juga positif.

Kemiringan garis regresi dan koefisien korelasi

Pada bagian berikut kita akan mengeksplorasi mengapa hal ini terjadi dan apa hubungan sebenarnya antara kedua nilai statistik ini yang hampir selalu berjalan beriringan.

Korelasi dan regresi dalam statistik dan sains

Studi korelasi menyediakan serangkaian statistik seperti koefisien korelasi dan determinasi, yang memungkinkan untuk menetapkan seberapa berkorelasi dua atau lebih variabel satu sama lain. Dengan kata lain, mereka memungkinkan kita untuk menetapkan berapa proporsi variabilitas variabel acak (biasanya kuantitatif) yang dapat dijelaskan dalam kaitannya dengan variabilitas variabel acak lain, alih-alih dijelaskan dalam variasi acaknya sendiri. Ini berarti bahwa mereka memungkinkan menetapkan seberapa baik variasi dari satu atau lebih variabel menjelaskan variasi yang lain.

Perlu dicatat bahwa studi korelasi hanya melihat bahwa, korelasi antara dua atau lebih variabel, tetapi mereka tidak memberikan bukti langsung sebab dan akibat (yaitu, mereka tidak memungkinkan untuk menetapkan mana dari dua variabel yang menyebabkan variasi yang lain. ).

Di sisi lain, ketika kita mengetahui (melalui studi korelasi) atau intuisi bahwa dua variabel berkorelasi dalam beberapa cara, kita biasanya mencari model matematis yang memungkinkan kita untuk mewakili perilaku umum satu variabel sebagai fungsi dari yang lain. , sehingga memungkinkan memprediksi nilai salah satu variabel berdasarkan nilai variabel lainnya. Ini dicapai berkat proses regresi di mana koefisien model matematika dihitung yang meminimalkan perbedaan antara data yang diamati (pasangan terurut atau data berpasangan) dan nilai yang diprediksi oleh model.

Korelasi Linier dan Koefisien Korelasi Pearson

Kasus korelasi yang paling sederhana adalah korelasi linier. Ini terjadi ketika ada hubungan linier antara dua variabel kuantitatif sedemikian rupa sehingga ketika salah satu dari mereka meningkat, yang lain selalu meningkat dalam proporsi yang sama, atau selalu menurun dalam proporsi yang sama.

Studi korelasi linier didasarkan pada penghitungan koefisien korelasi linier untuk rangkaian data. Ada beberapa koefisien korelasi linier berbeda yang dapat dihitung, yang paling umum adalah:

  • Koefisien korelasi linier Pearson
  • Korelasi linier Spearman
  • Korelasi Kendall

Dari ketiganya, yang paling sederhana dan juga paling banyak digunakan adalah koefisien korelasi linier Pearson. Ini dapat digunakan ketika data yang dipasangkan memenuhi kondisi berikut:

  • Hubungan antara variabel adalah linier.
  • Kedua variabel bersifat kuantitatif.
  • Kedua variabel mengikuti distribusi normal (walaupun beberapa penulis berpendapat bahwa korelasi Pearson dapat digunakan bahkan jika variabel tidak cocok dengan lonceng Gaussian).
  • Varian dari variabel yang diambil sebagai variabel dependen (yang kita wakili pada sumbu Y) adalah konstan untuk nilai yang berbeda dari variabel independen (yang ada pada sumbu X).

Jika kondisi ini terpenuhi, kita dapat menghitung koefisien korelasi Pearson untuk menentukan seberapa baik korelasi linier antara kedua variabel.

Jika kita mengetahui varians dari kedua variabel (s 2 x ys 2 y ) dan kovarians (Cov x,y os xy ), kita dapat menghitung koefisien Pearson untuk populasi (ρ xy ) menggunakan rumus berikut:

Kemiringan garis regresi dan koefisien korelasi

Di sisi lain, yang paling umum adalah kita tidak mengetahui semua data populasi, tetapi hanya memiliki sampel. Dalam hal ini, kita dapat menghitung sampel koefisien korelasi Pearson, yang merupakan penaksir populasi. Itu dihitung dengan menggunakan rumus berikut:

Kemiringan garis regresi dan koefisien korelasi

Di mana r adalah koefisien korelasi, x̅ adalah rata-rata sampel dari variabel x , y̅ adalah rata-rata sampel dari variabel y, dan xi dan yi adalah nilai individual dari masing-masing dua variabel.

Fit Regresi Linier Kuadrat Terkecil

Regresi linier adalah proses pemasangan seri data berpasangan ke garis lurus. Ini melibatkan mendapatkan persamaan matematika dari garis yang paling sesuai dengan seri data dan, oleh karena itu, meminimalkan jarak rata-rata antara semua titik dan garis ketika keduanya diwakili dalam sistem koordinat Cartesian.

Regresi linier hampir selalu dilakukan dengan metode kuadrat terkecil dan hasilnya diperoleh dua parameter yang menentukan garis, yaitu potongan dengan sumbu Y dan kemiringan.

Terlepas dari apakah deret data berperilaku linier atau tidak, selalu mungkin untuk mendapatkan persamaan garis yang paling sesuai. Jika kita menganggap variabel yang kita ambil sebagai variabel bebas, X, dan variabel lain yang kita ambil sebagai variabel dependen, Y, persamaan garis diberikan oleh:

Kemiringan garis regresi dan koefisien korelasi

Dalam persamaan ini, koefisien a dan b adalah koefisien regresi linier dan masing-masing mewakili perpotongan Y dan kemiringan garis. Dapat dengan mudah ditunjukkan bahwa koefisien yang meminimalkan kuadrat kesalahan prediksi model (perbedaan antara nilai sebenarnya dan nilai yang diestimasi oleh model) diberikan oleh:

Kemiringan garis regresi dan koefisien korelasi

Hubungan antara kemiringan garis regresi linier, b, dan koefisien korelasi, r

Sekarang setelah kita lebih jelas tentang apa itu koefisien regresi linier a dan b dan apa itu koefisien korelasi linier Pearson r , kita siap untuk memahami mengapa dan bagaimana kemiringan b terkait dengan r .

Sebenarnya, kombinasi persamaan di atas untuk b dan definisi koefisien Pearson, menghasilkan hubungan matematis antara kedua statistik ini, untuk kasus sampel data:

Kemiringan garis regresi dan koefisien korelasi

Seperti dapat dilihat, karena standar deviasi sampel s x dan s y , menurut definisi, adalah positif (karena merupakan akar kuadrat positif dari masing-masing varian), hasil bagi mereka pasti positif. Oleh karena itu, tanda kemiringan, b , ditentukan oleh tanda koefisien korelasi, r , dan sebaliknya.

Selain itu, karena kemiringan dinyatakan sebagai produk antara r dan hasil bagi antara dua standar deviasi yang disebutkan di atas, dalam kasus di mana kedua variabel tidak menunjukkan korelasi apa pun (yaitu, ketika diverifikasi bahwa r = 0 ) , maka kemiringan garis yang dipasang oleh regresi linier ke data juga akan menjadi nol, seperti yang kita amati sebelumnya.

Ini sangat masuk akal, karena, jika semua faktor lain yang mempengaruhi variabel dependen bertahan, jika tidak ada korelasi antara itu dan variabel independen, diharapkan perubahan independen (yaitu, dalam x ) tidak akan menghasilkan perubahan yang dapat diamati pada yang pertama (yaitu, pada y). Konsekuensinya, saat kita bergerak dari kiri ke kanan sepanjang grafik, kita tidak akan mengamati peningkatan atau penurunan nilai y, dan variasi apa pun yang kita amati semata-mata disebabkan oleh sifat acak variabel tersebut.

Hubungan antara koefisien Pearson dan kemiringan dalam kasus data populasi

Apa yang baru saja dikatakan sehubungan dengan data sampel berlaku dengan cara yang sama dalam hal memiliki semua data populasi. Satu-satunya hal yang berubah adalah, alih-alih statistik ( a, b dan r ), dalam kasus populasi kita berada di hadapan parameter.

Seperti biasa dalam statistik, parameter biasanya direpresentasikan dengan huruf yang sama dengan statistik, hanya menggunakan huruf abjad Yunani. Untuk alasan ini, cutoff dan kemiringan garis yang cocok untuk semua data populasi diwakili oleh huruf α dan β (sebagai pengganti a dan b ) , dan koefisien Pearson diwakili oleh huruf ρ (sebagai pengganti ).r ) , sedangkan standar deviasi populasi diwakili oleh huruf s (bukan s ).

Dengan demikian, hubungan antara kemiringan dan koefisien korelasi linier untuk populasi diberikan oleh:

Kemiringan garis regresi dan koefisien korelasi

Referensi

Carollo Limères, MC (2012). REGRESI LINIER SEDERHANA . Universitas Santiago de Compostela. http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf

LesKanaris. (td). Apa itu data berpasangan dalam statistik? – Kiat – 2022 . https://us.leskanaris.com/7419-paired-data-in-statistics.html

Martinez Vara De Rey, CC (sf). Analisis Data dalam Psikologi II – Koefisien Korelasi Linier Pearson . Universitas Sevilla. https://personal.us.es/vararey/correlacion-lineal-pearson.pdf

Rodrigo, JA (2016, Juni). Korelasi Linier dan Regresi Linier Sederhana . CienciaDeDatos.Net. https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal

Santos Cuervo, L. (2000). Regresi dan Korelasi . membuang. http://recursostic.educacion.es/descartes/web/Descartes1/Bach_CNST_1/Variables_estadisticas_bidimensionales_regresion_correlacion/regresi2.htm

Superprof. (2020, 25 Mei). Apa itu garis regresi? | Superprof . Materi Didaktik – Superprof. https://www.superprof.es/apuntes/escolar/matematicas/estadistica/disbidimension/recta-de-regresion.html

Ucha, AP (2021, 19 Februari). Koefisien korelasi linier . Ekonomipedia. https://economipedia.com/definiciones/coeficiente-de-correlacion-lineal.html

-Iklan-

mm
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados