Độ dốc của đường hồi quy và hệ số tương quan

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.


Khi phân tích thống kê các chuỗi dữ liệu định lượng, chúng ta thường gặp dữ liệu theo cặp hoặc theo thứ tự các cặp. Chúng tương ứng với dữ liệu của hai biến khác nhau, thường đến từ cùng một cá nhân và do đó, được liên kết với nhau. Khi đó, đây là vấn đề dữ liệu không được xem xét riêng lẻ mà phải luôn được xem xét cùng nhau, chẳng hạn như chiều cao và cân nặng của một cá nhân cụ thể, hoặc trọng lượng và tốc độ tối đa của ô tô.

Khi chúng tôi có dữ liệu được ghép nối, số liệu thống kê cung cấp cho chúng tôi khả năng thiết lập liệu có mối quan hệ giữa các biến này hay không. Điều này đặc biệt phổ biến trong các ngành khoa học khác nhau, đặc biệt là khi người ta quan sát thấy rằng hành vi của một biến dường như ảnh hưởng hoặc xác định hành vi của biến khác. Khi thiết lập các mối quan hệ này, thống kê cung cấp cho chúng ta hai loại công cụ khác nhau: nghiên cứu mối tương quan giữa hai hoặc nhiều biến và điều chỉnh dữ liệu được ghép nối với các mô hình toán học khác nhau thông qua quy trình hồi quy.

Đối với dữ liệu hoạt động tuyến tính, hệ số hồi quy tuyến tính, r , có thể được tính toán để đo mức độ hoạt động của dữ liệu. Mặt khác, phương trình toán học của đường thẳng phù hợp nhất với dữ liệu cũng có thể thu được thông qua hồi quy tuyến tính. Khi chúng tôi làm điều này, chúng tôi nhận được các hệ số hồi quy ở dạng giao điểm của đường thẳng và hệ số góc của nó.

Nếu chúng ta xem xét nhiều ví dụ về tính toán các hệ số hồi quy tuyến tính và độ dốc của đường thu được từ hồi quy tuyến tính, chúng ta sẽ nhanh chóng nhận thấy rằng có một mối quan hệ giữa cả hai giá trị. Cụ thể, chúng tôi sẽ lưu ý rằng bất cứ khi nào độ dốc âm, hệ số hồi quy cũng âm; khi nó dương thì hệ số cũng dương và khi hệ số góc bằng 0 thì hệ số hồi quy cũng vậy.

Độ dốc của đường hồi quy và hệ số tương quan

Trong các phần tiếp theo, chúng ta sẽ khám phá lý do tại sao điều này lại xảy ra và đâu là mối quan hệ thực sự giữa hai giá trị thống kê hầu như luôn song hành với nhau này.

Tương quan và hồi quy trong thống kê và khoa học

Các nghiên cứu về mối tương quan cung cấp một loạt các số liệu thống kê như hệ số tương quan và xác định, giúp thiết lập mức độ tương quan của hai hoặc nhiều biến với nhau. Nói cách khác, chúng cho phép chúng ta thiết lập tỷ lệ khả biến của một biến ngẫu nhiên (thường là định lượng) có thể được giải thích theo khả năng biến thiên của một biến ngẫu nhiên khác, thay vì được giải thích theo các biến ngẫu nhiên của chính nó. Điều này có nghĩa là chúng cho phép thiết lập mức độ thay đổi của một hoặc nhiều biến số giải thích cho sự thay đổi của một biến số khác.

Cần lưu ý rằng các nghiên cứu tương quan chỉ thấy rằng, mối tương quan giữa hai hoặc nhiều biến, nhưng chúng không cung cấp bằng chứng trực tiếp về nguyên nhân và kết quả (nghĩa là chúng không cho phép thiết lập biến nào trong hai biến gây ra sự biến đổi của biến kia). ).

Mặt khác, khi chúng ta biết (thông qua nghiên cứu tương quan) hoặc trực giác rằng hai biến có tương quan với nhau theo một cách nào đó, chúng ta thường tìm cách thiết lập một mô hình toán học cho phép chúng ta biểu diễn hành vi chung của một biến như là một hàm của biến kia. , do đó cho phép dự đoán giá trị của một trong các biến dựa trên giá trị của biến kia. Điều này đạt được nhờ một quá trình hồi quy mà qua đó các hệ số của một mô hình toán học được tính toán để giảm thiểu sự khác biệt giữa dữ liệu được quan sát (các cặp được sắp xếp hoặc dữ liệu được ghép nối) và các giá trị được dự đoán bởi mô hình.

Tương quan tuyến tính và hệ số tương quan Pearson

Trường hợp tương quan đơn giản nhất là tương quan tuyến tính. Điều này xảy ra khi có một mối quan hệ tuyến tính giữa hai biến định lượng theo cách mà khi một trong số chúng tăng lên thì biến kia luôn tăng theo cùng một tỷ lệ hoặc luôn giảm theo cùng một tỷ lệ.

Các nghiên cứu tương quan tuyến tính dựa trên việc tính toán hệ số tương quan tuyến tính cho chuỗi số liệu. Có một số hệ số tương quan tuyến tính khác nhau có thể được tính toán, trong đó phổ biến nhất là:

  • Hệ số tương quan tuyến tính của Pearson
  • Tương quan tuyến tính của Spearman
  • Mối tương quan của Kendall

Trong số ba, đơn giản nhất và cũng được sử dụng rộng rãi nhất là hệ số tương quan tuyến tính Pearson. Điều này có thể được sử dụng khi dữ liệu được ghép nối đáp ứng các điều kiện sau:

  • Mối quan hệ giữa các biến là tuyến tính.
  • Cả hai biến đều là định lượng.
  • Cả hai biến đều tuân theo phân phối chuẩn (mặc dù một số tác giả lập luận rằng mối tương quan của Pearson có thể được sử dụng ngay cả khi các biến không khớp hoàn toàn với chuông Gaussian).
  • Phương sai của biến được lấy làm biến phụ thuộc (biến mà chúng ta biểu diễn trên trục Y) là không đổi đối với các giá trị khác nhau của biến độc lập (biến trên trục X).

Nếu các điều kiện này được đáp ứng, chúng ta có thể tính hệ số tương quan Pearson để xác định mức độ tương quan tuyến tính giữa cả hai biến.

Nếu chúng ta biết phương sai của cả hai biến (s 2 x ys 2 y ) và hiệp phương sai (Cov x,y os xy ), chúng ta có thể tính hệ số Pearson cho tổng thể (ρ xy ) bằng công thức sau:

Độ dốc của đường hồi quy và hệ số tương quan

Mặt khác, phổ biến nhất là chúng ta không biết hết dữ liệu của dân số mà chỉ nắm được một mẫu. Trong trường hợp này, chúng ta có thể tính toán hệ số tương quan Pearson mẫu, là một công cụ ước tính tổng thể. Nó được tính bằng công thức sau:

Độ dốc của đường hồi quy và hệ số tương quan

Trong đó r là hệ số tương quan, x̅ là giá trị trung bình mẫu của biến x, y̅ là giá trị trung bình mẫu của biến y và x i và y i các giá trị riêng lẻ của từng biến trong số hai biến.

Hồi quy tuyến tính bình phương nhỏ nhất

Hồi quy tuyến tính là quá trình khớp một chuỗi dữ liệu được ghép nối thành một đường thẳng. Nó liên quan đến việc thu được phương trình toán học của đường phù hợp nhất với chuỗi dữ liệu và do đó, giảm thiểu khoảng cách trung bình giữa tất cả các điểm và đường khi cả hai được biểu diễn trong hệ tọa độ Descartes.

Hồi quy tuyến tính hầu như luôn được thực hiện bằng phương pháp bình phương nhỏ nhất và kết quả là thu được hai tham số xác định một đường, đó là đường cắt với trục Y và độ dốc.

Bất kể chuỗi dữ liệu có hành xử tuyến tính hay không, luôn có thể có được phương trình của đường phù hợp nhất với nó. Nếu chúng ta coi một biến mà chúng ta coi là độc lập, X, và một biến khác mà chúng ta coi là biến phụ thuộc, Y, thì phương trình của đường thẳng được cho bởi:

Độ dốc của đường hồi quy và hệ số tương quan

Trong phương trình này, các hệ số ab là các hệ số hồi quy tuyến tính và tương ứng biểu thị tung độ gốc Y và độ dốc của đường thẳng. Có thể dễ dàng chỉ ra rằng các hệ số giảm thiểu bình phương của lỗi dự đoán mô hình (sự khác biệt giữa giá trị thực và giá trị được ước tính bởi mô hình) được cho bởi:

Độ dốc của đường hồi quy và hệ số tương quan

Mối quan hệ giữa độ dốc của đường hồi quy tuyến tính, b, và hệ số tương quan, r

Bây giờ chúng ta đã hiểu rõ hơn về hệ số hồi quy tuyến tính ab là gì và hệ số tương quan tuyến tính Pearson r là gì , chúng ta đã sẵn sàng để hiểu tại sao và bằng cách nào hệ số góc b có liên quan đến r .

Trên thực tế, sự kết hợp của phương trình trên cho b và định nghĩa của hệ số Pearson, dẫn đến mối quan hệ toán học giữa hai thống kê này, đối với trường hợp một mẫu dữ liệu:

Độ dốc của đường hồi quy và hệ số tương quan

Có thể thấy, vì độ lệch chuẩn mẫu s x và s y theo định nghĩa là dương (vì chúng là căn bậc hai dương của các phương sai tương ứng), nên tỷ lệ của chúng nhất thiết phải dương. Vì lý do này, dấu của hệ số góc b , được xác định bởi dấu của hệ số tương quan r , và ngược lại.

Ngoài ra, vì hệ số góc được biểu thị dưới dạng tích giữa r và thương số đã nói ở trên giữa hai độ lệch chuẩn, nên trong trường hợp hai biến không thể hiện bất kỳ mối tương quan nào (nghĩa là khi xác minh rằng r = 0 ) , thì độ dốc của đường phù hợp với hồi quy tuyến tính đối với dữ liệu cũng sẽ bằng 0, như chúng ta đã quan sát trước đó.

Điều này rất có ý nghĩa, bởi vì, nếu tất cả các yếu tố khác ảnh hưởng đến biến phụ thuộc giữ nguyên, nếu không có mối tương quan giữa nó và biến độc lập, thì có thể kỳ vọng rằng một sự thay đổi trong biến độc lập (nghĩa là trong x ) sẽ không sẽ không tạo ra thay đổi có thể quan sát được trong lần đầu tiên (nghĩa là theo y). Do đó, khi chúng ta di chuyển từ trái sang phải dọc theo biểu đồ, chúng ta sẽ không quan sát thấy bất kỳ sự tăng hoặc giảm nào trong các giá trị y và bất kỳ sự thay đổi nào mà chúng ta quan sát được chỉ là do bản chất ngẫu nhiên của biến đó.

Mối quan hệ giữa hệ số Pearson và độ dốc trong trường hợp dữ liệu dân số

Điều vừa nói liên quan đến dữ liệu mẫu cũng được áp dụng tương tự trong trường hợp có tất cả dữ liệu của một tổng thể. Điều duy nhất thay đổi là, thay vì số liệu thống kê ( a, br ), trong trường hợp dân số, chúng ta có sự hiện diện của các tham số.

Như thường thấy trong thống kê, các tham số thường được biểu thị bằng các chữ cái giống như số liệu thống kê, chỉ sử dụng các chữ cái trong bảng chữ cái Hy Lạp. Vì lý do này, điểm cắt và độ dốc của đường phù hợp với tất cả dữ liệu dân số được biểu thị bằng các chữ cái α và β (thay vì a b ) và hệ số Pearson được biểu thị bằng chữ cái ρ (thay vì ). r ), trong khi độ lệch chuẩn dân số được biểu thị bằng chữ cái s (thay vì s ).

Do đó, mối quan hệ giữa độ dốc và hệ số tương quan tuyến tính cho dân số được cho bởi:

Độ dốc của đường hồi quy và hệ số tương quan

Người giới thiệu

Carollo Limeres, MC (2012). HỒI QUY TUYẾN TÍNH ĐƠN GIẢN . Đại học Santiago de Compostela. http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf

LesKanaris. (nd). Dữ liệu được ghép nối trong thống kê là gì? – Lời khuyên – 2022 . https://us.leskanaris.com/7419-paired-data-in-statistics.html

Martinez Vara De Rey, CC (sf). Phân tích dữ liệu trong Tâm lý học II – Hệ số tương quan tuyến tính của Pearson . Đại học Sevilla. https://personal.us.es/vararey/correlacion-lineal-pearson.pdf

Rodrigo, JA (2016, tháng 6). Tương quan tuyến tính và hồi quy tuyến tính đơn giản . CienciaDeDatos.Net. https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal

Santos Cuervo, L. (2000). Hồi quy và tương quan . loại bỏ. http://recursostic.educacion.es/descartes/web/Descartes1/Bach_CNST_1/Variables_estadisticas_bi dimensionses_regresion_correlacion/regresi2.htm

siêu giáo sư (2020, ngày 25 tháng 5). Đường hồi quy là gì? | Siêu giáo sư . Tài liệu giáo khoa – Superprof. https://www.superprof.es/apuntes/escolar/matematicas/estadistica/disbidimension/recta-de-regresion.html

Ucha, AP (2021, ngày 19 tháng 2). Hệ số tương quan tuyến tính . kinh tế. https://econoomipedia.com/definiciones/coeficiente-de-correlacion-lineal.html

-Quảng cáo-

mm
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados