Ma trận tương quan với các biến phân loại và liên tục python

Khi chúng tôi muốn tính toán mối tương quan giữa hai biến liên tục, chúng tôi thường sử dụng hệ số tương quan Pearson

Tuy nhiên, khi chúng ta muốn tính toán mối tương quan giữa một biến liên tục và một biến phân loại, chúng ta có thể sử dụng một thứ được gọi là tương quan lưỡng cực điểm

Tương quan nhị phân điểm được sử dụng để tính toán mối tương quan giữa một biến phân loại nhị phân [một biến chỉ có thể nhận hai giá trị] và một biến liên tục và có các thuộc tính sau

  • Tương quan biserial điểm có thể nằm trong khoảng từ -1 đến 1
  • Đối với mỗi nhóm được tạo bởi biến nhị phân, giả sử rằng biến liên tục được phân phối chuẩn với các phương sai bằng nhau
  • Đối với mỗi nhóm được tạo bởi biến nhị phân, giả định rằng không có ngoại lệ cực đoan nào

Ví dụ sau đây cho thấy cách tính tương quan nhị phân điểm trong thực tế

Ví dụ. Tính toán tương quan nhị phân điểm

Giả sử một giáo sư đại học muốn xác định xem có mối tương quan nào giữa giới tính và điểm số trong một kỳ thi năng khiếu cụ thể không

Anh ấy thu thập dữ liệu sau về 12 nam và 12 nữ trong lớp của mình

Vì giới tính là một biến phân loại và điểm số là một biến liên tục, nên việc tính toán mối tương quan điểm-lưỡng tính giữa hai biến là điều hợp lý

Giáo sư có thể sử dụng bất kỳ phần mềm thống kê nào [bao gồm Excel, R, Python, SPSS, Stata] để tính tương quan điểm - nhị phân giữa hai biến

Đoạn mã sau cho biết cách tính tương quan điểm-hai miền trong R, sử dụng giá trị 0 để biểu thị nữ và 1 để biểu thị nam cho biến giới tính

#define values for gender
gender 

Chủ Đề