Loại bỏ các ngoại lệ trong boxplot python
Ngoại lệ là một mục/đối tượng dữ liệu lệch đáng kể so với phần còn lại của các đối tượng (được gọi là bình thường). Chúng có thể được gây ra bởi lỗi đo lường hoặc thực hiện. Phân tích để phát hiện ngoại lệ được gọi là khai thác ngoại lệ. Có nhiều cách để phát hiện các ngoại lệ và quy trình xóa khung dữ liệu giống như xóa một mục dữ liệu khỏi khung dữ liệu của gấu trúc Show Ở đây, khung dữ liệu gấu trúc được sử dụng cho cách tiếp cận thực tế hơn vì trong dự án trong thế giới thực cần phát hiện các điểm ngoại lệ khơi dậy trong bước phân tích dữ liệu, cách tiếp cận tương tự có thể được sử dụng trên danh sách và đối tượng kiểu chuỗi tập dữ liệuBộ dữ liệu được sử dụng là bộ dữ liệu Nhà ở Boston vì nó được tải sẵn trong thư viện sklearn Python3
đầu ra. một phần của tập dữ liệu Phát hiện các ngoại lệCác ngoại lệ có thể được phát hiện bằng cách sử dụng trực quan, triển khai các công thức toán học trên tập dữ liệu hoặc sử dụng phương pháp thống kê. Tất cả những điều này được thảo luận dưới đây. 1. Hình dungví dụ 1. Sử dụng Box Plot Nó ghi lại tóm tắt dữ liệu một cách hiệu quả và hiệu quả chỉ với một hộp và râu đơn giản. Boxplot tóm tắt dữ liệu mẫu bằng phần trăm thứ 25, 50 và 75. Người ta chỉ có thể nhận thông tin chi tiết (phần tư, trung bình và ngoại lệ) vào tập dữ liệu bằng cách chỉ nhìn vào biểu đồ hộp của nó Python3
đầu ra Boxplot- cột DIS Trong biểu đồ trên, có thể thấy rõ rằng các giá trị trên 10 đang đóng vai trò là giá trị ngoại lệ Python3
đầu ra Chỉ số ngoại lệ ví dụ 2. Sử dụng ScatterPlot Nó được sử dụng khi bạn đã ghép nối dữ liệu số hoặc khi biến phụ thuộc của bạn có nhiều giá trị cho mỗi biến độc lập đang đọc hoặc khi cố gắng xác định mối quan hệ giữa hai biến. Trong quá trình sử dụng biểu đồ phân tán, người ta cũng có thể sử dụng nó để phát hiện ngoại lệ Để vẽ biểu đồ phân tán, người ta yêu cầu hai biến có liên quan với nhau bằng cách nào đó. Vì vậy, ở đây, 'Tỷ lệ mẫu đất kinh doanh không bán lẻ trên mỗi thị trấn' và 'Mức thuế suất bất động sản toàn giá trị trên 10.000 đô la' được sử dụng có tên cột lần lượt là "INDUS" và "TAX" Python3
đầu ra Âm mưu phân tán Nhìn vào biểu đồ có thể tóm tắt rằng hầu hết các điểm dữ liệu nằm ở góc dưới cùng bên trái của biểu đồ nhưng có một số điểm chính xác; y ngược lại là góc trên cùng bên phải của biểu đồ. Những điểm ở góc trên cùng bên phải có thể được coi là Ngoại lệ Sử dụng phép tính gần đúng có thể nói rằng tất cả các điểm dữ liệu x>20 và y>600 đều là ngoại lệ. Đoạn mã sau có thể lấy vị trí chính xác của tất cả những điểm thỏa mãn các điều kiện này. Python3
đầu ra Chỉ số ngoại lệ 2. điểm ZZ- Score còn gọi là điểm chuẩn. Giá trị/điểm số này giúp hiểu rằng điểm dữ liệu cách giá trị trung bình bao xa. Và sau khi thiết lập giá trị ngưỡng, người ta có thể sử dụng giá trị điểm số z của các điểm dữ liệu để xác định các giá trị ngoại lệ
Python3
đầu ra một phần của danh sách (z) Đầu ra ở trên chỉ là ảnh chụp nhanh một phần dữ liệu; . Nó in các giá trị điểm z của từng mục dữ liệu của cột Bây giờ để xác định giá trị ngưỡng ngoại lệ được chọn, thường là 3. 0. như 99. 7% số điểm dữ liệu nằm trong khoảng +/- 3 độ lệch chuẩn (sử dụng phương pháp Phân phối Gaussian) Python3
đầu ra Chỉ số ngoại lệ 3. IQR (Phạm vi liên vùng)Phương pháp IQR (Phạm vi liên tứ phân vị) Phương pháp tiếp cận phạm vi liên tứ phân vị để tìm ra các ngoại lệ là phương pháp được sử dụng phổ biến nhất và đáng tin cậy nhất được sử dụng trong lĩnh vực nghiên cứu
Python3
đầu ra Để xác định giá trị cơ sở ngoại lệ được xác định bên trên và bên dưới phạm vi bình thường của tập dữ liệu cụ thể là Giới hạn trên và Giới hạn dưới, hãy xác định giới hạn trên và giới hạn dưới (1. 5*giá trị IQR được xem xét)
Trong công thức trên theo thống kê thì 0. 5 mở rộng IQR (new_IQR = IQR + 0. 5*IQR) được lấy để xem xét tất cả dữ liệu giữa 2. 7 độ lệch chuẩn trong Phân phối Gaussian Python3
_______33____44____142
Làm cách nào để phát hiện các ngoại lệ trong Python?Tìm giá trị ngoại lệ bằng phương pháp thống kê
. 5 IQR trở lên Q3 + 1. 5 IQR Using the IQR, the outlier data points are the ones falling below Q1–1.5 IQR or above Q3 + 1.5 IQR . Q1 là phân vị thứ 25 và Q3 là phân vị thứ 75 của tập dữ liệu và IQR biểu thị phạm vi liên phần tư được tính bằng Q3 trừ Q1 (Q3–Q1).
Làm cách nào để trích xuất dữ liệu từ boxplot Python?MatPlotLib với Python . Đặt kích thước hình và điều chỉnh phần đệm giữa và xung quanh các ô con Tạo khung dữ liệu bằng gấu trúc Tạo một biểu đồ hộp từ các cột DataFrame Nhận dữ liệu về ngoại lệ, hộp, trung vị và râu của boxplot Prit tất cả các thông tin trên Để hiển thị hình, sử dụng phương thức show() |