Bản đồ nhiệt tương quan python pandas

Seaborn là một thư viện Python dựa trên matplotlib và được sử dụng để trực quan hóa dữ liệu. Nó cung cấp một phương tiện để trình bày dữ liệu ở định dạng biểu đồ thống kê dưới dạng một phương tiện thông tin và hấp dẫn để truyền đạt một số thông tin. Bản đồ nhiệt là một trong những thành phần được seaborn hỗ trợ trong đó sự thay đổi trong dữ liệu liên quan được mô tả bằng bảng màu. Bài viết này tập trung vào một bản đồ nhiệt tương quan và cách seaborn kết hợp với gấu trúc và matplotlib có thể được sử dụng để tạo một bản đồ cho một khung dữ liệu

Cài đặt

Giống như bất kỳ thư viện Python nào khác, có thể dễ dàng cài đặt seaborn bằng cách sử dụng pip

pip install seaborn

Thư viện này là một phần của bản phân phối Anaconda và thường chỉ hoạt động bằng cách nhập nếu IDE của bạn được Anaconda hỗ trợ, nhưng nó cũng có thể được cài đặt bằng lệnh sau

conda install seaborn

Bản đồ nhiệt tương quan

Bản đồ nhiệt tương quan là bản đồ nhiệt hiển thị ma trận tương quan 2D giữa hai chiều riêng biệt, sử dụng các ô màu để biểu thị dữ liệu từ thang đo thường là đơn sắc. Các giá trị của thứ nguyên đầu tiên xuất hiện dưới dạng các hàng của bảng trong khi thứ nguyên thứ hai xuất hiện dưới dạng cột. Màu của ô tỷ lệ thuận với số phép đo phù hợp với giá trị thứ nguyên. Điều này làm cho các bản đồ nhiệt tương quan trở nên lý tưởng để phân tích dữ liệu vì nó làm cho các mẫu dễ đọc và làm nổi bật sự khác biệt và biến thể trong cùng một dữ liệu. Bản đồ nhiệt tương quan, giống như bản đồ nhiệt thông thường, được hỗ trợ bởi thanh màu giúp dữ liệu dễ đọc và dễ hiểu

Các bước sau đây cho thấy cách tạo bản đồ nhiệt tương quan

  • Nhập tất cả các mô-đun cần thiết trước
  • Nhập tệp lưu trữ dữ liệu của bạn
  • Vẽ bản đồ nhiệt
  • Hiển thị nó bằng matplotlib

Để vẽ phương pháp bản đồ nhiệt của mô-đun seaborn sẽ được sử dụng

cú pháp. bản đồ nhiệt [dữ liệu, vmin, vmax, center, cmap,………………………………………………………]

Ngoại trừ dữ liệu, tất cả các thuộc tính khác là tùy chọn và dữ liệu rõ ràng sẽ là dữ liệu được vẽ. Dữ liệu ở đây phải được truyền bằng phương thức corr[] để tạo bản đồ nhiệt tương quan. Ngoài ra, bản thân corr[] sẽ loại bỏ các cột không được sử dụng trong khi tạo bản đồ nhiệt tương quan và chọn những cột có thể được sử dụng

ví dụ 1

Đối với ví dụ được đưa ra bên dưới, đây là tập dữ liệu được tải xuống từ kaggle. com đang được sử dụng. Cốt truyện hiển thị dữ liệu liên quan đến tiểu thuyết bán chạy nhất trên amazon

Bộ dữ liệu đã qua sử dụng – Bestseller

Python3




conda install seaborn
5

conda install seaborn
6
conda install seaborn
7

conda install seaborn
6
conda install seaborn
9

conda install seaborn
6
conda install seaborn
1

conda install seaborn
2

conda install seaborn
0

conda install seaborn
1
conda install seaborn
2
conda install seaborn
3____14
conda install seaborn
5

conda install seaborn
2

conda install seaborn
7

conda install seaborn
8

conda install seaborn
9

conda install seaborn
50
conda install seaborn
51

conda install seaborn
2

conda install seaborn
53

conda install seaborn
54
conda install seaborn
2
conda install seaborn
56_______12____158
conda install seaborn
59
conda install seaborn
2
conda install seaborn
61
conda install seaborn
5

conda install seaborn
2

conda install seaborn
64

conda install seaborn
65

đầu ra

Ví dụ trên xử lý dữ liệu nhỏ. Ví dụ sau mô tả đầu ra sẽ trông như thế nào đối với một tập dữ liệu lớn,

Một ma trận tương quan là một bảng chứa các hệ số tương quan cho nhiều biến. Từng ô trong bảng biểu thị mối quan hệ giữa hai biến. Giá trị có thể nằm trong khoảng từ -1 đến 1. Một trận đấu quan trọng được sử dụng để ủy thác dữ liệu, chống lại sự phân tích nâng cao và là người đầu tiên cho một cuộc nghiên cứu về sự phức tạp hơn

Nội dung chính Hiển thị

Ma trận tương quan được sử dụng để biểu thị mối quan hệ giữa các biến trong dữ liệu. Đây là một loại ma trận giúp lập trình viên phân tích mối quan hệ giữa các thành phần dữ liệu. Nó đại diện cho các số tương đối trong khoảng từ 0 đến 1

Giá trị dương có nghĩa là một mối tương quan tốt, giá trị âm cho mối tương quan yếu/thấp và giá trị bằng 0 [0] cho thấy không có sự phụ thuộc giữa các tập hợp các biến đã cho

Việc phân tích các quy định và ma trận tương quan cho thấy các quan sát sau -

  • Nhận ra mối quan hệ giữa các biến độc lập trong tập dữ liệu

  • Trợ giúp lựa chọn các biến quan trọng và không dư thừa từ một tập dữ liệu

  • Điều này chỉ áp dụng cho các biến số hoặc liên tục

Trong bài viết này, chúng tôi sẽ chỉ cho bạn cách tạo ma trận tương đối bằng Python

Giả sử chúng tôi đã lấy một tệp CSV với tên starbucksmenu. csv bao gồm một số dữ liệu ngẫu nhiên. Chúng ta cần tạo một ma trận tương quan cho các cột được chỉ định trong tệp dữ liệu và vẽ đồ thị ma trận tương quan. starbucksThực đơn. csv bao gồm một số dữ liệu ngẫu nhiên. Chúng ta cần tạo ma trận tương quan cho các cột được chỉ định trong tập dữ liệu và vẽ ma trận tương quan

File input data

starbucksThực đơn. csv

Tên mụcCaloMập mạpLòng carbChất xơChất đạmNatri       Cool Lime Starbucks Refreshers ™450110010Evolution Fresh ™ hữu cơ Ginger Limeade800181010Cà phê đá600141010Tazo® Berry Berry Blossom White000000Tazo® đóng chai Brambleberry1302. 5210565TAZO® Đóng chai Đọi đào1402. 5230590Tazo® đóng chai đam mê1302. 5210565Tazo® đóng chai kết quả rim mắt800190010TazoBerry đóng chai Tazo®600150010Tazo® Bang Cranberry đóng chai1500380015

Create a ma trận tương quan

Chúng tôi sẽ vẽ ma trận tương quan cho ba cột của bộ dữ liệu là các biến liên tục độc lập

  • lòng carb
  • Chất lượng
  • Natri

TOÁN [bước]

Sau đây là các thuật toán/các bước được chấp hành thủ thuật để thực hiện nhiệm vụ mong muốn -

  • Nhập khẩu các thư viện hệ điều hành, Gandas, Numpy và Seaborn

  • Read file CSV made by read_csv[] [tải file CSV dưới pandas data]. hàm read_csv[] [tải tệp CSV dưới dạng khung dữ liệu gấu trúc]

  • Tạo danh sách các cột từ bộ dữ liệu đã cho mà ma trận tương quan phải được tạo

  • Create a ma trận tương quan bằng cách sử dụng hàm Corr[] [nó tính toán tương đối quan theo cặp của tất cả các cột trong khung dữ liệu. Na value any value [NULL] any also be filter ra. . Hàm corr[] [Nó tính toán mối tương quan theo cặp của tất cả các cột trong khung dữ liệu. Mọi giá trị na[null] sẽ tự động được lọc ra. Nó bị loại bỏ đối với bất kỳ cột loại dữ liệu không phải số nào trong khung dữ liệu]

  • Trong trận đấu tương đối của các cột được định nghĩa bởi bộ dữ liệu

  • Vẽ ma trận tương quan bằng cách sử dụng hàm nhiệt [] [cho mỗi giá trị được vẽ, một bản đồ nhiệt có các giá trị biểu thị một số sắc thái cùng màu. Tương tự như vậy được sử dụng cho một giá trị khác nhau đáng kể] của Thư viện Seaborn. Hàm heatmap[] [Đối với mỗi giá trị được vẽ, một bản đồ nhiệt có các giá trị biểu thị một số sắc thái của cùng một màu. Các màu tối hơn của biểu đồ thường biểu thị các giá trị cao hơn các màu sáng hơn. Một màu hoàn toàn khác cũng có thể được sử dụng cho một giá trị khác đáng kể] của thư viện seaborn

Nhập bộ dữ liệu vào một khung dữ liệu cấu trúc

Trước tiên, tôi đang nhập bất kỳ bộ dữ liệu mẫu nào [ở đây chúng tôi đang sử dụng starbucksmenu. csv] vào DataFrame khung và trong nó

Chủ Đề