Seaborn là một thư viện Python dựa trên matplotlib và được sử dụng để trực quan hóa dữ liệu. Nó cung cấp một phương tiện để trình bày dữ liệu ở định dạng biểu đồ thống kê dưới dạng một phương tiện thông tin và hấp dẫn để truyền đạt một số thông tin. Bản đồ nhiệt là một trong những thành phần được seaborn hỗ trợ trong đó sự thay đổi trong dữ liệu liên quan được mô tả bằng bảng màu. Bài viết này tập trung vào một bản đồ nhiệt tương quan và cách seaborn kết hợp với gấu trúc và matplotlib có thể được sử dụng để tạo một bản đồ cho một khung dữ liệu
Cài đặt
Giống như bất kỳ thư viện Python nào khác, có thể dễ dàng cài đặt seaborn bằng cách sử dụng pip
pip install seaborn
Thư viện này là một phần của bản phân phối Anaconda và thường chỉ hoạt động bằng cách nhập nếu IDE của bạn được Anaconda hỗ trợ, nhưng nó cũng có thể được cài đặt bằng lệnh sau
conda install seaborn
Bản đồ nhiệt tương quan
Bản đồ nhiệt tương quan là bản đồ nhiệt hiển thị ma trận tương quan 2D giữa hai chiều riêng biệt, sử dụng các ô màu để biểu thị dữ liệu từ thang đo thường là đơn sắc. Các giá trị của thứ nguyên đầu tiên xuất hiện dưới dạng các hàng của bảng trong khi thứ nguyên thứ hai xuất hiện dưới dạng cột. Màu của ô tỷ lệ thuận với số phép đo phù hợp với giá trị thứ nguyên. Điều này làm cho các bản đồ nhiệt tương quan trở nên lý tưởng để phân tích dữ liệu vì nó làm cho các mẫu dễ đọc và làm nổi bật sự khác biệt và biến thể trong cùng một dữ liệu. Bản đồ nhiệt tương quan, giống như bản đồ nhiệt thông thường, được hỗ trợ bởi thanh màu giúp dữ liệu dễ đọc và dễ hiểu
Các bước sau đây cho thấy cách tạo bản đồ nhiệt tương quan
- Nhập tất cả các mô-đun cần thiết trước
- Nhập tệp lưu trữ dữ liệu của bạn
- Vẽ bản đồ nhiệt
- Hiển thị nó bằng matplotlib
Để vẽ phương pháp bản đồ nhiệt của mô-đun seaborn sẽ được sử dụng
cú pháp. bản đồ nhiệt [dữ liệu, vmin, vmax, center, cmap,………………………………………………………]
Ngoại trừ dữ liệu, tất cả các thuộc tính khác là tùy chọn và dữ liệu rõ ràng sẽ là dữ liệu được vẽ. Dữ liệu ở đây phải được truyền bằng phương thức corr[] để tạo bản đồ nhiệt tương quan. Ngoài ra, bản thân corr[] sẽ loại bỏ các cột không được sử dụng trong khi tạo bản đồ nhiệt tương quan và chọn những cột có thể được sử dụng
ví dụ 1
Đối với ví dụ được đưa ra bên dưới, đây là tập dữ liệu được tải xuống từ kaggle. com đang được sử dụng. Cốt truyện hiển thị dữ liệu liên quan đến tiểu thuyết bán chạy nhất trên amazon
Bộ dữ liệu đã qua sử dụng – Bestseller
Python3
conda install seaborn5
conda install seaborn6
conda install seaborn7
conda install seaborn6
conda install seaborn9
conda install seaborn6
conda install seaborn1
conda install seaborn2
conda install seaborn0
conda install seaborn1
conda install seaborn2
conda install seaborn3____14
conda install seaborn5
conda install seaborn2
conda install seaborn7
conda install seaborn8
conda install seaborn9
conda install seaborn50
conda install seaborn51
conda install seaborn2
conda install seaborn53
conda install seaborn54
conda install seaborn2
conda install seaborn56_______12____158
conda install seaborn59
conda install seaborn2
conda install seaborn61
conda install seaborn5
conda install seaborn2
conda install seaborn64
conda install seaborn65
đầu ra
Ví dụ trên xử lý dữ liệu nhỏ. Ví dụ sau mô tả đầu ra sẽ trông như thế nào đối với một tập dữ liệu lớn,
Một ma trận tương quan là một bảng chứa các hệ số tương quan cho nhiều biến. Từng ô trong bảng biểu thị mối quan hệ giữa hai biến. Giá trị có thể nằm trong khoảng từ -1 đến 1. Một trận đấu quan trọng được sử dụng để ủy thác dữ liệu, chống lại sự phân tích nâng cao và là người đầu tiên cho một cuộc nghiên cứu về sự phức tạp hơn
Nội dung chính Hiển thị
Ma trận tương quan được sử dụng để biểu thị mối quan hệ giữa các biến trong dữ liệu. Đây là một loại ma trận giúp lập trình viên phân tích mối quan hệ giữa các thành phần dữ liệu. Nó đại diện cho các số tương đối trong khoảng từ 0 đến 1
Giá trị dương có nghĩa là một mối tương quan tốt, giá trị âm cho mối tương quan yếu/thấp và giá trị bằng 0 [0] cho thấy không có sự phụ thuộc giữa các tập hợp các biến đã cho
Việc phân tích các quy định và ma trận tương quan cho thấy các quan sát sau -
Nhận ra mối quan hệ giữa các biến độc lập trong tập dữ liệu
Trợ giúp lựa chọn các biến quan trọng và không dư thừa từ một tập dữ liệu
Điều này chỉ áp dụng cho các biến số hoặc liên tục
Trong bài viết này, chúng tôi sẽ chỉ cho bạn cách tạo ma trận tương đối bằng Python
Giả sử chúng tôi đã lấy một tệp CSV với tên starbucksmenu. csv bao gồm một số dữ liệu ngẫu nhiên. Chúng ta cần tạo một ma trận tương quan cho các cột được chỉ định trong tệp dữ liệu và vẽ đồ thị ma trận tương quan. starbucksThực đơn. csv bao gồm một số dữ liệu ngẫu nhiên. Chúng ta cần tạo ma trận tương quan cho các cột được chỉ định trong tập dữ liệu và vẽ ma trận tương quan
File input data
starbucksThực đơn. csv
Tên mụcCaloMập mạpLòng carbChất xơChất đạmNatri Cool Lime Starbucks Refreshers ™450110010Evolution Fresh ™ hữu cơ Ginger Limeade800181010Cà phê đá600141010Tazo® Berry Berry Blossom White000000Tazo® đóng chai Brambleberry1302. 5210565TAZO® Đóng chai Đọi đào1402. 5230590Tazo® đóng chai đam mê1302. 5210565Tazo® đóng chai kết quả rim mắt800190010TazoBerry đóng chai Tazo®600150010Tazo® Bang Cranberry đóng chai1500380015Create a ma trận tương quan
Chúng tôi sẽ vẽ ma trận tương quan cho ba cột của bộ dữ liệu là các biến liên tục độc lập
- lòng carb
- Chất lượng
- Natri
TOÁN [bước]
Sau đây là các thuật toán/các bước được chấp hành thủ thuật để thực hiện nhiệm vụ mong muốn -
Nhập khẩu các thư viện hệ điều hành, Gandas, Numpy và Seaborn
Read file CSV made by read_csv[] [tải file CSV dưới pandas data]. hàm read_csv[] [tải tệp CSV dưới dạng khung dữ liệu gấu trúc]
Tạo danh sách các cột từ bộ dữ liệu đã cho mà ma trận tương quan phải được tạo
Create a ma trận tương quan bằng cách sử dụng hàm Corr[] [nó tính toán tương đối quan theo cặp của tất cả các cột trong khung dữ liệu. Na value any value [NULL] any also be filter ra. . Hàm corr[] [Nó tính toán mối tương quan theo cặp của tất cả các cột trong khung dữ liệu. Mọi giá trị na[null] sẽ tự động được lọc ra. Nó bị loại bỏ đối với bất kỳ cột loại dữ liệu không phải số nào trong khung dữ liệu]
Trong trận đấu tương đối của các cột được định nghĩa bởi bộ dữ liệu
Vẽ ma trận tương quan bằng cách sử dụng hàm nhiệt [] [cho mỗi giá trị được vẽ, một bản đồ nhiệt có các giá trị biểu thị một số sắc thái cùng màu. Tương tự như vậy được sử dụng cho một giá trị khác nhau đáng kể] của Thư viện Seaborn. Hàm heatmap[] [Đối với mỗi giá trị được vẽ, một bản đồ nhiệt có các giá trị biểu thị một số sắc thái của cùng một màu. Các màu tối hơn của biểu đồ thường biểu thị các giá trị cao hơn các màu sáng hơn. Một màu hoàn toàn khác cũng có thể được sử dụng cho một giá trị khác đáng kể] của thư viện seaborn
Nhập bộ dữ liệu vào một khung dữ liệu cấu trúc
Trước tiên, tôi đang nhập bất kỳ bộ dữ liệu mẫu nào [ở đây chúng tôi đang sử dụng starbucksmenu. csv] vào DataFrame khung và trong nó