Làm cách nào để vẽ dữ liệu lớn trong Python?

Khi làm việc với dữ liệu, có thể khó thực sự hiểu dữ liệu của bạn khi dữ liệu chỉ ở dạng bảng. Để hiểu chính xác dữ liệu của chúng ta truyền tải điều gì, và để làm sạch dữ liệu tốt hơn cũng như chọn các mô hình phù hợp cho dữ liệu đó, chúng ta cần trực quan hóa hoặc biểu diễn dữ liệu đó ở dạng hình ảnh. Điều này giúp hiển thị các mẫu, mối tương quan và xu hướng không thể thu được khi dữ liệu ở dạng bảng hoặc tệp CSV

Quá trình tìm kiếm các xu hướng và mối tương quan trong dữ liệu của chúng tôi bằng cách biểu thị nó bằng hình ảnh được gọi là Trực quan hóa dữ liệu. Để thực hiện trực quan hóa dữ liệu trong python, chúng ta có thể sử dụng các mô-đun trực quan hóa dữ liệu python khác nhau như Matplotlib, Seaborn, Plotly, v.v. Trong bài viết này, Hướng dẫn đầy đủ về trực quan hóa dữ liệu trong Python, chúng ta sẽ thảo luận về cách làm việc với một số mô-đun này để trực quan hóa dữ liệu trong python và đề cập chi tiết đến các chủ đề sau

  • Trực quan hóa dữ liệu là gì?
  • Trực quan hóa dữ liệu trong Python
  • Matplotlib và Seaborn
  • Biểu đồ đường
  • Đồ thị thanh
  • biểu đồ
  • Điểm phân tán
  • Bản đồ nhiệt

Chương trình thạc sĩ chuyên gia trực quan hóa dữ liệu

Đưa ra quyết định dựa trên dữ liệu như một chuyên gia Bắt đầu học

Trực quan hóa dữ liệu là gì?

Trực quan hóa dữ liệu là một lĩnh vực trong phân tích dữ liệu liên quan đến biểu diễn trực quan của dữ liệu. Nó vẽ đồ thị dữ liệu và là một cách hiệu quả để truyền đạt các suy luận từ dữ liệu

Bằng cách sử dụng trực quan hóa dữ liệu, chúng tôi có thể nhận được bản tóm tắt trực quan về dữ liệu của mình. Với hình ảnh, bản đồ và đồ thị, tâm trí con người sẽ dễ dàng xử lý và hiểu bất kỳ dữ liệu nhất định nào. Trực quan hóa dữ liệu đóng một vai trò quan trọng trong việc biểu diễn cả tập dữ liệu nhỏ và lớn, nhưng nó đặc biệt hữu ích khi chúng ta có các tập dữ liệu lớn, trong đó không thể xem tất cả dữ liệu của chúng ta, chứ đừng nói đến việc xử lý và hiểu dữ liệu theo cách thủ công

Trực quan hóa dữ liệu trong Python

Python cung cấp một số thư viện vẽ biểu đồ, cụ thể là Matplotlib, Seaborn và nhiều gói trực quan hóa dữ liệu khác với các tính năng khác nhau để tạo các biểu đồ thông tin, tùy chỉnh và hấp dẫn để trình bày dữ liệu theo cách đơn giản và hiệu quả nhất

Hình 1. Trực quan hóa dữ liệu

Matplotlib và Seaborn

Matplotlib và Seaborn là các thư viện python được sử dụng để trực quan hóa dữ liệu. Họ có các mô-đun sẵn có để vẽ các biểu đồ khác nhau. Trong khi Matplotlib được sử dụng để nhúng biểu đồ vào ứng dụng, Seaborn chủ yếu được sử dụng cho biểu đồ thống kê

Nhưng khi nào chúng ta nên sử dụng một trong hai? . Bảng bên dưới cung cấp sự so sánh giữa hai gói trực quan hóa nổi tiếng của Python là Matplotlib và Seaborn

Matplotlib

sinh ra biển

Nó được sử dụng để vẽ biểu đồ cơ bản như biểu đồ đường, biểu đồ thanh, v.v.

Nó chủ yếu được sử dụng để trực quan hóa số liệu thống kê và có thể thực hiện các trực quan hóa phức tạp với ít lệnh hơn

Nó chủ yếu hoạt động với bộ dữ liệu và mảng

Nó hoạt động với toàn bộ bộ dữ liệu

Seaborn có tổ chức và chức năng hơn đáng kể so với Matplotlib và coi toàn bộ tập dữ liệu là một đơn vị duy nhất

Matplotlib hoạt động hiệu quả với các mảng và khung dữ liệu. Nó coi các con át chủ bài và các con số là đối tượng

Seaborn có nhiều chủ đề sẵn có hơn và chủ yếu được sử dụng để phân tích thống kê

Matplotlib có thể tùy chỉnh nhiều hơn và kết hợp tốt với Pandas và Numpy để Phân tích Dữ liệu Khám phá

Bảng 1. Matplotlib so với Seaborn

PCP trong AI và Máy học

Hợp tác với Đại học Purdue Khóa học khám phá

Biểu đồ đường

Biểu đồ đường là biểu đồ biểu thị thông tin dưới dạng một chuỗi các điểm dữ liệu được kết nối bằng một đường thẳng. Trong biểu đồ đường, mỗi điểm dữ liệu hoặc điểm đánh dấu được vẽ và kết nối bằng một đường hoặc đường cong.  

Hãy xem xét năng suất táo [tấn trên ha] ở Kanto. Hãy vẽ biểu đồ đường bằng dữ liệu này và xem sản lượng táo thay đổi như thế nào theo thời gian. Chúng tôi bắt đầu bằng cách nhập Matplotlib và Seaborn

Hình 2. Nhập các mô-đun cần thiết

Sử dụng Matplotlib

Chúng tôi đang sử dụng các điểm dữ liệu ngẫu nhiên để biểu thị sản lượng táo.  

Hình 3. Vẽ sơ đồ năng suất táo

Để hiểu rõ hơn về biểu đồ và mục đích của nó, chúng ta cũng có thể thêm các giá trị trục x

hinh 4. Giá trị trục

khóa học miễn phí. Giới thiệu về trực quan hóa dữ liệu

Biết các nguyên tắc và phát hiện về trực quan hóa dữ liệu Đăng ký ngay

Hãy thêm nhãn vào các trục để chúng tôi có thể hiển thị những gì mỗi trục đại diện.   

  

Hình 5. Trục có nhãn

Để vẽ nhiều bộ dữ liệu trên cùng một biểu đồ, chỉ cần sử dụng lệnh plt. vẽ hàm một lần cho mỗi tập dữ liệu. Hãy sử dụng điều này để so sánh năng suất của táo với. cam trên cùng một biểu đồ

Hình 6. Vẽ nhiều đồ thị

Chúng ta có thể thêm chú thích cho chúng ta biết ý nghĩa của từng dòng trong biểu đồ. Để hiểu những gì chúng ta đang vẽ, chúng ta có thể thêm tiêu đề vào biểu đồ của mình

   

Hình 7. Vẽ nhiều đồ thị

Để hiển thị từng điểm dữ liệu trên biểu đồ của chúng tôi, chúng tôi có thể đánh dấu chúng bằng các điểm đánh dấu bằng cách sử dụng đối số điểm đánh dấu. Nhiều hình dạng điểm đánh dấu khác nhau như hình tròn, chữ thập, hình vuông, hình thoi, v.v. được cung cấp bởi Matplotlib

Hình 8. Sử dụng các điểm đánh dấu

Bạn có thể sử dụng plt. chức năng hình để thay đổi kích thước của hình

Hình 9. Thay đổi kích thước đồ thị

Sử dụng Seaborn

Một cách dễ dàng để làm cho biểu đồ của bạn trông đẹp mắt là sử dụng một số kiểu mặc định từ thư viện Seaborn. Chúng có thể được áp dụng trên toàn cầu bằng cách sử dụng sns. hàm set_style

Hình 10. Sử dụng Seaborn

Chúng ta cũng có thể sử dụng tùy chọn darkgrid để thay đổi màu nền thành màu tối hơn

Hình 11. Sử dụng darkgrid trong Seaborn

Đồ thị thanh

Khi bạn có dữ liệu phân loại, bạn có thể biểu thị dữ liệu đó bằng biểu đồ thanh. Biểu đồ thanh vẽ dữ liệu với sự trợ giúp của các thanh, biểu thị giá trị trên trục y và danh mục trên trục x. Biểu đồ thanh sử dụng các thanh có độ cao khác nhau để hiển thị dữ liệu thuộc về một danh mục cụ thể

Hình 12. Vẽ biểu đồ thanh

Chúng ta cũng có thể xếp chồng các thanh lên nhau. Hãy vẽ dữ liệu cho táo và cam

Hình 13. Vẽ biểu đồ thanh xếp chồng lên nhau

Hãy sử dụng bộ dữ liệu mẹo trong Seaborn tiếp theo. Bộ dữ liệu bao gồm

  • Thông tin về giới tính [giới tính]
  • Thời gian trong ngày
  • Hóa đơn tổng cộng
  • Tiền boa cho khách hàng ghé thăm nhà hàng trong một tuần

Hình 14. Bộ dữ liệu Iris

Chúng ta có thể vẽ biểu đồ thanh để hình dung số tiền hóa đơn trung bình thay đổi như thế nào qua các ngày khác nhau trong tuần. Chúng ta có thể làm điều này bằng cách tính toán mức trung bình trong ngày và sau đó sử dụng plt. quán ba. Thư viện Seaborn cũng cung cấp hàm barplot có thể tự động tính toán giá trị trung bình

Hình 15. Vẽ đồ thị trung bình của mỗi thanh

Học hỏi từ những người giỏi nhất trong ngành khoa học dữ liệu

Trại đào tạo về khoa học dữ liệu của Caltech Khóa học khám phá

Nếu bạn muốn so sánh các ô thanh cạnh nhau, bạn có thể sử dụng đối số hue. Việc so sánh sẽ được thực hiện dựa trên tính năng thứ ba được chỉ định trong đối số này

Hình 16. Vẽ nhiều biểu đồ thanh

Bạn có thể làm cho các thanh nằm ngang bằng cách chuyển đổi các trục

Hình 17. Vẽ biểu đồ thanh ngang

biểu đồ

Biểu đồ là biểu diễn dạng thanh của dữ liệu thay đổi trong một phạm vi. Nó vẽ biểu đồ chiều cao của dữ liệu thuộc phạm vi dọc theo trục y và phạm vi dọc theo trục x. Biểu đồ được sử dụng để vẽ dữ liệu trên một loạt các giá trị. Họ sử dụng biểu diễn thanh để hiển thị dữ liệu thuộc từng phạm vi. Hãy sử dụng lại dữ liệu ‘Iris’ chứa thông tin về hoa để vẽ biểu đồ

Hình 18. bộ dữ liệu mống mắt

Bây giờ, hãy vẽ một biểu đồ bằng cách sử dụng hàm hist[]

Hình 19. Vẽ biểu đồ

Chúng tôi cũng có thể kiểm soát số lượng hoặc kích thước của thùng

Hình 20. Thay đổi số lượng thùng

khóa học miễn phí. Python cho người mới bắt đầu

Nắm vững kiến ​​thức cơ bản về Python Đăng ký ngay

Chúng tôi cũng có thể thay đổi số lượng và kích thước của thùng bằng cách sử dụng numpy

Hình 21. Thay đổi số lượng và kích thước của thùng

Chúng tôi cũng có thể tạo các thùng có kích thước không bằng nhau

Hình 22. Thùng có kích thước không bằng nhau

Tương tự như biểu đồ đường, chúng ta có thể vẽ nhiều biểu đồ trong một biểu đồ. Chúng tôi có thể giảm độ mờ của từng biểu đồ sao cho các thanh của biểu đồ này không ẩn các thanh khác'. Hãy vẽ biểu đồ riêng cho từng loài hoa

Hình 23. Nhiều biểu đồ

Nhiều biểu đồ có thể được xếp chồng lên nhau bằng cách đặt tham số xếp chồng thành True

Hình 24. Biểu đồ xếp chồng

Điểm phân tán

Biểu đồ phân tán được sử dụng khi chúng ta phải vẽ hai hoặc nhiều biến có mặt ở các tọa độ khác nhau. Dữ liệu nằm rải rác khắp biểu đồ và không bị giới hạn trong một phạm vi. Hai hoặc nhiều biến được vẽ trong Biểu đồ phân tán, với mỗi biến được biểu thị bằng một màu khác nhau. Hãy sử dụng tập dữ liệu ‘Iris’ để vẽ Biểu đồ phân tán

Hình 25. Bộ dữ liệu Iris

Đầu tiên, hãy xem chúng ta có bao nhiêu loài hoa khác nhau

Hình 26. Loài hoa độc đáo

Hãy thử vẽ dữ liệu với sự trợ giúp của biểu đồ đường

Hình 27. Vẽ biểu đồ đường

Đây không phải là rất nhiều thông tin. Chúng tôi không thể tìm ra mối quan hệ giữa các điểm dữ liệu khác nhau

Hình 28. âm mưu phân tán

Điều này tốt hơn nhiều. Nhưng chúng tôi vẫn không thể phân biệt các điểm dữ liệu khác nhau thuộc các danh mục khác nhau. Chúng ta có thể tô màu các chấm bằng cách sử dụng các loài hoa làm màu sắc

Hình 29. Biểu đồ phân tán với nhiều màu sắc

Vì Seaborn sử dụng các hàm vẽ đồ thị Matplotlib trong nội bộ nên chúng ta có thể sử dụng các hàm như plt. hình và plt. tiêu đề để sửa đổi hình

Hình 30. Thay đổi kích thước của biểu đồ phân tán

Khóa đào tạo Python

Tìm hiểu về thao tác dữ liệu trong Python Khám phá khóa học

Bản đồ nhiệt

Bản đồ nhiệt được sử dụng để xem các thay đổi trong hành vi hoặc thay đổi dần dần trong dữ liệu. Nó sử dụng các màu khác nhau để thể hiện các giá trị khác nhau. Dựa trên cách các màu này có màu sắc, cường độ, v.v. , cho chúng ta biết hiện tượng thay đổi như thế nào. Hãy sử dụng bản đồ nhiệt để hình dung lượng hành khách hàng tháng tại một sân bay trong hơn 12 năm từ bộ dữ liệu chuyến bay trong Seaborn

Hình 31. tập dữ liệu chuyến bay

Bộ dữ liệu trên, Flights_df cho chúng ta thấy lượng khách hàng tháng đến một sân bay trong mỗi năm, từ 1949 đến 1960. Các giá trị đại diện cho số lượng hành khách [tính bằng nghìn] đã đi qua sân bay. Hãy sử dụng bản đồ nhiệt để trực quan hóa dữ liệu trên

 

Hình 32. Vẽ sơ đồ nhiệt

Màu càng sáng, lượng người đến sân bay càng cao. Bằng cách nhìn vào biểu đồ, chúng ta có thể suy ra rằng.  

  1. Lượng khách hàng năm cho bất kỳ năm nào cao nhất vào khoảng tháng 7 và tháng 8
  2. Lượng khách tăng hàng năm. Bất kỳ tháng nào trong năm sẽ có lượng khách hàng cao hơn so với các năm trước

Hãy hiển thị các giá trị thực tế trong bản đồ nhiệt của chúng tôi và thay đổi màu sắc thành màu xanh lam.            

Hình 33. Vẽ sơ đồ nhiệt với các giá trị

Làm chủ Deep Learning, Machine Learning và các ngôn ngữ lập trình khác với Chương trình Thạc sĩ Kỹ sư Trí tuệ Nhân tạo

Phần kết luận

Trong bài viết này, Hướng dẫn đầy đủ về trực quan hóa dữ liệu trong Python, chúng tôi đã giới thiệu tổng quan về trực quan hóa dữ liệu trong python và thảo luận cách tạo Biểu đồ đường, Biểu đồ thanh, Biểu đồ, Biểu đồ phân tán và Bản đồ nhiệt bằng các gói trực quan hóa dữ liệu khác nhau do Python cung cấp như .  

Nếu bạn cần làm rõ thêm hoặc muốn tìm hiểu thêm về trực quan hóa dữ liệu trong Python và muốn hiểu cách thực hiện trực quan hóa dữ liệu, hãy chia sẻ truy vấn của bạn với chúng tôi bằng cách đề cập đến chúng trong phần nhận xét của trang này. Chúng tôi sẽ có các chuyên gia của chúng tôi xem xét chúng sớm nhất

Python cung cấp nhiều gói trực quan hóa khác có thể được sử dụng để tạo các loại trực quan hóa khác nhau chứ không chỉ biểu đồ và sơ đồ. Do đó, điều quan trọng là phải hiểu những thách thức và lợi thế của các thư viện khác nhau và cách sử dụng chúng để phát huy hết tiềm năng của chúng. Hãy xem khóa học Trí tuệ nhân tạo của Simplilearn để nắm vững các khái niệm chính bao gồm Khoa học dữ liệu với Python, Học máy, Học sâu, NLP, v.v. Mục tiêu của khóa học này là giúp bạn sẵn sàng cho công việc và đảm bảo thành công trong sự nghiệp của bạn

Giới thiệu về tác giả

Ravikiran AS

Ravikiran A S làm việc với Simplilearn với tư cách là Nhà phân tích nghiên cứu. Anh ấy là một người đam mê nhiệt tình, luôn săn lùng những công nghệ mới nhất. Anh ấy thành thạo Ngôn ngữ lập trình Java, Dữ liệu lớn và các Khung dữ liệu lớn mạnh mẽ như Apache Hadoop và Apache Spark

Biểu đồ nào là tốt nhất cho các tập dữ liệu lớn?

Biểu đồ phân tán là tốt nhất để hiển thị phân phối trong tập dữ liệu lớn.

Python có thể xử lý dữ liệu lớn không?

Python cung cấp một số lượng lớn thư viện để hoạt động trên Dữ liệu lớn . Bạn cũng có thể làm việc - về mặt phát triển mã - sử dụng Python cho Dữ liệu lớn nhanh hơn nhiều so với bất kỳ ngôn ngữ lập trình nào khác. Hai khía cạnh này đang cho phép các nhà phát triển trên toàn thế giới sử dụng Python làm ngôn ngữ được lựa chọn cho các dự án Dữ liệu lớn.

Chủ Đề