Tổ chức dữ liệu là điều cần thiết khi phân tích dữ liệu và quá trình này được gọi là thao tác dữ liệu. Đây là một bước quan trọng trong phân tích dữ liệu. Cho dù bạn cần biểu diễn thông tin bằng biểu đồ, kết hợp nhiều bộ dữ liệu, tạo bảng tổng hợp hay thay đổi tệp Excel thành tệp CSV, Pandas là thư viện Python tốt nhất cho tác vụ. Thư viện Pandas được viết riêng cho ngôn ngữ lập trình Python và ngoài việc tạo biểu đồ, nó còn cho phép bạn sắp xếp dữ liệu và thực hiện các chức năng khác. Chúng bao gồm hợp nhất các tập dữ liệu, đọc bản ghi, nhóm dữ liệu và tổ chức thông tin theo cách hỗ trợ tốt nhất cho phân tích cần thiết. Đây là một thư viện đơn giản, dễ tiếp cận và linh hoạt, phù hợp cho cả các nhà phát triển mới và có kinh nghiệm
thư viện gấu trúc
“Pandas” là viết tắt của Thư viện phân tích dữ liệu Python. Có vô số cách để
làm việc với dữ liệu trong PythonTùy thuộc vào cách bạn muốn thao tác với dữ liệu của mình, nhìn chung bạn cần thực hiện theo một số bước mã hóa đơn giản và chọn cú pháp phù hợp trong mã tổng thể. Tuy nhiên, đối với người mới bắt đầu, Pandas cần được cài đặt để tận dụng nó. Nó có sẵn trên tất cả các hệ thống, Windows, Mac OS và Linux, nhưng lưu ý rằng nó phụ thuộc vào thư viện NumPy Python, ngoài ra, nó có thể yêu cầu các thư viện bổ sung tùy thuộc vào tác vụ bạn cần thực hiện. Ví dụ, để vẽ đồ thị, Matplotlib sẽ được yêu cầuBiểu diễn dữ liệu bằng Pandas
Ví dụ: nếu bạn muốn biểu thị thông tin số trong biểu đồ đường, biểu đồ thanh, biểu đồ hình tròn hoặc sơ đồ phân tán, bạn chỉ cần làm theo các bước sau bằng cách sử dụng mã từ thư viện Python Pandas
Chuẩn bị dữ liệu. điều này có thể được thực hiện bằng cách nhập nó vào một bảng đơn giản hoặc trang tính Excel
Tạo DataFrame bằng cách chạy mã trong Python
Vẽ DataFrame bằng cú pháp có liên quan. trong bước này, bạn có thể chỉ định loại biểu đồ bằng cách sử dụng mã kind = ‘xxx’ [e. g. kind="line" sẽ tạo biểu đồ đường. ] Cú pháp Matplotlib sẽ cần trong bước này
Chạy mã và xem dữ liệu của bạn trở nên sống động trong biểu đồ hoặc đồ thị
Gấu trúc, Dữ liệu & Matplotlib
Bạn có thể tìm thấy mã Python hoàn chỉnh trực tuyến và trong thư viện Matolib, nhưng để thay đổi loại biểu đồ bạn đang tạo, chỉ cần sử dụng mã "loại" có liên quan. Kind = “bar” sẽ tạo biểu đồ thanh, trong khi kind = “scatter” sẽ tạo biểu đồ phân tán
Hợp nhất dữ liệu với Python
Một loại thao tác dữ liệu khác có thể được thực hiện bằng Pandas là hợp nhất các bộ dữ liệu. Giả sử bạn có 2 bộ dữ liệu cần được kết hợp. Bạn có thể làm theo các bước sau để tham gia hoặc hợp nhất chúng
Chuẩn bị dữ liệu. nếu bạn có hai bộ dữ liệu, thì bạn sẽ có hai bảng riêng biệt để bắt đầu
Tạo hai DataFrames bằng mã Python
Hợp nhất các Khung dữ liệu Pandas bằng mã tham gia
Chạy mã để xem kết quả
Tạo hai khung dữ liệu bằng mã Python
Có nhiều mã khác nhau để kết hợp dữ liệu trong Pandas DataFrames, tùy thuộc vào nơi bạn lấy thông tin và cách bạn muốn kết hợp nó. Chẳng hạn, bạn có thể sử dụng hàm hợp nhất - merge[] - để hợp nhất dữ liệu trên một cột chung, trong khi. mã tham gia [ ] sẽ cho phép bạn kết hợp dữ liệu trên một cột cụ thể
Tạo một bảng Pivot
Một hình thức thao tác dữ liệu rất phổ biến khác là tạo bảng tổng hợp. Bảng tổng hợp có thể được tạo bằng Microsoft Excel hoặc bảng tính, mặc dù cũng có thể tạo chúng dễ dàng bằng Python. Bảng tổng hợp được sử dụng để sắp xếp lại, sắp xếp hoặc tóm tắt dữ liệu và cho phép bạn tạo tổng quan về thông tin theo bất kỳ cách nào bạn muốn
Tùy thuộc vào những gì bạn cần sử dụng bảng tổng hợp, bạn có thể chọn mã Pandas phù hợp nhất cho công việc. Chẳng hạn, bạn có thể cần thao tác dữ liệu để xác định tổng số email được một nhóm gửi đến một công ty trong suốt một tháng hoặc tìm doanh số bán hàng trung bình cho Q1 ở một địa điểm nhất định. Bắt đầu lại, chuẩn bị dữ liệu trong một bảng đơn giản và thu thập dữ liệu đó bằng Python bằng cách chạy mã DataFrame. Tùy thuộc vào mục tiêu của bạn, sau đó bạn có thể sử dụng cú pháp Python có liên quan trong mã để tạo bảng tổng hợp
Bảng tổng hợp để vẽ đồ thị
Để tiến thêm một bước với Pandas, dữ liệu và kết quả từ bảng tổng hợp có thể được biểu diễn dưới dạng đồ thị hoặc biểu đồ, như đã nêu ở trên. Đối với điều này, bạn chỉ cần thêm một số thành phần bổ sung vào mã Pivot Table
Tính toán số liệu thống kê từ tệp CSV
Phân tích thống kê là một lĩnh vực khác mà Pandas, thao tác dữ liệu và python thường xuyên được sử dụng. Nếu bạn tạo một tệp bằng Python, bạn có thể sử dụng thư viện Pandas để tính toán số liệu thống kê - ví dụ: điều này có thể là để tìm mức lương trung bình trên toàn bộ công ty hoặc để đo độ lệch chuẩn của tiền lương giữa các nhóm khác nhau. Đầu tiên, sao chép tập dữ liệu của bạn vào tệp CSV và nhập nó vào Python bằng mẫu mã. Tiếp theo, chạy mã để tính toán số liệu thống kê. Khi bạn chạy mã có liên quan, bạn sẽ tạo một bản tóm tắt các kết quả mong muốn