Làm cách nào để đọc tệp excel trong gấu trúc Python?
Tại sao học làm việc với Excel với Python? . Từ các nhà phân tích, phó giám đốc bán hàng, CEO, nhiều chuyên gia khác nhau sử dụng Excel cho cả số liệu thống kê nhanh và xử lý dữ liệu nghiêm túc Show
Với việc Excel trở nên phổ biến, các chuyên gia dữ liệu phải làm quen với nó. Làm việc với dữ liệu bằng Python hoặc R mang lại những lợi thế lớn so với giao diện người dùng của Excel, vì vậy việc tìm cách làm việc với Excel bằng mã là rất quan trọng. Rất may, đã có sẵn một công cụ tuyệt vời để sử dụng Excel với Python có tên là 9Pandas có các phương pháp tuyệt vời để đọc tất cả các loại dữ liệu từ tệp Excel. Bạn cũng có thể xuất kết quả của mình từ gấu trúc trở lại Excel, nếu đối tượng dự định của bạn ưa thích điều đó. Pandas rất phù hợp cho các nhiệm vụ phân tích dữ liệu thông thường khác, chẳng hạn như
Pandas tự động hóa các tác vụ xử lý dữ liệu tốt hơn Excel, bao gồm cả xử lý các tệp Excel Trong hướng dẫn này, chúng tôi sẽ chỉ cho bạn cách làm việc với các tệp Excel trong pandas. Chúng tôi sẽ đề cập đến các khái niệm sau
Lưu ý rằng hướng dẫn này không đi sâu vào gấu trúc. Để khám phá gấu trúc nhiều hơn, hãy xem khóa học của chúng tôi Điều kiện tiên quyết của hệ thốngChúng tôi sẽ sử dụng Python 3 và Jupyter Notebook để minh họa mã trong hướng dẫn này. Ngoài Python và Jupyter Notebook, bạn sẽ cần các mô-đun Python sau
Có nhiều cách để thiết lập với tất cả các mô-đun. Chúng tôi đề cập đến ba trong số các tình huống phổ biến nhất bên dưới
Tập dữ liệuTrong hướng dẫn này, chúng tôi sẽ sử dụng tệp Excel nhiều trang mà chúng tôi đã tạo từ dữ liệu Điểm IMDB của Kaggle. Bạn có thể tải tập tin tại đây Tệp Excel của chúng tôi có ba trang tính. 'Những năm 1900', 'Những năm 2000' và 'Những năm 2010'. ' Mỗi trang có dữ liệu cho các bộ phim từ những năm đó Chúng tôi sẽ sử dụng tập dữ liệu này để tìm phân phối xếp hạng cho phim, trực quan hóa phim có xếp hạng và thu nhập ròng cao nhất và tính toán thông tin thống kê về phim. Chúng tôi sẽ phân tích và khám phá dữ liệu này bằng Python và gấu trúc, do đó chứng minh khả năng của gấu trúc để làm việc với dữ liệu Excel trong Python Đọc dữ liệu từ tệp ExcelTrước tiên chúng ta cần nhập dữ liệu từ tệp Excel vào pandas. Để làm điều đó, chúng tôi bắt đầu bằng cách nhập mô-đun pandas
Sau đó, chúng tôi sử dụng phương thức read_excel của gấu trúc để đọc dữ liệu từ tệp Excel. Cách dễ nhất để gọi phương thức này là chuyển tên tệp. Nếu không có tên trang tính nào được chỉ định thì nó sẽ đọc trang tính đầu tiên trong chỉ mục (như hình bên dưới) ________số 8Ở đây, phương pháp 6 đọc dữ liệu từ tệp Excel vào đối tượng DataFrame của pandas. Pandas mặc định lưu trữ dữ liệu trong DataFrames. Sau đó, chúng tôi đã lưu trữ Khung dữ liệu này vào một biến có tên là 7Pandas có một phương thức 8 tích hợp sẵn mà chúng ta có thể sử dụng để dễ dàng hiển thị một vài hàng đầu tiên trong DataFrame của mình. Nếu không có đối số nào được thông qua, nó sẽ hiển thị năm hàng đầu tiên. Nếu một số được thông qua, nó sẽ hiển thị số hàng bằng nhau từ trên xuống 2Tiêu đề NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhập…Lượt thích trên Facebook – Diễn viên 1Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – cast Tổng số lượt thích trên Facebook – Số lượng Facebook trong áp phíchNgười dùng bình chọnNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDB0Không khoan dung. Cuộc đấu tranh của tình yêu xuyên suốt các thời đại1916Phim chính kịch. Môn lịch sử. WarNaNUSAKhông được xếp hạng1231. 33385907. 0NaN…436229. 04816911107188869. 08. 01 Over the Hill to the Poorhouse 1920 Tội ác. KịchNaNUSANaN1101. 33100000. 03000000. 0…220. 0401511. 04. 82 Cuộc Diễu Hành Lớn Năm 1925 Chính Kịch. Lãng mạn. WarNaNUSAKhông được xếp hạng1511. 33245000. 0NaN…81126. 0108226048494548. 08. 33 Metropolis 1927 Kịch. Khoa học viễn tưởngĐứcĐứcKhông được xếp hạng1451. 336000000. 026435. 0…1362318. 0203120001111841413260. 08. 34 Chiếc hộp Pandora 1929 Tội ác. Kịch. Lãng mạnĐứcĐứcKhông được xếp hạng1101. 33NaN9950. 0…426203. 0455926174318471. 08. 0 5 hàng × 25 cột Các tệp Excel thường có nhiều trang tính và khả năng đọc một trang tính cụ thể hoặc tất cả chúng là rất quan trọng. Để thực hiện việc này dễ dàng, phương thức 6 của gấu trúc lấy một đối số có tên là 40 cho gấu trúc biết trang nào sẽ đọc trong dữ liệu từ. Đối với điều này, bạn có thể sử dụng tên trang tính hoặc số trang tính. Số tờ bắt đầu bằng số 0. Nếu đối số 40 không được cung cấp, nó sẽ mặc định bằng 0 và gấu trúc sẽ nhập trang tính đầu tiênTheo mặc định, gấu trúc sẽ tự động gán chỉ mục số hoặc nhãn hàng bắt đầu bằng 0. Bạn có thể muốn để nguyên chỉ mục mặc định nếu dữ liệu của bạn không có cột có giá trị duy nhất có thể đóng vai trò là chỉ mục tốt hơn. Trong trường hợp có một cột mà bạn cảm thấy sẽ phục vụ như một chỉ mục tốt hơn, bạn có thể ghi đè hành vi mặc định bằng cách đặt thuộc tính 42 thành một cột. Nó nhận một giá trị số để đặt một cột làm chỉ mục hoặc danh sách các giá trị số để tạo nhiều chỉ mụcTrong đoạn mã dưới đây, chúng tôi đang chọn cột đầu tiên, 'Tiêu đề', làm chỉ mục (chỉ mục = 0) bằng cách chuyển số 0 vào đối số 42
NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhậpĐạo diễn…Lượt thích trên Facebook – Diễn viên 1Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – cast Tổng số lượt thích trên Facebook – MovieFacenumber trong áp phíchNgười dùng bình chọnNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDBTiêu đềKhông khoan dung. Cuộc đấu tranh của tình yêu xuyên suốt các thời đại1916Phim chính kịch. Môn lịch sử. WarNaNUSAKhông được xếp hạng1231. 33385907. 0NaND. W. Griffith…436229. 04816911107188869. 08. 0 Over the Hill to the Poorhouse 1920 Tội ác. KịchNaNUSANaN1101. 33100000. 03000000. 0Harry F. Millarde…220. 0401511. 04. 8 Cuộc diễu hành lớn năm 1925. Lãng mạn. WarNaNUSAKhông được xếp hạng1511. 33245000. 0NaNKing Vidor…81126. 0108226048494548. 08. 3Metropolis1927Kịch. Khoa học viễn tưởngĐứcĐứcKhông được xếp hạng1451. 336000000. 026435. 0Fritz Lang…1362318. 0203120001111841413260. 08. 3 Chiếc hộp Pandora 1929 Tội ác. Kịch. Lãng mạnĐứcĐứcKhông được xếp hạng1101. 33NaN9950. 0Georg Wilhelm Pabst…426203. 0455926174318471. 08. 0 5 hàng × 24 cột Như bạn đã nhận thấy, tệp dữ liệu Excel của bạn có ba trang tính. Chúng tôi đã đọc trang đầu tiên trong DataFrame ở trên. Bây giờ, sử dụng cùng một cú pháp, chúng ta cũng sẽ đọc phần còn lại của hai trang tính
NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhậpĐạo diễn…Lượt thích trên Facebook – Diễn viên 1Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – cast Tổng số lượt thích trên Facebook – PhimFacesố trong áp phíchNgười dùng bình chọnNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDBTiêu đề102 Dalmatians2000Phiêu lưu. Hài kịch. Gia đìnhTiếng AnhUSAG100. 01. 8585000000. 066941559. 0Kevin Lima…2000. 0795. 0439. 0418237212641377. 084. 04. 828 Days2000Phim Hài. KịchTiếng AnhUSAPG-13103. 01. 3743000000. 037035515. 0Betty Thomas…12000. 010000. 0664. 0238640134597194. 0116. 06. 03 Strikes2000Phim hàiTiếng AnhUSAR82. 01. 856000000. 09821335. 0DJ Pooh…939. 0706. 0585. 033541181141510. 022. 04. 0Aberdeen2000DramaTiếng AnhUKNaN106. 01. 856500000. 064148. 0Hans Petter Moland…844. 02. 00. 08462600260135. 028. 07. 3 Tất Cả Những Con Ngựa Xinh Đẹp 2000. Lãng mạn. Miền TâyTiếng AnhUSAPG-13220. 02. 3557000000. 015527125. Billy Bob Thornton…13000. 0861. 0820. 015006652211388183. 085. 05. 8 5 hàng × 24 cột 4NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhậpĐạo diễn…Lượt thích trên Facebook – Diễn viên 1Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – diễn viên Tổng số lượt thích trên Facebook – MovieFacenumber trong áp phíchNgười dùng bình chọnNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDBTiêu đề127 giờ2010. 0Phiêu lưu. Tiểu sử. Kịch. Kinh dịTiếng AnhUSAR94. 01. 8518000000. 018329466. 0Danny Boyle…11000. 0642. 0223. 011984630000. 0279179440. 0450. 07. 63 Sân Sau2010. 0DramaTiếng AnhUSAR88. 0NaN300000. 0NaNEric Mendelsohn…795. 0659. 0301. 01884920. 055423. 020. 05. 232010. 0Hài kịch. Kịch. Lãng mạnĐứcĐứcUnrated119. 02. 35NaN59774. 0Tom Tykwer…24. 020. 09. 06920000. 0421218. 076. 06. 88. Đề xuất Mặc Môn2010. 0Phim tài liệuTiếng AnhUSAR80. 01. 782500000. 099851. 0Bò sậy…191. 012. 05. 021000. 0113830. 028. 07. 1A Chuyện Rùa. Cuộc Phiêu Lưu Của Sammy 2010. 0Phiêu lưu. hoạt hình. Gia đìnhTiếng AnhPhápPG88. 02. 35NaNNaNBen Stassen…783. 0749. 0602. 0387402. 0538522. 056. 06. 1 5 hàng × 24 cột Vì cả ba trang tính đều có dữ liệu giống nhau nhưng đối với các bản ghi phim khác nhau, chúng tôi sẽ tạo một Khung dữ liệu duy nhất từ cả ba Khung dữ liệu mà chúng tôi đã tạo ở trên. Chúng tôi sẽ sử dụng phương pháp pandas 44 cho việc này và chuyển vào tên của ba DataFrame mà chúng tôi vừa tạo và gán kết quả cho một đối tượng DataFrame mới, 7. Bằng cách giữ tên DataFrame giống như trước đây, chúng tôi sẽ ghi đè lên DataFrame đã tạo trước đó 3Chúng tôi có thể kiểm tra xem sự kết hợp này có bằng cách kiểm tra số lượng hàng trong DataFrame được kết hợp bằng cách gọi phương thức 46 trên đó sẽ cung cấp cho chúng tôi số lượng hàng và cột 5 6Sử dụng lớp ExcelFile để đọc nhiều sheetChúng ta cũng có thể sử dụng lớp ExcelFile để làm việc với nhiều sheet từ cùng một file Excel. Trước tiên, chúng tôi bọc tệp Excel bằng cách sử dụng 47 và sau đó chuyển nó sang phương thức 6 9Nếu bạn đang đọc một tệp Excel có nhiều trang tính và đang tạo nhiều DataFrames, thì 47 sẽ thuận tiện và hiệu quả hơn so với 6. Với ExcelFile, bạn chỉ cần truyền tệp Excel một lần và sau đó bạn có thể sử dụng nó để lấy DataFrames. Khi sử dụng 6, bạn chuyển tệp Excel mỗi lần và do đó tệp được tải lại cho mỗi trang tính. Đây có thể là một lực cản hiệu suất lớn nếu tệp Excel có nhiều trang tính với số lượng hàng lớnKhám phá dữ liệuBây giờ chúng tôi đã đọc bộ dữ liệu phim từ tệp Excel của mình, chúng tôi có thể bắt đầu khám phá nó bằng pandas. DataFrame của gấu trúc lưu trữ dữ liệu ở định dạng bảng, giống như cách Excel hiển thị dữ liệu trong trang tính. Pandas có rất nhiều phương thức tích hợp để khám phá DataFrame mà chúng tôi đã tạo từ tệp Excel mà chúng tôi vừa đọc trong Chúng tôi đã giới thiệu phương pháp 32 trong phần trước hiển thị một vài hàng từ trên cùng từ DataFrame. Hãy xem xét thêm một vài phương pháp hữu ích khi khám phá tập dữ liệuChúng ta có thể sử dụng phương thức 46 để tìm số hàng và số cột cho DataFrame 5 1Điều này cho chúng tôi biết tệp Excel của chúng tôi có 5042 bản ghi và 25 cột hoặc quan sát. Điều này có thể hữu ích trong việc báo cáo số lượng bản ghi và số cột, đồng thời so sánh số liệu đó với tập dữ liệu nguồn Chúng ta có thể sử dụng phương pháp 34 để xem các hàng dưới cùng. Nếu không có tham số nào được truyền, chỉ năm hàng dưới cùng được trả về 2Tiêu đề NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhập…Lượt thích trên Facebook – Diễn viên 1Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – cast Tổng số lượt thích trên Facebook – PhimFacebooksố trong áp phíchNgười dùng bình chọnNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDB1599War & PeaceNaNDrama. Môn lịch sử. Lãng mạn. Chiến tranhTiếng AnhUKTV-14NaN16. 00NaNNaN…1000. 0888. 0502. 04528110001. 0927744. 010. 08. 21600WingsNaNChài kịch. KịchTiếng AnhMỹNaN30. 01. 33NaNNaN…685. 0511. 0424. 0188410005. 0764656. 019. 07. 31601Wolf CreekNaNDPhim. Kinh dị. Kinh dịTiếng AnhÚcNaNNaN2. 00NaNNaN…511. 0457. 0206. 016179540. 07266. 02. 07. 11602Wuthering HeightsNaNDPhim. Lãng mạnTiếng AnhUKNaN142. 0NaNNaNNaN…27000. 0698. 0427. 02919602. 0605333. 09. 07. 71603Yu-Gi-Oh. Duel MonstersNaNAHành động. Cuộc phiêu lưu. hoạt hình. Gia đình. Tưởng tượngNhật BảnNhật BảnNaN24. 0NaNNaNNaN…0. 0NaNNaN01240. 01241751. 06. 07. 0 5 hàng × 25 cột Trong Excel, bạn có thể sắp xếp trang tính dựa trên các giá trị trong một hoặc nhiều cột. Trong pandas, bạn có thể làm điều tương tự với phương thức 35. Ví dụ: hãy sắp xếp DataFrame phim của chúng tôi dựa trên cột Tổng thu nhập 3Vì chúng tôi có dữ liệu được sắp xếp theo các giá trị trong một cột, nên chúng tôi có thể thực hiện một số điều thú vị với nó. Ví dụ: chúng tôi có thể hiển thị 10 bộ phim hàng đầu theo Tổng thu nhập 4 5Chúng tôi cũng có thể tạo cốt truyện cho 10 bộ phim hàng đầu theo Tổng thu nhập. Pandas giúp bạn dễ dàng trực quan hóa dữ liệu của mình bằng các sơ đồ và biểu đồ thông qua matplotlib, một thư viện trực quan hóa dữ liệu phổ biến. Với một vài dòng mã, bạn có thể bắt đầu vẽ đồ thị. Hơn nữa, các ô matplotlib hoạt động tốt bên trong Jupyter Notebooks vì bạn có thể thay thế các ô ngay dưới mã Đầu tiên, chúng tôi nhập mô-đun matplotlib và đặt matplotlib để hiển thị các ô ngay trong Jupyter Notebook 6Chúng tôi sẽ vẽ một biểu đồ thanh trong đó mỗi thanh sẽ đại diện cho một trong 10 bộ phim hàng đầu. Chúng ta có thể làm điều này bằng cách gọi phương thức cốt truyện và đặt đối số 36 thành 37. Điều này yêu cầu 38 vẽ một biểu đồ thanh ngang 7Hãy tạo một biểu đồ Điểm IMDB để kiểm tra sự phân phối Điểm IMDB trên tất cả các phim. Biểu đồ là một cách tốt để hình dung sự phân bố của một tập dữ liệu. Chúng tôi sử dụng phương pháp 39 trên chuỗi Điểm IMDB từ DataFrame phim của chúng tôi và chuyển đối số cho nó 8Trực quan hóa dữ liệu này cho thấy rằng hầu hết các Điểm IMDB nằm trong khoảng từ sáu đến tám Nhận thông tin thống kê về dữ liệuPandas có một số phương pháp rất tiện dụng để xem dữ liệu thống kê về tập dữ liệu của chúng tôi. Ví dụ: chúng ta có thể sử dụng phương pháp 50 để lấy tóm tắt thống kê của tập dữ liệu 9Năm Thời lượng Tỷ lệ khung hình Ngân sách Tổng thu nhập Lượt thích trên Facebook – Đạo diễn Lượt thích trên Facebook – Diễn viên 1 Lượt thích trên Facebook – Diễn viên 2 Lượt thích trên Facebook – Diễn viên 3 Lượt thích trên Facebook – diễn viên Tổng số lượt thích trên Facebook – MovieFacenumber trong áp phích Bình chọn của người dùng Đánh giá của người dùng Đánh giá của Crtiics Điểm IMDB4935. 0000005028. 0000004714. 0000004. 551000e+034. 159000e+034938. 0000005035. 0000005029. 0000005020. 0000005042. 0000005042. 0000005029. 0000005. 042000e+035022. 0000004993. 0000005042. 000000mean2002. 470517107. 2010742. 2204033. 975262e+074. 846841e+07686. 6217096561. 3239321652. 080533645. 0097619700. 9591437527. 4571601. 3714468. 368475e+04272. 770808140. 1942726. 442007std12. 47459925. 1974411. 3851132. 061149e+086. 845299e+072813. 60240515021. 9776354042. 7746851665. 04172818165. 10192519322. 0705372. 0136831. 384940e+05377. 982886121. 6016751. 125189min1916. 0000007. 0000001. 1800002. 180000e+021. 620000e+020. 0000000. 0000000. 0000000. 0000000. 0000000. 0000000. 0000005. 000000e+001. 0000001. 0000001. 60000025%1999. 00000093. 0000001. 8500006. 000000e+065. 340988e+067. 000000614. 500000281. 000000133. 0000001411. 2500000. 0000000. 0000008. 599250e+0365. 00000050. 0000005. 80000050%2005. 000000103. 0000002. 3500002. 000000e+072. 551750e+0749. 000000988. 000000595. 000000371. 5000003091. 000000166. 0000001. 0000003. 437100e+04156. 000000110. 0000006. 60000075%2011. 000000118. 0000002. 3500004. 500000e+076. 230944e+07194. 75000011000. 000000918. 000000636. 00000013758. 7500003000. 0000002. 0000009. 634700e+04326. 000000195. 0000007. 200000max2016. 000000511. 00000016. 0000001. 221550e+107. 605058e+0823000. 000000640000. 000000137000. 00000023000. 000000656730. 000000349000. 00000043. 0000001. 689764e+065060. 000000813. 0000009. 500000 Phương thức 50 hiển thị thông tin bên dưới cho từng cột
Xin lưu ý rằng thông tin này sẽ chỉ được tính cho các giá trị số Chúng ta cũng có thể sử dụng phương pháp tương ứng để truy cập từng thông tin này. Ví dụ: để lấy giá trị trung bình của một cột cụ thể, bạn có thể sử dụng phương thức 52 trên cột đó 20 21Cũng giống như mean, có các phương thức có sẵn cho từng thông tin thống kê mà chúng tôi muốn truy cập. Bạn có thể đọc về các phương pháp này trong bảng cheat pandas miễn phí của chúng tôi Đọc các tệp không có tiêu đề và bỏ qua các bản ghiTrước đó trong hướng dẫn này, chúng ta đã thấy một số cách để đọc một loại tệp Excel cụ thể có tiêu đề và không có hàng nào cần bỏ qua. Đôi khi, trang tính Excel không có bất kỳ hàng tiêu đề nào. Đối với những trường hợp như vậy, bạn có thể yêu cầu gấu trúc không coi hàng đầu tiên là tên tiêu đề hoặc tên cột. Và nếu một vài hàng đầu tiên của trang tính Excel chứa dữ liệu không nên đọc, bạn có thể yêu cầu phương thức 6 bỏ qua một số hàng nhất định, bắt đầu từ trên cùngVí dụ: hãy xem vài hàng trên cùng của tệp Excel này Tệp này rõ ràng là không có tiêu đề và bốn hàng đầu tiên không phải là bản ghi thực và do đó không nên đọc trong. Chúng tôi có thể cho read_excel biết không có tiêu đề nào bằng cách đặt đối số 54 thành 55 và chúng tôi có thể bỏ qua bốn hàng đầu tiên bằng cách đặt đối số 56 thành bốn 220123456789…151617181920212223240Metropolis1927Kịch. Khoa học viễn tưởngĐứcĐứcKhông được xếp hạng1451. 336000000. 026435. 0…1362318. 0203120001111841413260. 08. 31 Chiếc hộp Pandora 1929 Tội ác. Kịch. Lãng mạnĐứcĐứcKhông được xếp hạng1101. 33NaN9950. 0…426203. 0455926174318471. 08. 02 Vở nhạc kịch giai điệu Broadway 1929. Lãng mạnTiếng AnhMỹĐã qua1001. 37379000. 02808000. 0…77284. 0109167845467136. 06. 33 Thiên Thần Địa Ngục 1930 Chính Kịch. Chiến tranhTiếng AnhHoa KỳĐã qua961. 203950000. 0NaN…431124. 0457279137535335. 07. 84A Giã Từ Vũ Khí 1932 Chính Kịch. Lãng mạn. Chiến tranhTiếng AnhMỹUnrated791. 37800000. 0NaN…99816499. 01284213135194642. 06. 6 5 hàng × 25 cột Chúng tôi đã bỏ qua bốn hàng từ trang tính và không sử dụng hàng nào làm tiêu đề. Ngoài ra, lưu ý rằng người ta có thể kết hợp các tùy chọn khác nhau trong một câu lệnh đọc. Để bỏ qua các hàng ở cuối trang tính, bạn có thể sử dụng tùy chọn 57, hoạt động giống như 56, điểm khác biệt duy nhất là các hàng được tính từ dưới lên trênTên cột trong DataFrame trước đó là số và được gấu trúc phân bổ làm mặc định. Chúng ta có thể đổi tên tên cột thành tên mô tả bằng cách gọi phương thức 59 trên DataFrame và chuyển tên cột dưới dạng danh sách 23Tiêu đề NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhập…Lượt thích trên Facebook – Diễn viên 1Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – cast Tổng số lượt thích trên Facebook – MovieFacenumber trong áp phíchNgười dùng bình chọnNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDB0Metropolis1927Drama. Khoa học viễn tưởngĐứcĐứcKhông được xếp hạng1451. 336000000. 026435. 0…1362318. 0203120001111841413260. 08. 31 Chiếc hộp Pandora 1929 Tội ác. Kịch. Lãng mạnĐứcĐứcKhông được xếp hạng1101. 33NaN9950. 0…426203. 0455926174318471. 08. 02 Vở nhạc kịch giai điệu Broadway 1929. Lãng mạnTiếng AnhMỹĐã qua1001. 37379000. 02808000. 0…77284. 0109167845467136. 06. 33 Thiên Thần Địa Ngục 1930 Chính Kịch. Chiến tranhTiếng AnhHoa KỳĐã qua961. 203950000. 0NaN…431124. 0457279137535335. 07. 84A Giã Từ Vũ Khí 1932 Chính Kịch. Lãng mạn. Chiến tranhTiếng AnhMỹUnrated791. 37800000. 0NaN…99816499. 01284213135194642. 06. 6 5 hàng × 25 cột Bây giờ chúng ta đã biết cách đọc một tập hợp con các hàng từ tệp Excel, chúng ta có thể tìm hiểu cách đọc một tập hợp con các cột Đọc một tập hợp con của các cộtMặc dù read_excel mặc định đọc và nhập tất cả các cột, nhưng bạn có thể chọn chỉ nhập một số cột nhất định. Bằng cách chuyển parse_cols=6, chúng tôi yêu cầu phương thức 6 chỉ đọc các cột đầu tiên cho đến khi lập chỉ mục sáu hoặc bảy cột đầu tiên (cột đầu tiên được lập chỉ mục bằng 0) 24Tiêu đềNămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượng0Không khoan dung. Cuộc đấu tranh của tình yêu xuyên suốt các thời đại1916Phim chính kịch. Môn lịch sử. WarNaNUSAKhông được xếp hạng1231 Vượt qua ngọn đồi đến ngôi nhà nghèo 1920 Tội ác. KịchNaNUSANaN1102Cuộc diễu hành lớn1925Kịch. Lãng mạn. WarNaNUSAKhông được xếp hạng1513Metropolis1927Chính kịch. Khoa học viễn tưởngĐứcĐứcKhông được xếp hạng1454Hộp Pandora1929Tội phạm. Kịch. Lãng mạnĐứcĐứcKhông được xếp hạng110 Ngoài ra, bạn có thể chuyển vào một danh sách các số, danh sách này sẽ cho phép bạn nhập các cột tại các chỉ mục cụ thể Áp dụng công thức trên các cộtMột trong những tính năng được sử dụng nhiều của Excel là áp dụng công thức để tạo cột mới từ giá trị cột hiện có. Trong tệp Excel của chúng tôi, chúng tôi có các cột Tổng thu nhập và Ngân sách. Chúng tôi có thể nhận được Thu nhập ròng bằng cách trừ Ngân sách khỏi Tổng thu nhập. Sau đó, chúng tôi có thể áp dụng công thức này trong tệp Excel cho tất cả các hàng. Chúng ta cũng có thể làm điều này trong gấu trúc như hình dưới đây 25Ở trên, chúng tôi đã sử dụng gấu trúc để tạo một cột mới có tên là Thu nhập ròng và điền vào cột đó sự khác biệt giữa Tổng thu nhập và Ngân sách. Điều đáng chú ý là sự khác biệt ở đây về cách xử lý các công thức trong Excel so với pandas. Trong Excel, một công thức tồn tại trong ô và cập nhật khi dữ liệu thay đổi – với Python, các phép tính được thực hiện và các giá trị được lưu trữ – nếu Tổng Thu nhập cho một bộ phim được thay đổi theo cách thủ công, thì Thu nhập Ròng sẽ không được cập nhật Hãy sử dụng phương pháp 35 để sắp xếp dữ liệu theo cột mới mà chúng tôi đã tạo và trực quan hóa 10 bộ phim hàng đầu theo Thu nhập ròng 26Bảng Pivot trong gấu trúcNgười dùng Excel nâng cao cũng thường sử dụng bảng tổng hợp. Bảng tổng hợp tóm tắt dữ liệu của một bảng khác bằng cách nhóm dữ liệu trên một chỉ mục và áp dụng các thao tác như sắp xếp, tổng hợp hoặc tính trung bình. Bạn cũng có thể sử dụng tính năng này trong pandas Trước tiên, chúng ta cần xác định cột hoặc nhiều cột sẽ đóng vai trò là chỉ mục và (các) cột sẽ áp dụng công thức tóm tắt. Hãy bắt đầu từ việc nhỏ, bằng cách chọn Năm làm cột chỉ mục và Tổng thu nhập làm cột tóm tắt và tạo một Khung dữ liệu riêng từ dữ liệu này 27Năm Tổng thu nhập01916. 0NaN11920. 03000000. 021925. 0NaN31927. 026435. 041929. 09950. 0 Bây giờ chúng tôi gọi 62 trên tập hợp con dữ liệu này. Phương thức 62 nhận tham số 64. Như đã đề cập, chúng tôi muốn sử dụng Năm làm chỉ mục 28Tổng thu nhập năm 1916. 0NaN1920. 03000000. 01925. 0NaN1927. 026435. 01929. 01408975. 0 Điều này đã cho chúng tôi một bảng tổng hợp với việc nhóm theo Năm và tóm tắt về tổng Thu nhập gộp. Lưu ý, chúng tôi không cần chỉ định rõ ràng cột Tổng thu nhập vì gấu trúc đã tự động xác định cột đó là các giá trị để áp dụng tổng kết Chúng tôi có thể sử dụng bảng tổng hợp này để tạo một số trực quan hóa dữ liệu. Chúng ta có thể gọi phương thức 39 trên DataFrame để tạo biểu đồ đường và gọi phương thức 66 để hiển thị biểu đồ trong sổ ghi chép 29Chúng tôi đã thấy cách xoay vòng với một cột làm chỉ mục. Mọi thứ sẽ trở nên thú vị hơn nếu chúng ta có thể sử dụng nhiều cột. Hãy tạo một tập hợp con DataFrame khác nhưng lần này chúng tôi sẽ chọn các cột, Quốc gia, Ngôn ngữ và Tổng thu nhập 0Quốc giaNgôn ngữTổng thu nhập0USANaNNaN1USANaN3000000. 02USANaNNaN3ĐứcTiếng Đức26435. 04ĐứcTiếng Đức9950. 0 Chúng tôi sẽ sử dụng các cột Quốc gia và Ngôn ngữ làm chỉ mục cho bảng tổng hợp. Chúng tôi sẽ sử dụng Tổng thu nhập làm bảng tóm tắt, tuy nhiên, chúng tôi không cần chỉ định điều này một cách rõ ràng như chúng tôi đã thấy trước đó 1Tổng thu nhậpQuốc giaNgôn ngữAfghanistanDari1. 127331e+06ArgentinaTây Ban Nha7. 230936e+06ArubaTiếng Anh1. 007614e+07ÚcThổ dân6. 165429e+06Dzongkha5. 052950e+05 Hãy trực quan hóa bảng tổng hợp này bằng biểu đồ thanh. Vì vẫn còn vài trăm bản ghi trong bảng tổng hợp này, chúng tôi sẽ chỉ vẽ một vài trong số chúng 2Xuất kết quả ra ExcelNếu bạn sắp làm việc với những đồng nghiệp sử dụng Excel, thì việc lưu các tệp Excel ra khỏi gấu trúc là rất quan trọng. Bạn có thể xuất hoặc ghi DataFrame của pandas vào tệp Excel bằng phương pháp pandas 67. Pandas sử dụng mô-đun Python 68 bên trong để ghi vào tệp Excel. Phương thức 67 được gọi trên DataFrame mà chúng tôi muốn xuất. Chúng tôi cũng cần chuyển tên tệp mà DataFrame này sẽ được ghi 3Theo mặc định, chỉ mục cũng được lưu vào tệp đầu ra. Tuy nhiên, đôi khi chỉ mục không cung cấp bất kỳ thông tin hữu ích nào. Ví dụ: Khung dữ liệu 7 có chỉ mục tăng tự động bằng số, không phải là một phần của dữ liệu Excel gốc 2Tiêu đề NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhập…Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – truyền Tổng số lượt thích trên Facebook – PhimFacenumber trong áp phích Bình chọn của người dùngNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDBThu nhập ròng0Không khoan dung. Cuộc đấu tranh của tình yêu trong suốt các thời đại1916. 0Chính kịch. Môn lịch sử. WarNaNUSAKhông được xếp hạng123. 01. 33385907. 0NaN…22. 09. 04816911. 01071888. 069. 08. 0NaN1Qua đồi đến nhà nghèo1920. 0Tội phạm. KịchNaNUSANaN110. 01. 33100000. 03000000. 0…2. 00. 0401. 051. 01. 04. 82900000. 02 Cuộc diễu hành lớn 1925. 0Chính kịch. Lãng mạn. WarNaNUSAKhông được xếp hạng151. 01. 33245000. 0NaN…12. 06. 01082260. 0484945. 048. 08. 3NaN3Metropolis1927. 0Chính kịch. Khoa học viễn tưởngĐứcĐứcKhông được xếp hạng145. 01. 336000000. 026435. 0…23. 018. 0203120001. 0111841413. 0260. 08. 3-5973565. 04 Chiếc hộp Pandora 1929. 0Tội phạm. Kịch. Lãng mạnĐứcĐứcKhông được xếp hạng110. 01. 33NaN9950. 0…20. 03. 04559261. 0743184. 071. 08. 0NaN 5 hàng × 26 cột Bạn có thể chọn bỏ qua chỉ mục bằng cách chuyển qua chỉ mục-Sai 5Chúng tôi cần có khả năng làm cho các tệp đầu ra trông đẹp mắt trước khi có thể gửi nó cho đồng nghiệp của mình. Chúng ta có thể sử dụng pandas lớp 91 cùng với mô-đun 92 Python để áp dụng định dạngChúng ta có thể sử dụng các tùy chọn đầu ra nâng cao này bằng cách tạo một đối tượng 91 và sử dụng đối tượng này để ghi vào tệp EXcel 6Chúng tôi có thể áp dụng các tùy chỉnh bằng cách gọi 94 trên sổ làm việc mà chúng tôi đang ghi vào. Ở đây chúng tôi đang đặt định dạng tiêu đề là in đậm 7Cuối cùng, chúng tôi lưu tệp đầu ra bằng cách gọi phương thức 95 trên đối tượng nhà văn 8Ví dụ: chúng tôi đã lưu dữ liệu với tiêu đề cột được in đậm. Và file đã lưu có dạng như hình bên dưới Như thế này, người ta có thể sử dụng 92 để áp dụng các định dạng khác nhau cho tệp Excel đầu raPhần kết luậnPandas không phải là sự thay thế cho Excel. Cả hai công cụ đều có vị trí riêng trong quy trình phân tích dữ liệu và có thể là những công cụ đồng hành rất tuyệt vời. Như chúng tôi đã trình bày, gấu trúc có thể thực hiện nhiều thao tác và phân tích dữ liệu phức tạp, tùy thuộc vào nhu cầu và chuyên môn của bạn, có thể vượt xa những gì bạn có thể đạt được nếu chỉ sử dụng Excel. Một trong những lợi ích chính của việc sử dụng Python và pandas trên Excel là nó giúp bạn tự động hóa quá trình xử lý tệp Excel bằng cách viết tập lệnh và tích hợp với quy trình xử lý dữ liệu tự động của bạn. Pandas cũng có các phương pháp tuyệt vời để đọc tất cả các loại dữ liệu từ tệp Excel. Bạn cũng có thể xuất kết quả của mình từ gấu trúc trở lại Excel nếu đối tượng dự định của bạn ưa thích điều đó Mặt khác, Excel là một công cụ dữ liệu được sử dụng rộng rãi, không nên bỏ qua nó. Có được chuyên môn về cả pandas và Excel và làm cho chúng hoạt động cùng nhau mang lại cho bạn những kỹ năng có thể giúp bạn nổi bật trong tổ chức của mình Nếu bạn muốn tìm hiểu thêm về chủ đề này, hãy xem khóa học Cơ bản về Pandas và NumPy tương tác của Dataquest và các đường dẫn Nhà phân tích dữ liệu bằng Python và Nhà khoa học dữ liệu trong Python của chúng tôi sẽ giúp bạn sẵn sàng cho công việc trong khoảng 6 tháng Học kỹ năng dữ liệuĐược tăng lương tiếp theo hoặc chuyển sang sự nghiệp trong khoa học dữ liệu bằng cách học các kỹ năng dữ liệu Đăng ký tài khoản miễn phí và thử các khóa học tương tác của chúng tôi về Python, R, SQL, v.v. Đăng ký ngay (Nó miễn phí) excelintermediateTìm hiểu PythonPandaspythontutorialHướng dẫn Giới thiệu về tác giả Harish GargDoanh nhân, Nhà đào tạo kỹ thuật và Nhà phát triển phần mềm hàng đầu có nhiều kinh nghiệm về Khoa học dữ liệu, Python, Web và Phát triển di động. Đam mê Khoa học dữ liệu và Trí tuệ nhân tạo |