Làm cách nào để đọc tệp excel trong gấu trúc Python?

Tại sao học làm việc với Excel với Python? . Từ các nhà phân tích, phó giám đốc bán hàng, CEO, nhiều chuyên gia khác nhau sử dụng Excel cho cả số liệu thống kê nhanh và xử lý dữ liệu nghiêm túc

Với việc Excel trở nên phổ biến, các chuyên gia dữ liệu phải làm quen với nó. Làm việc với dữ liệu bằng Python hoặc R mang lại những lợi thế lớn so với giao diện người dùng của Excel, vì vậy việc tìm cách làm việc với Excel bằng mã là rất quan trọng. Rất may, đã có sẵn một công cụ tuyệt vời để sử dụng Excel với Python có tên là

movies_sheet1 = pd.read_excel(excel_file, sheetname=0, index_col=0)
movies_sheet1.head()
9

Pandas có các phương pháp tuyệt vời để đọc tất cả các loại dữ liệu từ tệp Excel. Bạn cũng có thể xuất kết quả của mình từ gấu trúc trở lại Excel, nếu đối tượng dự định của bạn ưa thích điều đó. Pandas rất phù hợp cho các nhiệm vụ phân tích dữ liệu thông thường khác, chẳng hạn như

  • Phân tích dữ liệu khám phá nhanh (EDA)
  • vẽ lô hấp dẫn
  • cung cấp dữ liệu vào các công cụ học máy như scikit-learning
  • xây dựng các mô hình máy học trên dữ liệu của bạn
  • lấy dữ liệu đã được làm sạch và xử lý cho bất kỳ công cụ dữ liệu nào

Pandas tự động hóa các tác vụ xử lý dữ liệu tốt hơn Excel, bao gồm cả xử lý các tệp Excel

Trong hướng dẫn này, chúng tôi sẽ chỉ cho bạn cách làm việc với các tệp Excel trong pandas. Chúng tôi sẽ đề cập đến các khái niệm sau

  • thiết lập máy tính của bạn với phần mềm cần thiết
  • đọc dữ liệu từ tệp Excel vào gấu trúc
  • khám phá dữ liệu trong gấu trúc
  • trực quan hóa dữ liệu trong gấu trúc bằng thư viện trực quan hóa matplotlib
  • thao tác và định hình lại dữ liệu trong gấu trúc
  • di chuyển dữ liệu từ pandas vào Excel

Lưu ý rằng hướng dẫn này không đi sâu vào gấu trúc. Để khám phá gấu trúc nhiều hơn, hãy xem khóa học của chúng tôi

Điều kiện tiên quyết của hệ thống

Chúng tôi sẽ sử dụng Python 3 và Jupyter Notebook để minh họa mã trong hướng dẫn này. Ngoài Python và Jupyter Notebook, bạn sẽ cần các mô-đun Python sau

  • matplotlib – trực quan hóa dữ liệu
  • NumPy – chức năng dữ liệu số
  • OpenPyXL – đọc/ghi tệp Excel 2010 xlsx/xlsm
  • pandas – nhập dữ liệu, dọn dẹp, khám phá và phân tích
  • xlrd – đọc dữ liệu Excel
  • xlwt – ghi vào Excel
  • XlsxWriter – ghi vào tệp Excel (xlsx)

Có nhiều cách để thiết lập với tất cả các mô-đun. Chúng tôi đề cập đến ba trong số các tình huống phổ biến nhất bên dưới

  • Nếu bạn đã cài đặt Python qua trình quản lý gói Anaconda, bạn có thể cài đặt các mô-đun cần thiết bằng lệnh
    movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
    movies_sheet2.head()
    0. Ví dụ: để cài đặt pandas, bạn sẽ thực hiện lệnh –
    movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
    movies_sheet2.head()
    1
  • Nếu bạn đã cài đặt Python thông thường, không phải Anaconda trên máy tính, bạn có thể cài đặt các mô-đun cần thiết bằng cách sử dụng
    movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
    movies_sheet2.head()
    2. Mở chương trình dòng lệnh của bạn và thực hiện lệnh
    movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
    movies_sheet2.head()
    3 để cài đặt mô-đun. Bạn nên thay thế
    movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
    movies_sheet2.head()
    4 bằng tên thật của mô-đun mà bạn đang cố cài đặt. Ví dụ: để cài đặt pandas, bạn sẽ thực hiện lệnh –
    movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
    movies_sheet2.head()
    5
  • Nếu bạn chưa cài đặt Python, bạn nên tải nó thông qua trình quản lý gói Anaconda. Anaconda cung cấp trình cài đặt cho Máy tính Windows, Mac và Linux. Nếu bạn chọn bộ cài đặt đầy đủ, bạn sẽ nhận được tất cả các mô-đun bạn cần, cùng với Python và pandas trong một gói duy nhất. Đây là cách dễ nhất và nhanh nhất để bắt đầu

Tập dữ liệu

Trong hướng dẫn này, chúng tôi sẽ sử dụng tệp Excel nhiều trang mà chúng tôi đã tạo từ dữ liệu Điểm IMDB của Kaggle. Bạn có thể tải tập tin tại đây

Làm cách nào để đọc tệp excel trong gấu trúc Python?

Tệp Excel của chúng tôi có ba trang tính. 'Những năm 1900', 'Những năm 2000' và 'Những năm 2010'. ' Mỗi trang có dữ liệu cho các bộ phim từ những năm đó

Chúng tôi sẽ sử dụng tập dữ liệu này để tìm phân phối xếp hạng cho phim, trực quan hóa phim có xếp hạng và thu nhập ròng cao nhất và tính toán thông tin thống kê về phim. Chúng tôi sẽ phân tích và khám phá dữ liệu này bằng Python và gấu trúc, do đó chứng minh khả năng của gấu trúc để làm việc với dữ liệu Excel trong Python

Đọc dữ liệu từ tệp Excel

Trước tiên chúng ta cần nhập dữ liệu từ tệp Excel vào pandas. Để làm điều đó, chúng tôi bắt đầu bằng cách nhập mô-đun pandas

import pandas as pd

Sau đó, chúng tôi sử dụng phương thức read_excel của gấu trúc để đọc dữ liệu từ tệp Excel. Cách dễ nhất để gọi phương thức này là chuyển tên tệp. Nếu không có tên trang tính nào được chỉ định thì nó sẽ đọc trang tính đầu tiên trong chỉ mục (như hình bên dưới)

________số 8

Ở đây, phương pháp

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
6 đọc dữ liệu từ tệp Excel vào đối tượng DataFrame của pandas. Pandas mặc định lưu trữ dữ liệu trong DataFrames. Sau đó, chúng tôi đã lưu trữ Khung dữ liệu này vào một biến có tên là
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
7

Pandas có một phương thức

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
8 tích hợp sẵn mà chúng ta có thể sử dụng để dễ dàng hiển thị một vài hàng đầu tiên trong DataFrame của mình. Nếu không có đối số nào được thông qua, nó sẽ hiển thị năm hàng đầu tiên. Nếu một số được thông qua, nó sẽ hiển thị số hàng bằng nhau từ trên xuống

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
2

Tiêu đề NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhập…Lượt thích trên Facebook – Diễn viên 1Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – cast Tổng số lượt thích trên Facebook – Số lượng Facebook trong áp phíchNgười dùng bình chọnNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDB0Không khoan dung. Cuộc đấu tranh của tình yêu xuyên suốt các thời đại1916Phim chính kịch. Môn lịch sử. WarNaNUSAKhông được xếp hạng1231. 33385907. 0NaN…436229. 04816911107188869. 08. 01 Over the Hill to the Poorhouse 1920 Tội ác. KịchNaNUSANaN1101. 33100000. 03000000. 0…220. 0401511. 04. 82 Cuộc Diễu Hành Lớn Năm 1925 Chính Kịch. Lãng mạn. WarNaNUSAKhông được xếp hạng1511. 33245000. 0NaN…81126. 0108226048494548. 08. 33 Metropolis 1927 Kịch. Khoa học viễn tưởngĐứcĐứcKhông được xếp hạng1451. 336000000. 026435. 0…1362318. 0203120001111841413260. 08. 34 Chiếc hộp Pandora 1929 Tội ác. Kịch. Lãng mạnĐứcĐứcKhông được xếp hạng1101. 33NaN9950. 0…426203. 0455926174318471. 08. 0

5 hàng × 25 cột

Các tệp Excel thường có nhiều trang tính và khả năng đọc một trang tính cụ thể hoặc tất cả chúng là rất quan trọng. Để thực hiện việc này dễ dàng, phương thức

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
6 của gấu trúc lấy một đối số có tên là
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
40 cho gấu trúc biết trang nào sẽ đọc trong dữ liệu từ. Đối với điều này, bạn có thể sử dụng tên trang tính hoặc số trang tính. Số tờ bắt đầu bằng số 0. Nếu đối số
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
40 không được cung cấp, nó sẽ mặc định bằng 0 và gấu trúc sẽ nhập trang tính đầu tiên

Theo mặc định, gấu trúc sẽ tự động gán chỉ mục số hoặc nhãn hàng bắt đầu bằng 0. Bạn có thể muốn để nguyên chỉ mục mặc định nếu dữ liệu của bạn không có cột có giá trị duy nhất có thể đóng vai trò là chỉ mục tốt hơn. Trong trường hợp có một cột mà bạn cảm thấy sẽ phục vụ như một chỉ mục tốt hơn, bạn có thể ghi đè hành vi mặc định bằng cách đặt thuộc tính

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
42 thành một cột. Nó nhận một giá trị số để đặt một cột làm chỉ mục hoặc danh sách các giá trị số để tạo nhiều chỉ mục

Trong đoạn mã dưới đây, chúng tôi đang chọn cột đầu tiên, 'Tiêu đề', làm chỉ mục (chỉ mục = 0) bằng cách chuyển số 0 vào đối số

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
42

movies_sheet1 = pd.read_excel(excel_file, sheetname=0, index_col=0)
movies_sheet1.head()

NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhậpĐạo diễn…Lượt thích trên Facebook – Diễn viên 1Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – cast Tổng số lượt thích trên Facebook – MovieFacenumber trong áp phíchNgười dùng bình chọnNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDBTiêu đềKhông khoan dung. Cuộc đấu tranh của tình yêu xuyên suốt các thời đại1916Phim chính kịch. Môn lịch sử. WarNaNUSAKhông được xếp hạng1231. 33385907. 0NaND. W. Griffith…436229. 04816911107188869. 08. 0 Over the Hill to the Poorhouse 1920 Tội ác. KịchNaNUSANaN1101. 33100000. 03000000. 0Harry F. Millarde…220. 0401511. 04. 8 Cuộc diễu hành lớn năm 1925. Lãng mạn. WarNaNUSAKhông được xếp hạng1511. 33245000. 0NaNKing Vidor…81126. 0108226048494548. 08. 3Metropolis1927Kịch. Khoa học viễn tưởngĐứcĐứcKhông được xếp hạng1451. 336000000. 026435. 0Fritz Lang…1362318. 0203120001111841413260. 08. 3 Chiếc hộp Pandora 1929 Tội ác. Kịch. Lãng mạnĐứcĐứcKhông được xếp hạng1101. 33NaN9950. 0Georg Wilhelm Pabst…426203. 0455926174318471. 08. 0

5 hàng × 24 cột

Như bạn đã nhận thấy, tệp dữ liệu Excel của bạn có ba trang tính. Chúng tôi đã đọc trang đầu tiên trong DataFrame ở trên. Bây giờ, sử dụng cùng một cú pháp, chúng ta cũng sẽ đọc phần còn lại của hai trang tính

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()

NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhậpĐạo diễn…Lượt thích trên Facebook – Diễn viên 1Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – cast Tổng số lượt thích trên Facebook – PhimFacesố trong áp phíchNgười dùng bình chọnNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDBTiêu đề102 Dalmatians2000Phiêu lưu. Hài kịch. Gia đìnhTiếng AnhUSAG100. 01. 8585000000. 066941559. 0Kevin Lima…2000. 0795. 0439. 0418237212641377. 084. 04. 828 Days2000Phim Hài. KịchTiếng AnhUSAPG-13103. 01. 3743000000. 037035515. 0Betty Thomas…12000. 010000. 0664. 0238640134597194. 0116. 06. 03 Strikes2000Phim hàiTiếng AnhUSAR82. 01. 856000000. 09821335. 0DJ Pooh…939. 0706. 0585. 033541181141510. 022. 04. 0Aberdeen2000DramaTiếng AnhUKNaN106. 01. 856500000. 064148. 0Hans Petter Moland…844. 02. 00. 08462600260135. 028. 07. 3 Tất Cả Những Con Ngựa Xinh Đẹp 2000. Lãng mạn. Miền TâyTiếng AnhUSAPG-13220. 02. 3557000000. 015527125. Billy Bob Thornton…13000. 0861. 0820. 015006652211388183. 085. 05. 8

5 hàng × 24 cột

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
4

NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhậpĐạo diễn…Lượt thích trên Facebook – Diễn viên 1Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – diễn viên Tổng số lượt thích trên Facebook – MovieFacenumber trong áp phíchNgười dùng bình chọnNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDBTiêu đề127 giờ2010. 0Phiêu lưu. Tiểu sử. Kịch. Kinh dịTiếng AnhUSAR94. 01. 8518000000. 018329466. 0Danny Boyle…11000. 0642. 0223. 011984630000. 0279179440. 0450. 07. 63 Sân Sau2010. 0DramaTiếng AnhUSAR88. 0NaN300000. 0NaNEric Mendelsohn…795. 0659. 0301. 01884920. 055423. 020. 05. 232010. 0Hài kịch. Kịch. Lãng mạnĐứcĐứcUnrated119. 02. 35NaN59774. 0Tom Tykwer…24. 020. 09. 06920000. 0421218. 076. 06. 88. Đề xuất Mặc Môn2010. 0Phim tài liệuTiếng AnhUSAR80. 01. 782500000. 099851. 0Bò sậy…191. 012. 05. 021000. 0113830. 028. 07. 1A Chuyện Rùa. Cuộc Phiêu Lưu Của Sammy 2010. 0Phiêu lưu. hoạt hình. Gia đìnhTiếng AnhPhápPG88. 02. 35NaNNaNBen Stassen…783. 0749. 0602. 0387402. 0538522. 056. 06. 1

5 hàng × 24 cột

Vì cả ba trang tính đều có dữ liệu giống nhau nhưng đối với các bản ghi phim khác nhau, chúng tôi sẽ tạo một Khung dữ liệu duy nhất từ ​​cả ba Khung dữ liệu mà chúng tôi đã tạo ở trên. Chúng tôi sẽ sử dụng phương pháp pandas

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
44 cho việc này và chuyển vào tên của ba DataFrame mà chúng tôi vừa tạo và gán kết quả cho một đối tượng DataFrame mới,
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
7. Bằng cách giữ tên DataFrame giống như trước đây, chúng tôi sẽ ghi đè lên DataFrame đã tạo trước đó

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
3

Chúng tôi có thể kiểm tra xem sự kết hợp này có bằng cách kiểm tra số lượng hàng trong DataFrame được kết hợp bằng cách gọi phương thức

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
46 trên đó sẽ cung cấp cho chúng tôi số lượng hàng và cột

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
5
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
6

Sử dụng lớp ExcelFile để đọc nhiều sheet

Chúng ta cũng có thể sử dụng lớp ExcelFile để làm việc với nhiều sheet từ cùng một file Excel. Trước tiên, chúng tôi bọc tệp Excel bằng cách sử dụng

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
47 và sau đó chuyển nó sang phương thức
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
6

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
9

Nếu bạn đang đọc một tệp Excel có nhiều trang tính và đang tạo nhiều DataFrames, thì

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
47 sẽ thuận tiện và hiệu quả hơn so với
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
6. Với ExcelFile, bạn chỉ cần truyền tệp Excel một lần và sau đó bạn có thể sử dụng nó để lấy DataFrames. Khi sử dụng
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
6, bạn chuyển tệp Excel mỗi lần và do đó tệp được tải lại cho mỗi trang tính. Đây có thể là một lực cản hiệu suất lớn nếu tệp Excel có nhiều trang tính với số lượng hàng lớn

Khám phá dữ liệu

Bây giờ chúng tôi đã đọc bộ dữ liệu phim từ tệp Excel của mình, chúng tôi có thể bắt đầu khám phá nó bằng pandas. DataFrame của gấu trúc lưu trữ dữ liệu ở định dạng bảng, giống như cách Excel hiển thị dữ liệu trong trang tính. Pandas có rất nhiều phương thức tích hợp để khám phá DataFrame mà chúng tôi đã tạo từ tệp Excel mà chúng tôi vừa đọc trong

Chúng tôi đã giới thiệu phương pháp

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
32 trong phần trước hiển thị một vài hàng từ trên cùng từ DataFrame. Hãy xem xét thêm một vài phương pháp hữu ích khi khám phá tập dữ liệu

Chúng ta có thể sử dụng phương thức

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
46 để tìm số hàng và số cột cho DataFrame

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
5
excel_file = 'movies.xls'
movies = pd.read_excel(excel_file)
1

Điều này cho chúng tôi biết tệp Excel của chúng tôi có 5042 bản ghi và 25 cột hoặc quan sát. Điều này có thể hữu ích trong việc báo cáo số lượng bản ghi và số cột, đồng thời so sánh số liệu đó với tập dữ liệu nguồn

Chúng ta có thể sử dụng phương pháp

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
34 để xem các hàng dưới cùng. Nếu không có tham số nào được truyền, chỉ năm hàng dưới cùng được trả về

excel_file = 'movies.xls'
movies = pd.read_excel(excel_file)
2

Tiêu đề NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhập…Lượt thích trên Facebook – Diễn viên 1Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – cast Tổng số lượt thích trên Facebook – PhimFacebooksố trong áp phíchNgười dùng bình chọnNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDB1599War & PeaceNaNDrama. Môn lịch sử. Lãng mạn. Chiến tranhTiếng AnhUKTV-14NaN16. 00NaNNaN…1000. 0888. 0502. 04528110001. 0927744. 010. 08. 21600WingsNaNChài kịch. KịchTiếng AnhMỹNaN30. 01. 33NaNNaN…685. 0511. 0424. 0188410005. 0764656. 019. 07. 31601Wolf CreekNaNDPhim. Kinh dị. Kinh dịTiếng AnhÚcNaNNaN2. 00NaNNaN…511. 0457. 0206. 016179540. 07266. 02. 07. 11602Wuthering HeightsNaNDPhim. Lãng mạnTiếng AnhUKNaN142. 0NaNNaNNaN…27000. 0698. 0427. 02919602. 0605333. 09. 07. 71603Yu-Gi-Oh. Duel MonstersNaNAHành động. Cuộc phiêu lưu. hoạt hình. Gia đình. Tưởng tượngNhật BảnNhật BảnNaN24. 0NaNNaNNaN…0. 0NaNNaN01240. 01241751. 06. 07. 0

5 hàng × 25 cột

Trong Excel, bạn có thể sắp xếp trang tính dựa trên các giá trị trong một hoặc nhiều cột. Trong pandas, bạn có thể làm điều tương tự với phương thức

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
35. Ví dụ: hãy sắp xếp DataFrame phim của chúng tôi dựa trên cột Tổng thu nhập

excel_file = 'movies.xls'
movies = pd.read_excel(excel_file)
3

Vì chúng tôi có dữ liệu được sắp xếp theo các giá trị trong một cột, nên chúng tôi có thể thực hiện một số điều thú vị với nó. Ví dụ: chúng tôi có thể hiển thị 10 bộ phim hàng đầu theo Tổng thu nhập

excel_file = 'movies.xls'
movies = pd.read_excel(excel_file)
4
excel_file = 'movies.xls'
movies = pd.read_excel(excel_file)
5

Chúng tôi cũng có thể tạo cốt truyện cho 10 bộ phim hàng đầu theo Tổng thu nhập. Pandas giúp bạn dễ dàng trực quan hóa dữ liệu của mình bằng các sơ đồ và biểu đồ thông qua matplotlib, một thư viện trực quan hóa dữ liệu phổ biến. Với một vài dòng mã, bạn có thể bắt đầu vẽ đồ thị. Hơn nữa, các ô matplotlib hoạt động tốt bên trong Jupyter Notebooks vì bạn có thể thay thế các ô ngay dưới mã

Đầu tiên, chúng tôi nhập mô-đun matplotlib và đặt matplotlib để hiển thị các ô ngay trong Jupyter Notebook

excel_file = 'movies.xls'
movies = pd.read_excel(excel_file)
6

Chúng tôi sẽ vẽ một biểu đồ thanh trong đó mỗi thanh sẽ đại diện cho một trong 10 bộ phim hàng đầu. Chúng ta có thể làm điều này bằng cách gọi phương thức cốt truyện và đặt đối số

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
36 thành
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
37. Điều này yêu cầu
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
38 vẽ một biểu đồ thanh ngang

excel_file = 'movies.xls'
movies = pd.read_excel(excel_file)
7

Làm cách nào để đọc tệp excel trong gấu trúc Python?

Hãy tạo một biểu đồ Điểm IMDB để kiểm tra sự phân phối Điểm IMDB trên tất cả các phim. Biểu đồ là một cách tốt để hình dung sự phân bố của một tập dữ liệu. Chúng tôi sử dụng phương pháp

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
39 trên chuỗi Điểm IMDB từ DataFrame phim của chúng tôi và chuyển đối số cho nó

excel_file = 'movies.xls'
movies = pd.read_excel(excel_file)
8

Làm cách nào để đọc tệp excel trong gấu trúc Python?

Trực quan hóa dữ liệu này cho thấy rằng hầu hết các Điểm IMDB nằm trong khoảng từ sáu đến tám

Nhận thông tin thống kê về dữ liệu

Pandas có một số phương pháp rất tiện dụng để xem dữ liệu thống kê về tập dữ liệu của chúng tôi. Ví dụ: chúng ta có thể sử dụng phương pháp

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
50 để lấy tóm tắt thống kê của tập dữ liệu

excel_file = 'movies.xls'
movies = pd.read_excel(excel_file)
9

Năm Thời lượng Tỷ lệ khung hình Ngân sách Tổng thu nhập Lượt thích trên Facebook – Đạo diễn Lượt thích trên Facebook – Diễn viên 1 Lượt thích trên Facebook – Diễn viên 2 Lượt thích trên Facebook – Diễn viên 3 Lượt thích trên Facebook – diễn viên Tổng số lượt thích trên Facebook – MovieFacenumber trong áp phích Bình chọn của người dùng Đánh giá của người dùng Đánh giá của Crtiics Điểm IMDB4935. 0000005028. 0000004714. 0000004. 551000e+034. 159000e+034938. 0000005035. 0000005029. 0000005020. 0000005042. 0000005042. 0000005029. 0000005. 042000e+035022. 0000004993. 0000005042. 000000mean2002. 470517107. 2010742. 2204033. 975262e+074. 846841e+07686. 6217096561. 3239321652. 080533645. 0097619700. 9591437527. 4571601. 3714468. 368475e+04272. 770808140. 1942726. 442007std12. 47459925. 1974411. 3851132. 061149e+086. 845299e+072813. 60240515021. 9776354042. 7746851665. 04172818165. 10192519322. 0705372. 0136831. 384940e+05377. 982886121. 6016751. 125189min1916. 0000007. 0000001. 1800002. 180000e+021. 620000e+020. 0000000. 0000000. 0000000. 0000000. 0000000. 0000000. 0000005. 000000e+001. 0000001. 0000001. 60000025%1999. 00000093. 0000001. 8500006. 000000e+065. 340988e+067. 000000614. 500000281. 000000133. 0000001411. 2500000. 0000000. 0000008. 599250e+0365. 00000050. 0000005. 80000050%2005. 000000103. 0000002. 3500002. 000000e+072. 551750e+0749. 000000988. 000000595. 000000371. 5000003091. 000000166. 0000001. 0000003. 437100e+04156. 000000110. 0000006. 60000075%2011. 000000118. 0000002. 3500004. 500000e+076. 230944e+07194. 75000011000. 000000918. 000000636. 00000013758. 7500003000. 0000002. 0000009. 634700e+04326. 000000195. 0000007. 200000max2016. 000000511. 00000016. 0000001. 221550e+107. 605058e+0823000. 000000640000. 000000137000. 00000023000. 000000656730. 000000349000. 00000043. 0000001. 689764e+065060. 000000813. 0000009. 500000

Phương thức

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
50 hiển thị thông tin bên dưới cho từng cột

  • số lượng hoặc số lượng giá trị
  • bần tiện
  • độ lệch chuẩn
  • tối thiểu, tối đa
  • 25%, 50% và 75% phân vị

Xin lưu ý rằng thông tin này sẽ chỉ được tính cho các giá trị số

Chúng ta cũng có thể sử dụng phương pháp tương ứng để truy cập từng thông tin này. Ví dụ: để lấy giá trị trung bình của một cột cụ thể, bạn có thể sử dụng phương thức

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
52 trên cột đó

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
20
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
21

Cũng giống như mean, có các phương thức có sẵn cho từng thông tin thống kê mà chúng tôi muốn truy cập. Bạn có thể đọc về các phương pháp này trong bảng cheat pandas miễn phí của chúng tôi

Đọc các tệp không có tiêu đề và bỏ qua các bản ghi

Trước đó trong hướng dẫn này, chúng ta đã thấy một số cách để đọc một loại tệp Excel cụ thể có tiêu đề và không có hàng nào cần bỏ qua. Đôi khi, trang tính Excel không có bất kỳ hàng tiêu đề nào. Đối với những trường hợp như vậy, bạn có thể yêu cầu gấu trúc không coi hàng đầu tiên là tên tiêu đề hoặc tên cột. Và nếu một vài hàng đầu tiên của trang tính Excel chứa dữ liệu không nên đọc, bạn có thể yêu cầu phương thức

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
6 bỏ qua một số hàng nhất định, bắt đầu từ trên cùng

Ví dụ: hãy xem vài hàng trên cùng của tệp Excel này

Làm cách nào để đọc tệp excel trong gấu trúc Python?

Tệp này rõ ràng là không có tiêu đề và bốn hàng đầu tiên không phải là bản ghi thực và do đó không nên đọc trong. Chúng tôi có thể cho read_excel biết không có tiêu đề nào bằng cách đặt đối số

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
54 thành
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
55 và chúng tôi có thể bỏ qua bốn hàng đầu tiên bằng cách đặt đối số
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
56 thành bốn

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
22

0123456789…151617181920212223240Metropolis1927Kịch. Khoa học viễn tưởngĐứcĐứcKhông được xếp hạng1451. 336000000. 026435. 0…1362318. 0203120001111841413260. 08. 31 Chiếc hộp Pandora 1929 Tội ác. Kịch. Lãng mạnĐứcĐứcKhông được xếp hạng1101. 33NaN9950. 0…426203. 0455926174318471. 08. 02 Vở nhạc kịch giai điệu Broadway 1929. Lãng mạnTiếng AnhMỹĐã qua1001. 37379000. 02808000. 0…77284. 0109167845467136. 06. 33 Thiên Thần Địa Ngục 1930 Chính Kịch. Chiến tranhTiếng AnhHoa KỳĐã qua961. 203950000. 0NaN…431124. 0457279137535335. 07. 84A Giã Từ Vũ Khí 1932 Chính Kịch. Lãng mạn. Chiến tranhTiếng AnhMỹUnrated791. 37800000. 0NaN…99816499. 01284213135194642. 06. 6

5 hàng × 25 cột

Chúng tôi đã bỏ qua bốn hàng từ trang tính và không sử dụng hàng nào làm tiêu đề. Ngoài ra, lưu ý rằng người ta có thể kết hợp các tùy chọn khác nhau trong một câu lệnh đọc. Để bỏ qua các hàng ở cuối trang tính, bạn có thể sử dụng tùy chọn

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
57, hoạt động giống như
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
56, điểm khác biệt duy nhất là các hàng được tính từ dưới lên trên

Tên cột trong DataFrame trước đó là số và được gấu trúc phân bổ làm mặc định. Chúng ta có thể đổi tên tên cột thành tên mô tả bằng cách gọi phương thức

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
59 trên DataFrame và chuyển tên cột dưới dạng danh sách

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
23

Tiêu đề NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhập…Lượt thích trên Facebook – Diễn viên 1Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – cast Tổng số lượt thích trên Facebook – MovieFacenumber trong áp phíchNgười dùng bình chọnNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDB0Metropolis1927Drama. Khoa học viễn tưởngĐứcĐứcKhông được xếp hạng1451. 336000000. 026435. 0…1362318. 0203120001111841413260. 08. 31 Chiếc hộp Pandora 1929 Tội ác. Kịch. Lãng mạnĐứcĐứcKhông được xếp hạng1101. 33NaN9950. 0…426203. 0455926174318471. 08. 02 Vở nhạc kịch giai điệu Broadway 1929. Lãng mạnTiếng AnhMỹĐã qua1001. 37379000. 02808000. 0…77284. 0109167845467136. 06. 33 Thiên Thần Địa Ngục 1930 Chính Kịch. Chiến tranhTiếng AnhHoa KỳĐã qua961. 203950000. 0NaN…431124. 0457279137535335. 07. 84A Giã Từ Vũ Khí 1932 Chính Kịch. Lãng mạn. Chiến tranhTiếng AnhMỹUnrated791. 37800000. 0NaN…99816499. 01284213135194642. 06. 6

5 hàng × 25 cột

Bây giờ chúng ta đã biết cách đọc một tập hợp con các hàng từ tệp Excel, chúng ta có thể tìm hiểu cách đọc một tập hợp con các cột

Đọc một tập hợp con của các cột

Mặc dù read_excel mặc định đọc và nhập tất cả các cột, nhưng bạn có thể chọn chỉ nhập một số cột nhất định. Bằng cách chuyển parse_cols=6, chúng tôi yêu cầu phương thức

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
6 chỉ đọc các cột đầu tiên cho đến khi lập chỉ mục sáu hoặc bảy cột đầu tiên (cột đầu tiên được lập chỉ mục bằng 0)

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
24

Tiêu đềNămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượng0Không khoan dung. Cuộc đấu tranh của tình yêu xuyên suốt các thời đại1916Phim chính kịch. Môn lịch sử. WarNaNUSAKhông được xếp hạng1231 Vượt qua ngọn đồi đến ngôi nhà nghèo 1920 Tội ác. KịchNaNUSANaN1102Cuộc diễu hành lớn1925Kịch. Lãng mạn. WarNaNUSAKhông được xếp hạng1513Metropolis1927Chính kịch. Khoa học viễn tưởngĐứcĐứcKhông được xếp hạng1454Hộp Pandora1929Tội phạm. Kịch. Lãng mạnĐứcĐứcKhông được xếp hạng110

Ngoài ra, bạn có thể chuyển vào một danh sách các số, danh sách này sẽ cho phép bạn nhập các cột tại các chỉ mục cụ thể

Áp dụng công thức trên các cột

Một trong những tính năng được sử dụng nhiều của Excel là áp dụng công thức để tạo cột mới từ giá trị cột hiện có. Trong tệp Excel của chúng tôi, chúng tôi có các cột Tổng thu nhập và Ngân sách. Chúng tôi có thể nhận được Thu nhập ròng bằng cách trừ Ngân sách khỏi Tổng thu nhập. Sau đó, chúng tôi có thể áp dụng công thức này trong tệp Excel cho tất cả các hàng. Chúng ta cũng có thể làm điều này trong gấu trúc như hình dưới đây

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
25

Ở trên, chúng tôi đã sử dụng gấu trúc để tạo một cột mới có tên là Thu nhập ròng và điền vào cột đó sự khác biệt giữa Tổng thu nhập và Ngân sách. Điều đáng chú ý là sự khác biệt ở đây về cách xử lý các công thức trong Excel so với pandas. Trong Excel, một công thức tồn tại trong ô và cập nhật khi dữ liệu thay đổi – với Python, các phép tính được thực hiện và các giá trị được lưu trữ – nếu Tổng Thu nhập cho một bộ phim được thay đổi theo cách thủ công, thì Thu nhập Ròng sẽ không được cập nhật

Hãy sử dụng phương pháp

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
35 để sắp xếp dữ liệu theo cột mới mà chúng tôi đã tạo và trực quan hóa 10 bộ phim hàng đầu theo Thu nhập ròng

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
26

Làm cách nào để đọc tệp excel trong gấu trúc Python?

Bảng Pivot trong gấu trúc

Người dùng Excel nâng cao cũng thường sử dụng bảng tổng hợp. Bảng tổng hợp tóm tắt dữ liệu của một bảng khác bằng cách nhóm dữ liệu trên một chỉ mục và áp dụng các thao tác như sắp xếp, tổng hợp hoặc tính trung bình. Bạn cũng có thể sử dụng tính năng này trong pandas

Trước tiên, chúng ta cần xác định cột hoặc nhiều cột sẽ đóng vai trò là chỉ mục và (các) cột sẽ áp dụng công thức tóm tắt. Hãy bắt đầu từ việc nhỏ, bằng cách chọn Năm làm cột chỉ mục và Tổng thu nhập làm cột tóm tắt và tạo một Khung dữ liệu riêng từ dữ liệu này

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
27

Năm Tổng thu nhập01916. 0NaN11920. 03000000. 021925. 0NaN31927. 026435. 041929. 09950. 0

Bây giờ chúng tôi gọi

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
62 trên tập hợp con dữ liệu này. Phương thức
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
62 nhận tham số
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
64. Như đã đề cập, chúng tôi muốn sử dụng Năm làm chỉ mục

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
28

Tổng thu nhập năm 1916. 0NaN1920. 03000000. 01925. 0NaN1927. 026435. 01929. 01408975. 0

Điều này đã cho chúng tôi một bảng tổng hợp với việc nhóm theo Năm và tóm tắt về tổng Thu nhập gộp. Lưu ý, chúng tôi không cần chỉ định rõ ràng cột Tổng thu nhập vì gấu trúc đã tự động xác định cột đó là các giá trị để áp dụng tổng kết

Chúng tôi có thể sử dụng bảng tổng hợp này để tạo một số trực quan hóa dữ liệu. Chúng ta có thể gọi phương thức

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
39 trên DataFrame để tạo biểu đồ đường và gọi phương thức
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
66 để hiển thị biểu đồ trong sổ ghi chép

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
29

Làm cách nào để đọc tệp excel trong gấu trúc Python?

Chúng tôi đã thấy cách xoay vòng với một cột làm chỉ mục. Mọi thứ sẽ trở nên thú vị hơn nếu chúng ta có thể sử dụng nhiều cột. Hãy tạo một tập hợp con DataFrame khác nhưng lần này chúng tôi sẽ chọn các cột, Quốc gia, Ngôn ngữ và Tổng thu nhập

movies_sheet1 = pd.read_excel(excel_file, sheetname=0, index_col=0)
movies_sheet1.head()
0

Quốc giaNgôn ngữTổng thu nhập0USANaNNaN1USANaN3000000. 02USANaNNaN3ĐứcTiếng Đức26435. 04ĐứcTiếng Đức9950. 0

Chúng tôi sẽ sử dụng các cột Quốc gia và Ngôn ngữ làm chỉ mục cho bảng tổng hợp. Chúng tôi sẽ sử dụng Tổng thu nhập làm bảng tóm tắt, tuy nhiên, chúng tôi không cần chỉ định điều này một cách rõ ràng như chúng tôi đã thấy trước đó

movies_sheet1 = pd.read_excel(excel_file, sheetname=0, index_col=0)
movies_sheet1.head()
1

Tổng thu nhậpQuốc giaNgôn ngữAfghanistanDari1. 127331e+06ArgentinaTây Ban Nha7. 230936e+06ArubaTiếng Anh1. 007614e+07ÚcThổ dân6. 165429e+06Dzongkha5. 052950e+05

Hãy trực quan hóa bảng tổng hợp này bằng biểu đồ thanh. Vì vẫn còn vài trăm bản ghi trong bảng tổng hợp này, chúng tôi sẽ chỉ vẽ một vài trong số chúng

movies_sheet1 = pd.read_excel(excel_file, sheetname=0, index_col=0)
movies_sheet1.head()
2

Làm cách nào để đọc tệp excel trong gấu trúc Python?

Xuất kết quả ra Excel

Nếu bạn sắp làm việc với những đồng nghiệp sử dụng Excel, thì việc lưu các tệp Excel ra khỏi gấu trúc là rất quan trọng. Bạn có thể xuất hoặc ghi DataFrame của pandas vào tệp Excel bằng phương pháp pandas

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
67. Pandas sử dụng mô-đun Python
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
68 bên trong để ghi vào tệp Excel. Phương thức
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
67 được gọi trên DataFrame mà chúng tôi muốn xuất. Chúng tôi cũng cần chuyển tên tệp mà DataFrame này sẽ được ghi

movies_sheet1 = pd.read_excel(excel_file, sheetname=0, index_col=0)
movies_sheet1.head()
3

Theo mặc định, chỉ mục cũng được lưu vào tệp đầu ra. Tuy nhiên, đôi khi chỉ mục không cung cấp bất kỳ thông tin hữu ích nào. Ví dụ: Khung dữ liệu

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
7 có chỉ mục tăng tự động bằng số, không phải là một phần của dữ liệu Excel gốc

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
2

Tiêu đề NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhập…Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – truyền Tổng số lượt thích trên Facebook – PhimFacenumber trong áp phích Bình chọn của người dùngNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDBThu nhập ròng0Không khoan dung. Cuộc đấu tranh của tình yêu trong suốt các thời đại1916. 0Chính kịch. Môn lịch sử. WarNaNUSAKhông được xếp hạng123. 01. 33385907. 0NaN…22. 09. 04816911. 01071888. 069. 08. 0NaN1Qua đồi đến nhà nghèo1920. 0Tội phạm. KịchNaNUSANaN110. 01. 33100000. 03000000. 0…2. 00. 0401. 051. 01. 04. 82900000. 02 Cuộc diễu hành lớn 1925. 0Chính kịch. Lãng mạn. WarNaNUSAKhông được xếp hạng151. 01. 33245000. 0NaN…12. 06. 01082260. 0484945. 048. 08. 3NaN3Metropolis1927. 0Chính kịch. Khoa học viễn tưởngĐứcĐứcKhông được xếp hạng145. 01. 336000000. 026435. 0…23. 018. 0203120001. 0111841413. 0260. 08. 3-5973565. 04 Chiếc hộp Pandora 1929. 0Tội phạm. Kịch. Lãng mạnĐứcĐứcKhông được xếp hạng110. 01. 33NaN9950. 0…20. 03. 04559261. 0743184. 071. 08. 0NaN

5 hàng × 26 cột

Bạn có thể chọn bỏ qua chỉ mục bằng cách chuyển qua chỉ mục-Sai

movies_sheet1 = pd.read_excel(excel_file, sheetname=0, index_col=0)
movies_sheet1.head()
5

Chúng tôi cần có khả năng làm cho các tệp đầu ra trông đẹp mắt trước khi có thể gửi nó cho đồng nghiệp của mình. Chúng ta có thể sử dụng pandas lớp

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
91 cùng với mô-đun
movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
92 Python để áp dụng định dạng

Chúng ta có thể sử dụng các tùy chọn đầu ra nâng cao này bằng cách tạo một đối tượng

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
91 và sử dụng đối tượng này để ghi vào tệp EXcel

movies_sheet1 = pd.read_excel(excel_file, sheetname=0, index_col=0)
movies_sheet1.head()
6

Chúng tôi có thể áp dụng các tùy chỉnh bằng cách gọi

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
94 trên sổ làm việc mà chúng tôi đang ghi vào. Ở đây chúng tôi đang đặt định dạng tiêu đề là in đậm

movies_sheet1 = pd.read_excel(excel_file, sheetname=0, index_col=0)
movies_sheet1.head()
7

Cuối cùng, chúng tôi lưu tệp đầu ra bằng cách gọi phương thức

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
95 trên đối tượng nhà văn

movies_sheet1 = pd.read_excel(excel_file, sheetname=0, index_col=0)
movies_sheet1.head()
8

Ví dụ: chúng tôi đã lưu dữ liệu với tiêu đề cột được in đậm. Và file đã lưu có dạng như hình bên dưới

Làm cách nào để đọc tệp excel trong gấu trúc Python?

Như thế này, người ta có thể sử dụng

movies_sheet2 = pd.read_excel(excel_file, sheetname=1, index_col=0)
movies_sheet2.head()
92 để áp dụng các định dạng khác nhau cho tệp Excel đầu ra

Phần kết luận

Pandas không phải là sự thay thế cho Excel. Cả hai công cụ đều có vị trí riêng trong quy trình phân tích dữ liệu và có thể là những công cụ đồng hành rất tuyệt vời. Như chúng tôi đã trình bày, gấu trúc có thể thực hiện nhiều thao tác và phân tích dữ liệu phức tạp, tùy thuộc vào nhu cầu và chuyên môn của bạn, có thể vượt xa những gì bạn có thể đạt được nếu chỉ sử dụng Excel. Một trong những lợi ích chính của việc sử dụng Python và pandas trên Excel là nó giúp bạn tự động hóa quá trình xử lý tệp Excel bằng cách viết tập lệnh và tích hợp với quy trình xử lý dữ liệu tự động của bạn. Pandas cũng có các phương pháp tuyệt vời để đọc tất cả các loại dữ liệu từ tệp Excel. Bạn cũng có thể xuất kết quả của mình từ gấu trúc trở lại Excel nếu đối tượng dự định của bạn ưa thích điều đó

Mặt khác, Excel là một công cụ dữ liệu được sử dụng rộng rãi, không nên bỏ qua nó. Có được chuyên môn về cả pandas và Excel và làm cho chúng hoạt động cùng nhau mang lại cho bạn những kỹ năng có thể giúp bạn nổi bật trong tổ chức của mình

Nếu bạn muốn tìm hiểu thêm về chủ đề này, hãy xem khóa học Cơ bản về Pandas và NumPy tương tác của Dataquest và các đường dẫn Nhà phân tích dữ liệu bằng Python và Nhà khoa học dữ liệu trong Python của chúng tôi sẽ giúp bạn sẵn sàng cho công việc trong khoảng 6 tháng

Học kỹ năng dữ liệu

Được tăng lương tiếp theo hoặc chuyển sang sự nghiệp trong khoa học dữ liệu bằng cách học các kỹ năng dữ liệu

Đăng ký tài khoản miễn phí và thử các khóa học tương tác của chúng tôi về Python, R, SQL, v.v.

Đăng ký ngay

(Nó miễn phí)

excelintermediateTìm hiểu PythonPandaspythontutorialHướng dẫn

Giới thiệu về tác giả

Harish Garg

Doanh nhân, Nhà đào tạo kỹ thuật và Nhà phát triển phần mềm hàng đầu có nhiều kinh nghiệm về Khoa học dữ liệu, Python, Web và Phát triển di động. Đam mê Khoa học dữ liệu và Trí tuệ nhân tạo