Thư viện Excel Python

Pandas là công cụ tốt nhất để phân tích dữ liệu bằng Python và nó có nhiều ưu điểm hơn các công cụ như Microsoft Excel, nhưng việc chuyển đổi giữa Excel sang Python là một thách thức đối với những người có ít kinh nghiệm viết mã hoặc mới làm quen với Pandas

May mắn thay, đó không còn là trường hợp. Vài tuần trước, tôi tình cờ thấy một thư viện Python giúp chúng tôi làm việc với Pandas như thể chúng tôi đang sử dụng Excel

Trong bài viết này, tôi sẽ chỉ cho bạn cách thực hiện những việc như tạo bảng tổng hợp, nối bảng, lọc dữ liệu, v.v. bằng cách sử dụng thư viện Python cho phép chúng tôi làm việc với khung dữ liệu Pandas bằng giao diện tương tự như Excel và tự động tạo mã Pandas cho

Chuyển từ Excel sang Python chưa bao giờ dễ dàng hơn thế

Tập dữ liệu & cài đặt

tập dữ liệu

Trong hướng dẫn này, dữ liệu chúng tôi sẽ sử dụng là tệp CSV “StudentsPerformance” có sẵn trên Google Drive do tôi tự tạo. Đây là dữ liệu ngẫu nhiên chứa điểm của học sinh ở các môn học khác nhau và với sự trợ giúp của Mito, chúng ta sẽ dễ dàng chuyển từ bảng tính Excel sang khung dữ liệu của Python

Đảm bảo rằng tệp CSV và tập lệnh Python của bạn nằm trong cùng một thư mục

Cài đặt

Để dễ dàng tạo bảng tổng hợp, trực quan hóa và thực hiện các thao tác bạn sẽ thực hiện trong Excel hoặc Pandas, chúng tôi chỉ cần cài đặt thư viện mitosheet (đảm bảo bạn có Python 3. 6 trở lên và cả JupyterLab)

Để cài đặt mitosheet, trước tiên, hãy mở một thiết bị đầu cuối mới hoặc dấu nhắc lệnh rồi chạy lệnh sau (nếu có thể, hãy cài đặt nó trong một môi trường ảo mới)

python -m pip install mitoinstaller
python -m mitoinstaller install

Đó là tất cả những gì chúng ta cần để bắt đầu làm việc với Mito. Để biết thêm chi tiết về cài đặt, hãy kiểm tra tài liệu chính thức

Tạo một Dataframe với mitosheet

Để tạo một khung dữ liệu bằng Python, chúng ta cần nhập gấu trúc và sử dụng. read_csv(), nhưng với Mito, chúng ta chỉ cần ________ và khởi tạo nó bằng cách gõ ________ 10

import mitosheet
mitosheet.sheet()

Đoạn mã trên sẽ tạo ra một mitosheet. Nếu trang tính không hiển thị khi bạn gọi mitosheet. sheet(), chạy lại JupyterLab

Sau này, chúng tôi có thể nhập tập dữ liệu bằng cách nhấp vào nút

import mitosheet
mitosheet.sheet()
1 ở góc dưới cùng bên trái. Sau đó, chọn tệp
import mitosheet
mitosheet.sheet()
2 như hình bên dưới

Hình ảnh của tác giả

Khi CSV được nhập, một khung dữ liệu được tạo bằng cùng tên tệp. Ngoài ra, Mito sẽ tự động tạo mã trong ô bên dưới

from mitosheet import *; register_analysis('UUID-b580825e-1ba5-47fc-851a-612cf52b9543')# Imported StudentsPerformance.csv
import pandas as pd
StudentsPerformance_csv = pd.read_csv(r'StudentsPerformance.csv')

Đó là tất cả những gì bạn cần để nhập dữ liệu với mitosheet. Bây giờ hãy tự động hóa một số phương thức Pandas phổ biến. Thay vào đó, bạn có thể tiếp tục đọc hoặc xem video hướng dẫn của tôi

Thêm cột mới và đổi tên cột

Thêm một cột mới là một tác vụ phổ biến mà chúng tôi thực hiện trong Excel/Pandas. Với Excel, chúng ta chỉ cần nhấp chuột phải để tạo một cột mới, còn với Pandas, chúng ta phải sử dụng phương thức

import mitosheet
mitosheet.sheet()
3

Với Mito, chúng ta có thể có được những điều tốt nhất của cả hai thế giới. Để thêm một cột mới, bạn chỉ cần nhấp vào nút “Add Col”. Sau đó click đúp chuột vào tên cột để đặt tên theo ý muốn

Hãy làm điều này bằng cách tạo một cột mới mà chúng ta sẽ đặt tên là "trung bình. ”

Hình ảnh của tác giả

Khi bạn đã hoàn tất, hãy kiểm tra ô bên dưới. Mito tự động tạo mã thêm và đổi tên cột

tính tổng một hàng

Mito có thể giúp chúng tôi tính tổng các giá trị hàng như thể chúng tôi đang sử dụng Microsoft Excel. Ta chỉ cần xác định vị trí ô muốn nhập công thức, sau đó nhấn

import mitosheet
mitosheet.sheet()
4 và chọn các cột muốn tính tổng và viết toán tử
import mitosheet
mitosheet.sheet()
1 giữa chúng

Để cho bạn thấy rõ hơn cách thức hoạt động của điều này, hãy tính điểm trung bình của các bài kiểm tra toán, đọc và viết. Tìm một ô trong cột “trung bình” mà chúng ta đã tạo ở bước trước, viết công thức được hiển thị trong gif bên dưới, nhấn enter và thế là xong

Hình ảnh của tác giả

Trong trường hợp bạn tò mò muốn biết Mito đã làm gì, đây là một đoạn mã do Mito tự động tạo

Lọc một DataFrame

Chúng tôi có thể lọc dữ liệu dựa trên 1 hoặc nhiều điều kiện

Dựa trên 1 điều kiện

Giả sử chúng ta chỉ muốn hiển thị dữ liệu liên quan đến giới tính

import mitosheet
mitosheet.sheet()
0. Với Mito, chúng ta chỉ cần chọn cột “giới tính”, sau đó click vào biểu tượng cái phễu và chọn thứ muốn lọc. Trong trường hợp này, chúng tôi chuyển đến phần "bộ lọc", nhấp vào "thêm bộ lọc" và đặt "chính xác" bằng "nữ"

Hình ảnh của tác giả

Dựa trên 2 điều kiện trở lên

Bây giờ, giả sử chúng ta muốn hiển thị dữ liệu liên quan đến giới tính

import mitosheet
mitosheet.sheet()
0 thuộc về
import mitosheet
mitosheet.sheet()
2

Ở đây, chúng tôi chỉ cần lặp lại các bước mà chúng tôi đã làm theo để chọn giới tính

import mitosheet
mitosheet.sheet()
0, nhưng bây giờ với
import mitosheet
mitosheet.sheet()
2. Chọn cột “nhóm”, nhấp vào biểu tượng phễu, chuyển đến phần “bộ lọc”, nhấp vào “thêm bộ lọc” và đặt “chính xác” bằng “nhóm B”

Hình ảnh của tác giả

Mã bên dưới tương ứng với các bộ lọc trước đó

Tạo một bảng Pivot

Chúng ta có thể tạo một bảng tổng hợp trong Python như cách chúng ta làm trong Excel bằng cách sử dụng mitosheet. Đầu tiên, nhấp vào nút “Pivot” và sau đó chọn các thành phần bạn muốn đưa vào hàng, cột và giá trị

Trong ví dụ của chúng tôi, chúng tôi sẽ tạo một bảng tổng hợp hiển thị giá trị trung bình của điểm toán và đọc của tất cả các nhóm bên trong cột

import mitosheet
mitosheet.sheet()
5 (cột nhóm). Để làm như vậy, hãy làm theo các bước được hiển thị trong gif bên dưới

Hình ảnh của tác giả

Trong trường hợp bạn tò mò muốn biết mật mã đằng sau tấm màn, đây là một đoạn trích

Tạo một Barplot

Cũng giống như Excel, Mito giúp chúng tôi tạo trực quan hóa cơ bản bằng một vài cú nhấp chuột trong Python

Hãy tạo một biểu đồ thanh của bảng tổng hợp mà chúng ta đã tạo trước đây. Để làm như vậy, hãy nhấp vào nút “Biểu đồ”, sau đó đảm bảo nguồn dữ liệu là bảng tổng hợp mới “df2” mà chúng tôi đã tạo và loại biểu đồ được đặt thành “thanh”

Trong trục X, chúng ta nên bao gồm cột “chủng tộc/sắc tộc” (cột nhóm) và trong trục Y, cột “trung bình điểm trận đấu”

Đó là nó. Chúng ta có thể làm tất cả những điều này trong vài phút với Mito. Nếu bạn có nhiều kinh nghiệm với Pandas, có lẽ bạn có thể nhận được kết quả nhanh như Mito, nhưng thư viện này rất hữu ích nếu bạn chưa quen với Pandas hoặc Python

Hợp nhất 2 bảng

Hợp nhất 2 bảng có thể dễ dàng thực hiện với Mito. Trong ví dụ này, chúng ta sẽ xem cách thực hiện kết nối bên trong. Để làm như vậy, chúng tôi cần hai bảng có chung một cột, vì vậy hãy tải xuống tệp CSV “StudentsPerformance_id” và “LanguageScore” từ Github của tôi. Để nhập bảng thứ hai này, hãy làm theo các bước được hiển thị trong phần đầu tiên của bài viết này "Tạo khung dữ liệu"

Khi bạn đã nhập hai bảng vào Mito, hãy nhấp vào nút “Hợp nhất” để nối chúng. Đảm bảo rằng tùy chọn “Khóa hợp nhất” được đặt thành “id” trong cả hai bảng (đây là cột chung mà chúng ta cần thực hiện liên kết bên trong)

Hình ảnh của tác giả

Sau này, bạn sẽ thấy có một khung dữ liệu mới có tên là “df3. ” Đây là kết quả sau khi tham gia khung dữ liệu “StudentsPerformance_id_csv” và “LanguageScore_csv”

Tham gia danh sách email của tôi với hơn 6 nghìn người để nhận Bảng cheat Python cho Khoa học dữ liệu mà tôi sử dụng trong tất cả các hướng dẫn của mình (PDF miễn phí)

Nếu bạn thích đọc những câu chuyện như thế này và muốn hỗ trợ tôi với tư cách là một nhà văn, hãy cân nhắc đăng ký để trở thành thành viên Medium. Đó là 5 đô la một tháng, cho phép bạn truy cập không giới hạn vào hàng nghìn hướng dẫn về Python và các bài báo về Khoa học dữ liệu. Nếu bạn đăng ký bằng liên kết của tôi, tôi sẽ kiếm được một khoản hoa hồng nhỏ mà bạn không phải trả thêm phí

Làm cách nào để cài đặt thư viện Excel trong Python?

Sử dụng pip để cài đặt gói Python pyxll, sau đó chạy “cài đặt pyxll” để cài đặt phần bổ trợ PyXLL Excel . Nếu bạn đang sử dụng conda hoặc virtual env thì bạn nên kích hoạt nó trước.

Bạn có thể tích hợp Python với Excel không?

Sử dụng Python trong Excel với PyXLL . Sử dụng Microsoft Excel làm giao diện người dùng thân thiện với mã Python của bạn. Không có VBA, chỉ có Python. PyXLL is an Excel add-in that enables you to run Python in Excel. Use Microsoft Excel as a user friendly front-end to your Python code. No VBA, just Python!

Sự khác biệt giữa openpyxl và XlsxWriter là gì?

XlsxWriter so với openpyxl. Sự khác biệt là gì? . Mô-đun Python để tạo tệp Excel XLSX. Mặt khác, openpyxl được mô tả chi tiết là "Thư viện Python để đọc/ghi tệp Excel 2010 xlsx/xlsm"

Cái nào tốt hơn Pandas hay openpyxl?

Theo cộng đồng StackShare, gấu trúc được chấp thuận rộng rãi hơn , được đề cập trong 41 nhóm công ty & 83 nhóm nhà phát triển; .