Chọn cột python
Tiện ích Chọn cột được sử dụng để soạn miền dữ liệu của bạn theo cách thủ công. Người dùng có thể quyết định thuộc tính nào sẽ được sử dụng và cách thức. Màu cam phân biệt giữa thuộc tính thông thường, thuộc tính lớp (tùy chọn) và thuộc tính meta. Chẳng hạn, để xây dựng một mô hình phân loại, miền sẽ bao gồm một tập hợp các thuộc tính và một thuộc tính lớp rời rạc. Thuộc tính meta không được sử dụng trong mô hình hóa, nhưng một số tiện ích con có thể sử dụng chúng làm nhãn phiên bản Các thuộc tính màu cam có một loại và là rời rạc, liên tục hoặc một chuỗi ký tự. Loại thuộc tính được đánh dấu bằng một biểu tượng xuất hiện trước tên của thuộc tính (D, C, S, tương ứng)
ví dụTrong quy trình công việc bên dưới, dữ liệu Iris từ tiện ích Tệp được đưa vào tiện ích Chọn cột, trong đó chúng tôi chọn chỉ xuất hai . Chúng tôi xem cả tập dữ liệu gốc và tập dữ liệu có các cột đã chọn trong tiện ích Bảng dữ liệu . Để sử dụng tiện ích phức tạp hơn, chúng tôi đã soạn một quy trình công việc để xác định lại vấn đề phân loại trong tập dữ liệu bệnh tim. Ban đầu, nhiệm vụ là dự đoán xem bệnh nhân có bị hẹp đường kính động mạch vành hay không. Chúng tôi đã thay đổi vấn đề thành phân loại giới tính, dựa trên tuổi tác, cơn đau ngực và mức cholesterol, đồng thời giữ đường kính thu hẹp một cách thông tin như một thuộc tính meta Trong các bài viết trước về pandas, tôi đã giới thiệu các cách truy cập tự nhiên cho dataframe hay series, có thể nhận thấy rằng chúng rất tương đồng với cách truy cập mảng, danh sách hay từ điển Trong phần này, tôi sẽ hướng dẫn các kỹ thuật lọc kỹ thuật để có thể chọn một phần dữ liệu trong Dataframe dựa trên nội dung của dữ liệu chứ không chỉ dựa vào chỉ mục hay nhãn như các bài trước ở đâu() Select the value from a Series with a Filter (véc tơ boolean) thường trả về một tập dữ liệu. Để đảm bảo rằng đầu ra của select có cùng dạng với data ban đầu, bạn có thể sử dụng phương thức trong Series và Dataframe. Ví dụ
Chọn các giá trị từ một khung dữ liệu khi truyền vào một Bộ lọc (vector Boolean) bây giờ cũng không tồn tại dạng dữ liệu đầu vào. “where” được sử dụng trong ví dụ dưới đây cho kết quả tương đương
Tuy nhiên, trong trường hợp sử dụng “where”có một số tùy chọn đối số khác để thay thế các giá trị mà điều kiện là Sai, trong bản sao được trả về
Chú ý, tùy chọn inplace=True giúp chỉnh sửa tại chỗ dataframe đang truy vấn truy vấn(expr, inplace=False, **kwargs) Khung dữ liệu đối tượng có một truy vấn phương thức() cho phép chọn dữ liệu thông qua việc sử dụng một biểu thức You can get the value of dataframe which the column b has the value nằm giữa các giá trị của cột a và cột c. Ví dụ sau đây sẽ trình bày 2 cách cho cùng một kết quả trả về. Cách sử dụng cú pháp giống như số thông thường, cách còn lại sử dụng theo cú pháp sql
Trường hợp sử dụng truy vấn() là khi bạn có một khung dữ liệu tập hợp có một tập con của các cột tên (hoặc các cấp chỉ mục /tên) chung. Bạn đã sử dụng cùng một truy vấn cho cả hai khung dữ liệu mà không cần phải chỉ định khung dữ liệu mà bạn quan tâm đến cuộc truy vấn. Ví dụ
Toán tử 'in' và 'not in' Query() cũng hỗ trợ sử dụng toán tử so sánh đặc biệt trong Python “in” và “not in”, cung cấp một cú pháp rút gọn để gọi phương thức isin() của Series hoặc DataFrame
Cách tương tự với ví dụ trên nhưng sử dụng isin()
Cách dùng tương tự với “not in” được so sánh với ~isin()
Các bộ lọc có thể được kết hợp với nhau thông qua các thuật toán logic như &,. , ~ hay hoặc, và,. = … as in SQL. Cần lưu ý rằng mỗi bộ lọc con cần được đặt trong dấu ngoặc kép () Bạn có thể kết hợp “in” hoặc “not in” với các biểu thức khác nhau để truy vấn rất ngắn gọn
Khi sử dụng toán tử “==” hay”. =” với danh sách ta có kết quả tương đồng với toán tử “in” và “not in” ví dụ 0 1Series, dataframe cũng cung cấp phương thức get() hoạt động kiểu từ điển và có thể giúp ta gán giá trị mặc định nếu không lấy được dữ liệu 2chọn (chức năng, trục = 0) Một cách khác để truy xuất từ một đối tượng là với phương pháp chọn của Sê-ri, khung dữ liệu và Bảng điều khiển. Phương pháp này chỉ nên sử dụng khi không có cách nào trực tiếp. Chọn có một callable và đối số truyền vào của callable là đánh dấu các cột theo cột hoặc hàng boolean. Ví dụ 3____14khóa (row_lables, col_labels) Đôi khi bạn muốn trích xuất một tập hợp các giá trị cho một dãy các hàng và các cột, và tra cứu() cho phép điều này và trả về một mảng numpy của các giá trị tương ứng với mỗi cặp (hàng, cột). Ví dụ, 5value 0. 87448836 chính là kết quả của cột 'B' ứng với hàng có chỉ số là 0, bạn có thể giải thích với các số khác Kết luận Có thể thấy Pandas hỗ trợ khá nhiều định dạng phương thức để truy xuất, lọc một tệp dữ liệu trong DataFrame hoặc sê-ri. Trong bài viết này, chúng tôi đã đề cập đến một số phương thức hoặc được sử dụng trong xử lý dữ liệu như Series. ở đâu()/Khung dữ liệu. ở đâu (), Khung dữ liệu. query() with the option inplace Hỗ trợ chỉnh sửa trên gốc dữ liệu chính, đồng thời lọc biểu thức của các hàm này đồng thời có thể sử dụng các thuật toán so sánh đặc biệt như 'in'/'not in' và các thuật toán Ngoài ra, các bạn có thể tham khảo một số cách truy xuất khác có thể sử dụng như DataFrame. nhận (), Khung dữ liệu. tra cứu() hay DataFrame. tra cứu() |