Phân biệt Python pandas

Sử dụng cắt khi bạn cần phân đoạn và sắp xếp các giá trị dữ liệu vào các thùng. Hàm này cũng hữu ích để chuyển từ biến liên tục sang biến phân loại. Ví dụ: cut có thể chuyển đổi độ tuổi thành các nhóm độ tuổi. Hỗ trợ tạo thùng thành một số lượng thùng bằng nhau hoặc một mảng thùng được chỉ định trước

Thông số

x. dạng mảng

Mảng đầu vào được binned. Phải là 1 chiều

thùng. int, chuỗi vô hướng hoặc gấu trúc. Chỉ số khoảng thời gian

Các tiêu chí để bin bởi

  • int. Xác định số lượng thùng có chiều rộng bằng nhau trong phạm vi x. Phạm vi của x được mở rộng bởi. 1% cho mỗi bên để bao gồm các giá trị tối thiểu và tối đa của x
  • chuỗi vô hướng. Xác định các cạnh thùng cho phép chiều rộng không đồng nhất. Không mở rộng phạm vi của x được thực hiện
  • Chỉ số khoảng thời gian. Xác định các thùng chính xác sẽ được sử dụng

đúng. bool, mặc định Đúng

Cho biết các thùng có bao gồm cạnh ngoài cùng bên phải hay không. Nếu

>>> pd.cut(np.array([1, 7, 5, 4, 6, 3]), 3, retbins=True)
.. 
([(0.994, 3.0], (5.0, 7.0], (3.0, 5.0], (3.0, 5.0], (5.0, 7.0], ...
Categories (3, interval[float64]): [(0.994, 3.0] < (3.0, 5.0] ...
array([0.994, 3.   , 5.   , 7.   ]))
0 (mặc định) thì các ngăn
>>> pd.cut(np.array([1, 7, 5, 4, 6, 3]), 3, retbins=True)
.. 
([(0.994, 3.0], (5.0, 7.0], (3.0, 5.0], (3.0, 5.0], (5.0, 7.0], ...
Categories (3, interval[float64]): [(0.994, 3.0] < (3.0, 5.0] ...
array([0.994, 3.   , 5.   , 7.   ]))
1 biểu thị (1,2], (2,3], (3,4]. Đối số này bị bỏ qua khi thùng là một Interval Index

nhãn. mảng hoặc bool, tùy chọn

Chỉ định nhãn cho các thùng được trả lại. Phải có cùng chiều dài với các thùng kết quả. Nếu Sai, chỉ trả về các chỉ số nguyên của các thùng. Điều này ảnh hưởng đến loại vùng chứa đầu ra (xem bên dưới). Đối số này bị bỏ qua khi thùng là một Interval Index

retbin. bool, mặc định Sai

Có trả lại thùng hay không. Hữu ích khi các thùng được cung cấp dưới dạng vô hướng

độ chính xác. int, mặc định 3

Độ chính xác để lưu trữ và hiển thị nhãn thùng

bao gồm_thấp nhất. bool, mặc định Sai

Liệu khoảng thời gian đầu tiên có nên bao gồm bên trái hay không

trùng lặp. {mặc định 'tăng', 'thả'}, tùy chọn

Nếu các cạnh bin không phải là duy nhất, hãy tăng ValueError hoặc loại bỏ các cạnh không phải là duy nhất

Mới trong phiên bản 0. 23. 0

trả lại

ngoài. gấu trúc. Phân loại, Sê-ri hoặc ndarray

Một đối tượng giống như mảng đại diện cho thùng tương ứng cho từng giá trị của x. Loại phụ thuộc vào giá trị của nhãn

  • Đúng (mặc định). trả về Sê-ri cho Sê-ri x hoặc gấu trúc. Phân loại cho tất cả các đầu vào khác. Các giá trị được lưu trữ bên trong là Interval dtype
  • chuỗi vô hướng. trả về Sê-ri cho Sê-ri x hoặc gấu trúc. Phân loại cho tất cả các đầu vào khác. Các giá trị được lưu trữ bên trong là bất kỳ loại nào trong chuỗi là
  • Sai. trả về một dãy số nguyên

thùng. cục mịch. ndarray hoặc Interval Index

Các thùng được tính toán hoặc được chỉ định. Chỉ được trả lại khi retbins=True. Đối với các thùng vô hướng hoặc chuỗi, đây là một ndarray với các thùng được tính toán. Nếu đặt trùng lặp=thả, thùng sẽ bỏ thùng không phải là duy nhất. Đối với một thùng IntervalIndex, giá trị này bằng với số thùng

Xem thêm

Biến rời rạc thành các nhóm có kích thước bằng nhau dựa trên thứ hạng hoặc dựa trên lượng tử mẫu. Loại mảng để lưu trữ dữ liệu đến từ một tập hợp giá trị cố định. Mảng một chiều có nhãn trục (bao gồm cả chuỗi thời gian). Immutable Index triển khai một tập hợp có thứ tự, có thể cắt được

ghi chú

Mọi giá trị NA sẽ là NA trong kết quả. Các giá trị ngoài giới hạn sẽ là NA trong Sê-ri hoặc gấu trúc kết quả. đối tượng phân loại

ví dụ

Rời rạc thành ba thùng có kích thước bằng nhau

>>> pd.cut(np.array([1, 7, 5, 4, 6, 3]), 3)
.. 
[(0.994, 3.0], (5.0, 7.0], (3.0, 5.0], (3.0, 5.0], (5.0, 7.0], ...
Categories (3, interval[float64]): [(0.994, 3.0] < (3.0, 5.0] ...

>>> pd.cut(np.array([1, 7, 5, 4, 6, 3]), 3, retbins=True)
.. 
([(0.994, 3.0], (5.0, 7.0], (3.0, 5.0], (3.0, 5.0], (5.0, 7.0], ...
Categories (3, interval[float64]): [(0.994, 3.0] < (3.0, 5.0] ...
array([0.994, 3.   , 5.   , 7.   ]))

Khám phá các thùng giống nhau, nhưng gán cho chúng các nhãn cụ thể. Lưu ý rằng các danh mục của Categorical được trả về là các nhãn và được sắp xếp theo thứ tự

>>> pd.cut(np.array([1, 7, 5, 4, 6, 3]),
..        3, labels=["bad", "medium", "good"])
[bad, good, medium, medium, good, bad]
Categories (3, object): [bad < medium < good]

>>> pd.cut(np.array([1, 7, 5, 4, 6, 3]), 3, retbins=True)
.. 
([(0.994, 3.0], (5.0, 7.0], (3.0, 5.0], (3.0, 5.0], (5.0, 7.0], ...
Categories (3, interval[float64]): [(0.994, 3.0] < (3.0, 5.0] ...
array([0.994, 3.   , 5.   , 7.   ]))
6 ngụ ý bạn chỉ muốn trả lại thùng rác

>>> pd.cut([0, 1, 1, 2], bins=4, labels=False)
array([0, 1, 1, 3])

Chuyển một Sê-ri làm đầu vào trả về một Sê-ri có dtype phân loại

>>> s = pd.Series(np.array([2, 4, 6, 8, 10]),
..               index=['a', 'b', 'c', 'd', 'e'])
>>> pd.cut(s, 3)
.. 
a    (1.992, 4.667]
b    (1.992, 4.667]
c    (4.667, 7.333]
d     (7.333, 10.0]
e     (7.333, 10.0]
dtype: category
Categories (3, interval[float64]): [(1.992, 4.667] < (4.667, ...

Truyền Sê-ri làm đầu vào trả về Sê-ri có giá trị ánh xạ. Nó được sử dụng để ánh xạ số tới các khoảng dựa trên các thùng

________số 8

Sử dụng thả tùy chọn khi thùng không phải là duy nhất

>>> pd.cut(s, [0, 2, 4, 6, 10, 10], labels=False, retbins=True,
..    right=False, duplicates='drop')
.. 
(a    0.0
 b    1.0
 c    2.0
 d    3.0
 e    3.0
 dtype: float64, array([0, 2, 4, 6, 8]))

Việc chuyển một IntervalIndex cho các thùng sẽ dẫn đến chính xác các danh mục đó. Lưu ý rằng các giá trị không nằm trong Interval Index được đặt thành NaN. 0 ở bên trái của thùng đầu tiên (được đóng ở bên phải) và 1. 5 rơi giữa hai thùng

DF ISNA () trong Python là gì?

Phương thức isna() của Pandas DataFrame . returns a DataFrame object where all the values are replaced with a Boolean value True for NA (not-a -number) values, and otherwise False.

Idmax trong Pandas là gì?

Phương thức idxmax() của Pandas DataFrame . Bằng cách chỉ định trục cột ( axis='columns' ), ​​phương thức idxmax() trả về một Chuỗi có chỉ số là giá trị lớn nhất cho mỗi hàng. returns a Series with the index of the maximum value for each column. By specifying the column axis ( axis='columns' ), the idxmax() method returns a Series with the index of the maximum value for each row.

PD Set_option trong Python là gì?

set_option(tham số, giá trị) . nhập gấu trúc dưới dạng pd pd. change the default number of rows to be displayed. import pandas as pd pd.