Sử dụng cắt khi bạn cần phân đoạn và sắp xếp các giá trị dữ liệu vào các thùng. Hàm này cũng hữu ích để chuyển từ biến liên tục sang biến phân loại. Ví dụ: cut có thể chuyển đổi độ tuổi thành các nhóm độ tuổi. Hỗ trợ tạo thùng thành một số lượng thùng bằng nhau hoặc một mảng thùng được chỉ định trước
Thông sốx. dạng mảng
Mảng đầu vào được binned. Phải là 1 chiều
thùng. int, chuỗi vô hướng hoặc gấu trúc. Chỉ số khoảng thời gian
Các tiêu chí để bin bởi
- int. Xác định số lượng thùng có chiều rộng bằng nhau trong phạm vi x. Phạm vi của x được mở rộng bởi. 1% cho mỗi bên để bao gồm các giá trị tối thiểu và tối đa của x
- chuỗi vô hướng. Xác định các cạnh thùng cho phép chiều rộng không đồng nhất. Không mở rộng phạm vi của x được thực hiện
- Chỉ số khoảng thời gian. Xác định các thùng chính xác sẽ được sử dụng
đúng. bool, mặc định Đúng
Cho biết các thùng có bao gồm cạnh ngoài cùng bên phải hay không. Nếu
>>> pd.cut[np.array[[1, 7, 5, 4, 6, 3]], 3, retbins=True] .. [[[0.994, 3.0], [5.0, 7.0], [3.0, 5.0], [3.0, 5.0], [5.0, 7.0], ... Categories [3, interval[float64]]: [[0.994, 3.0] < [3.0, 5.0] ... array[[0.994, 3. , 5. , 7. ]]]0 [mặc định] thì các ngăn>>> pd.cut[np.array[[1, 7, 5, 4, 6, 3]], 3, retbins=True] .. [[[0.994, 3.0], [5.0, 7.0], [3.0, 5.0], [3.0, 5.0], [5.0, 7.0], ... Categories [3, interval[float64]]: [[0.994, 3.0] < [3.0, 5.0] ... array[[0.994, 3. , 5. , 7. ]]]1 biểu thị [1,2], [2,3], [3,4]. Đối số này bị bỏ qua khi thùng là một Interval Index
nhãn. mảng hoặc bool, tùy chọn
Chỉ định nhãn cho các thùng được trả lại. Phải có cùng chiều dài với các thùng kết quả. Nếu Sai, chỉ trả về các chỉ số nguyên của các thùng. Điều này ảnh hưởng đến loại vùng chứa đầu ra [xem bên dưới]. Đối số này bị bỏ qua khi thùng là một Interval Index
retbin. bool, mặc định Sai
Có trả lại thùng hay không. Hữu ích khi các thùng được cung cấp dưới dạng vô hướng
độ chính xác. int, mặc định 3
Độ chính xác để lưu trữ và hiển thị nhãn thùng
bao gồm_thấp nhất. bool, mặc định Sai
Liệu khoảng thời gian đầu tiên có nên bao gồm bên trái hay không
trùng lặp. {mặc định 'tăng', 'thả'}, tùy chọn
trả lạiNếu các cạnh bin không phải là duy nhất, hãy tăng ValueError hoặc loại bỏ các cạnh không phải là duy nhất
Mới trong phiên bản 0. 23. 0
ngoài. gấu trúc. Phân loại, Sê-ri hoặc ndarray
Một đối tượng giống như mảng đại diện cho thùng tương ứng cho từng giá trị của x. Loại phụ thuộc vào giá trị của nhãn
- Đúng [mặc định]. trả về Sê-ri cho Sê-ri x hoặc gấu trúc. Phân loại cho tất cả các đầu vào khác. Các giá trị được lưu trữ bên trong là Interval dtype
- chuỗi vô hướng. trả về Sê-ri cho Sê-ri x hoặc gấu trúc. Phân loại cho tất cả các đầu vào khác. Các giá trị được lưu trữ bên trong là bất kỳ loại nào trong chuỗi là
- Sai. trả về một dãy số nguyên
thùng. cục mịch. ndarray hoặc Interval Index
Các thùng được tính toán hoặc được chỉ định. Chỉ được trả lại khi retbins=True. Đối với các thùng vô hướng hoặc chuỗi, đây là một ndarray với các thùng được tính toán. Nếu đặt trùng lặp=thả, thùng sẽ bỏ thùng không phải là duy nhất. Đối với một thùng IntervalIndex, giá trị này bằng với số thùng
Xem thêm
Biến rời rạc thành các nhóm có kích thước bằng nhau dựa trên thứ hạng hoặc dựa trên lượng tử mẫu. Loại mảng để lưu trữ dữ liệu đến từ một tập hợp giá trị cố định. Mảng một chiều có nhãn trục [bao gồm cả chuỗi thời gian]. Immutable Index triển khai một tập hợp có thứ tự, có thể cắt đượcghi chú
Mọi giá trị NA sẽ là NA trong kết quả. Các giá trị ngoài giới hạn sẽ là NA trong Sê-ri hoặc gấu trúc kết quả. đối tượng phân loại
ví dụ
Rời rạc thành ba thùng có kích thước bằng nhau
>>> pd.cut[np.array[[1, 7, 5, 4, 6, 3]], 3] .. [[0.994, 3.0], [5.0, 7.0], [3.0, 5.0], [3.0, 5.0], [5.0, 7.0], ... Categories [3, interval[float64]]: [[0.994, 3.0] < [3.0, 5.0] ...
>>> pd.cut[np.array[[1, 7, 5, 4, 6, 3]], 3, retbins=True] .. [[[0.994, 3.0], [5.0, 7.0], [3.0, 5.0], [3.0, 5.0], [5.0, 7.0], ... Categories [3, interval[float64]]: [[0.994, 3.0] < [3.0, 5.0] ... array[[0.994, 3. , 5. , 7. ]]]
Khám phá các thùng giống nhau, nhưng gán cho chúng các nhãn cụ thể. Lưu ý rằng các danh mục của Categorical được trả về là các nhãn và được sắp xếp theo thứ tự
>>> pd.cut[np.array[[1, 7, 5, 4, 6, 3]], .. 3, labels=["bad", "medium", "good"]] [bad, good, medium, medium, good, bad] Categories [3, object]: [bad < medium < good]
>>> pd.cut[np.array[[1, 7, 5, 4, 6, 3]], 3, retbins=True] .. [[[0.994, 3.0], [5.0, 7.0], [3.0, 5.0], [3.0, 5.0], [5.0, 7.0], ... Categories [3, interval[float64]]: [[0.994, 3.0] < [3.0, 5.0] ... array[[0.994, 3. , 5. , 7. ]]]6 ngụ ý bạn chỉ muốn trả lại thùng rác
>>> pd.cut[[0, 1, 1, 2], bins=4, labels=False] array[[0, 1, 1, 3]]
Chuyển một Sê-ri làm đầu vào trả về một Sê-ri có dtype phân loại
>>> s = pd.Series[np.array[[2, 4, 6, 8, 10]], .. index=['a', 'b', 'c', 'd', 'e']] >>> pd.cut[s, 3] .. a [1.992, 4.667] b [1.992, 4.667] c [4.667, 7.333] d [7.333, 10.0] e [7.333, 10.0] dtype: category Categories [3, interval[float64]]: [[1.992, 4.667] < [4.667, ...
Truyền Sê-ri làm đầu vào trả về Sê-ri có giá trị ánh xạ. Nó được sử dụng để ánh xạ số tới các khoảng dựa trên các thùng
________số 8
Sử dụng thả tùy chọn khi thùng không phải là duy nhất
>>> pd.cut[s, [0, 2, 4, 6, 10, 10], labels=False, retbins=True, .. right=False, duplicates='drop'] .. [a 0.0 b 1.0 c 2.0 d 3.0 e 3.0 dtype: float64, array[[0, 2, 4, 6, 8]]]
Việc chuyển một IntervalIndex cho các thùng sẽ dẫn đến chính xác các danh mục đó. Lưu ý rằng các giá trị không nằm trong Interval Index được đặt thành NaN. 0 ở bên trái của thùng đầu tiên [được đóng ở bên phải] và 1. 5 rơi giữa hai thùng