Giá trị nhóm Python

Data binning, còn được gọi là bucketing hoặc discretization, là một kỹ thuật được sử dụng trong xử lý và thống kê dữ liệu. Binning có thể được sử dụng chẳng hạn, nếu có nhiều điểm dữ liệu có thể hơn các điểm dữ liệu được quan sát. Một ví dụ là phân loại chiều cao cơ thể của mọi người thành các khoảng hoặc danh mục. Giả sử, chúng ta lấy chiều cao của 30 người. Các giá trị độ dài có thể nằm trong khoảng - đoán đại khái - 1. 30 mét đến 2. 50 mét. Về mặt lý thuyết, có thể có 120 giá trị cm khác nhau, nhưng chúng tôi có thể có tối đa 30 giá trị khác nhau từ nhóm mẫu của mình. Một cách để nhóm chúng có thể là đặt các giá trị đo được vào các ngăn từ 1. 30 - 1. 50 mét, 1. 50 - 1. 70 mét, 1. 70 - 1. 90 mét và như vậy. Điều này có nghĩa là các giá trị dữ liệu ban đầu sẽ được gán cho một thùng phù hợp với kích thước của chúng. Các giá trị ban đầu sẽ được thay thế bằng các giá trị đại diện cho các khoảng tương ứng. Binning là một hình thức lượng tử hóa

Các thùng không nhất thiết phải là số, chúng có thể là các giá trị phân loại thuộc bất kỳ loại nào, chẳng hạn như "chó", "mèo", "hamster", v.v.

Binning cũng được sử dụng trong xử lý ảnh, binning. Nó có thể được sử dụng để giảm lượng dữ liệu, bằng cách kết hợp các pixel lân cận thành các pixel đơn lẻ. kxk binning giảm diện tích k x k pixel thành pixel đơn

Pandas cung cấp các cách dễ dàng để tạo thùng và dữ liệu thùng. Trước khi mô tả các chức năng này của Pandas, chúng tôi sẽ giới thiệu các hàm cơ bản của Python, hoạt động trên các danh sách và bộ dữ liệu Python

Đào tạo Python trực tiếp

Thưởng thức trang này?

Thấy. Tổng quan về các khóa học Python trực tiếp

đăng ký tại đây

Tạo thùng trong Python

Hàm Python sau có thể được sử dụng để tạo thùng

def create_bins[lower_bound, width, quantity]:
    """ create_bins returns an equal-width [distance] partitioning. 
        It returns an ascending list of tuples, representing the intervals.
        A tuple bins[i], i.e. [bins[i][0], bins[i][1]]  with i > 0 
        and i < quantity, satisfies the following conditions:
            [1] bins[i][0] + width == bins[i][1]
            [2] bins[i-1][0] + width == bins[i][0] and
                bins[i-1][1] + width == bins[i][1]
    """
    

    bins = []
    for low in range[lower_bound, 
                     lower_bound + quantity*width + 1, width]:
        bins.append[[low, low+width]]
    return bins

Bây giờ chúng ta sẽ tạo năm thùng [số lượng=5] với chiều rộng là 10 [chiều rộng=10] bắt đầu từ 10 [lower_bound=10]

bins = create_bins[lower_bound=10,
                   width=10,
                   quantity=5]

bins

ĐẦU RA

[[10, 20], [20, 30], [30, 40], [40, 50], [50, 60], [60, 70]]

Hàm tiếp theo 'find_bin' được gọi với một danh sách hoặc bộ bin 'bins', phải là hai bộ hoặc danh sách gồm hai phần tử. Hàm tìm chỉ mục của khoảng, nơi chứa giá trị 'giá trị'

def find_bin[value, bins]:
    """ bins is a list of tuples, like [[0,20], [20, 40], [40, 60]],
        binning returns the smallest index i of bins so that
        bin[i][0] 

Chủ Đề