Cây quyết định html
Theo bạn Decision Tree là gì? . Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khác nhau như Nhị phân (Nhị phân), Định danh (Danh nghĩa), Thứ tự (Ordinal), Số lượng (Định lượng). Mặt khác, thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal
Cây quyết định là một trong những mô hình có khả năng diễn giải cao và có thể thực hiện nhiệm vụ phân loại và hồi quy. Để thực hiện các mô hình tuyến tính cổ điển, người dùng phải đảm bảo dữ liệu được sử dụng để đào tạo mô hình không có các bất thường như giá trị ngoại lệ cần được xử lý, xử lý giá trị bị thiếu, đa tuyến cần thiết Show Trong khi với Cây quyết định, chúng ta không cần phải thực hiện bất kỳ loại xử lý dữ liệu nào trước đó. Cây quyết định đủ mạnh để xử lý tất cả các loại vấn đề như vậy để đi đến quyết định. Bên cạnh đó, Decision Tree có khả năng xử lý dữ liệu phi tuyến mà các mô hình tuyến tính cổ điển không xử lý được Xem thêm
Một số thuật ngữCùng tìm hiểu một vài thuật ngữ liên quan để hiểu rõ hơn về Decision Tree là gì. Mô hình này được áp dụng cho cả 2 bài toán Phân loại (Phân loại) và Hồi quy (Hồi quy). Trong đó, bài toán Phân loại được sử dụng nhiều hơn
Constructor of Decision TreesCây quyết định bao gồm 3 phần chính. node gốc (node gốc), node lá (node node) và các nhánh nhỏ (branch). Trong đó nút gốc là điểm bắt đầu của Cây quyết định và cả hai nút gốc và nút chứa câu hỏi hoặc tiêu chí để được trả lời. Các nhánh nhỏ có thể hiển thị kết quả kiểm tra trên nút Ưu điểm và nhược điểm của Cây quyết định là gì?Vì vậy, với các phương pháp khai thác dữ liệu khác nhau, Decision Tree có một số đặc điểm nổi bật như sau ưu điểm
nhược điểm
Cây quyết định thuật toánDưới đây, chúng ta cùng tìm hiểu các thuật toán nổi tiếng và cơ bản nhất của Decision Tree ID3 thuật toánIterative Dichotomiser 3 (ID3) là thuật toán nổi tiếng để xây dựng Cây quyết định, áp dụng cho bài toán Phân loại mà tất cả các thuộc tính ở định dạng danh mục. ID3 sử dụng phương pháp tìm kiếm từ trên xuống thông qua không gian của các chi nhánh không thể quay lui. Thuật toán ID3 sử dụng Entropy và Information Gain để xây dựng Cây quyết định Thuật toán C4. 5Thuật toán C4. 5 là thuật toán cải tiến ID3. Trong thuật toán ID3, Information Gain được sử dụng để đo lường nhưng ở phương pháp này lại ưu tiên những thuộc tính có số lượng lớn nhất của các giá trị, ít đánh giá tới những giá trị nhỏ hơn. Do vậy, để khắc phục nhược điểm trên, ta sử dụng độ đo Gain Ratio (trong thuật toán C4. 5) as after Đầu tiên, người dùng cần chuẩn hóa độ lợi thông tin với giá trị phân tách thông tin (thông tin chia nhỏ). Giả sử chúng ta phân chia biến thành nút gốc và Di đại diện cho số lượng bản ghi thuộc về nút đó. Do đó, các hệ số Gain Ratio sẽ xem xét được xu hướng phân phối khi chia cây. Áp dụng cho ví dụ trên và với cách chia thứ nhất, ta có Thông tin phân chia = – ((4/7)*log2(4/7)) – ((3/7)*log2(3/7)) = 0. 98 Tỷ lệ tăng = 0. 09/0. 98 = 0. 092 Ngoài ID3, C4. 5, chúng ta còn một số thuật toán khác như
Lời kếtTrên đây là thông tin chi tiết để giải thích định nghĩa Cây quyết định là gì?. Hy vọng với những kiến thức bổ sung trong bài viết trên, bạn đọc đã biết cách sử dụng mô hình này chính xác và hiệu quả nhất |