Cây quyết định html

Theo bạn Decision Tree là gì? . Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khác nhau như Nhị phân (Nhị phân), Định danh (Danh nghĩa), Thứ tự (Ordinal), Số lượng (Định lượng). Mặt khác, thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal

Cây quyết định là một trong những mô hình có khả năng diễn giải cao và có thể thực hiện nhiệm vụ phân loại và hồi quy. Để thực hiện các mô hình tuyến tính cổ điển, người dùng phải đảm bảo dữ liệu được sử dụng để đào tạo mô hình không có các bất thường như giá trị ngoại lệ cần được xử lý, xử lý giá trị bị thiếu, đa tuyến cần thiết

Trong khi với Cây quyết định, chúng ta không cần phải thực hiện bất kỳ loại xử lý dữ liệu nào trước đó. Cây quyết định đủ mạnh để xử lý tất cả các loại vấn đề như vậy để đi đến quyết định. Bên cạnh đó, Decision Tree có khả năng xử lý dữ liệu phi tuyến mà các mô hình tuyến tính cổ điển không xử lý được

Xem thêm

  • Hệ thống phân cụm là gì?

Cây quyết định html

Cây quyết định được sử dụng để hỗ trợ quá trình ra quyết định

Một số thuật ngữ

Cùng tìm hiểu một vài thuật ngữ liên quan để hiểu rõ hơn về Decision Tree là gì. Mô hình này được áp dụng cho cả 2 bài toán Phân loại (Phân loại) và Hồi quy (Hồi quy). Trong đó, bài toán Phân loại được sử dụng nhiều hơn

  • cây hồi quy. ước lượng các hàm có giá trị là số thực tế vì được sử dụng cho các nhiệm vụ phân loại
  • cây phân loại. nếu y là một biến phân loại như. giới tính (nam hay nữ), kết quả của một trận đấu (thắng hay thua)
  • nút gốc. nút hiện ở cây quyết định đầu tiên. Từ nút này, quần có thể bắt đầu phân chia theo các đặc điểm khác nhau
  • nút quyết định. nút nhận được sau khi phân tách các nút gốc
  • Leaf Nodes (not the end). các nút không thể tách thêm
  • cây phụ. một phần con của cây quyết định
  • cắt tỉa. pull down a number node to continue page is too level

Cây quyết định html

Các thuật ngữ trong Cây quyết định

Constructor of Decision Trees

Cây quyết định bao gồm 3 phần chính. node gốc (node ​​gốc), node lá (node ​​node) và các nhánh nhỏ (branch). Trong đó nút gốc là điểm bắt đầu của Cây quyết định và cả hai nút gốc và nút chứa câu hỏi hoặc tiêu chí để được trả lời. Các nhánh nhỏ có thể hiển thị kết quả kiểm tra trên nút

Ưu điểm và nhược điểm của Cây quyết định là gì?

Vì vậy, với các phương pháp khai thác dữ liệu khác nhau, Decision Tree có một số đặc điểm nổi bật như sau

ưu điểm

  • Mô hình cây quyết định đơn giản, trực quan, không quá phức tạp để hiểu sau khi được giải thích ngắn
  • Một số thuật toán Cây quyết định có khả năng xử lý dữ liệu bị thiếu và dữ liệu bị lỗi mà không cần áp dụng phương pháp như “giá trị bị thiếu” hoặc loại bỏ. Bên cạnh đó, Decision Tree ít bị ảnh hưởng bởi các dữ liệu ngoại lệ (outliers)
  • Đây là phương pháp không sử dụng tham số (nonparametric) nên không cần có các giả định ban đầu về các luật phân phối như trong bảng kê. Nhờ đó các kết quả phân tích luôn khách quan nhất
  • Cây quyết định có thể giúp chúng ta phân loại đối tượng dữ liệu theo biến mục tiêu có nhiều lớp, nhiều nhóm khác nhau, nhất là dạng biến định lượng phức tạp
  • Áp dụng linh hoạt cho các biến mục tiêu, biến mục tiêu là biến định tính (tác vụ phân loại) và cả định lượng (tác vụ hồi quy)
  • Mang lại kết quả dự báo có độ chính xác cao, dễ dàng thực hiện, nhanh chóng trong quá trình đào tạo, không cần phải chuyển đổi các biến
  • Cây quyết định rất dễ diễn giải hay giải thích cho những người muốn hiểu rõ về kết quả phân tích nhưng không có kiến ​​thức gì về khoa học dữ liệu
  • Mặc dù không thể xác định được mối quan hệ tuyến tính, hay mức độ liên hệ nhưng Decision Tree vẫn nói lên được mối liên hệ giữa các biến, thuộc tính dữ liệu một cách trực quan nhất.
  • Ngoài kinh tế, tài chính, Cây quyết định có thể được ứng dụng trong các lĩnh vực y tế, nông nghiệp, sinh học

Cây quyết định html

Cây Quyết Định được sử dụng rộng rãi nhờ mang lại nhiều lợi ích

nhược điểm

  • Cây quyết định hoạt động hiệu quả trên bộ dữ liệu đơn giản có ít biến dữ liệu liên hệ với nhau. Khi áp dụng với bộ dữ liệu phức tạp, nhiều biến và thuộc tính khác nhau có thể dẫn đến mô hình bị quá khớp, quá khớp với đào tạo dữ liệu dẫn đến vấn đề không đưa ra kết quả phân loại chính xác.
  • Khi có sự thay đổi nhỏ trong bộ dữ liệu sẽ gây ảnh hưởng đến cấu trúc của mô hình
  • Cây quyết định chỉ áp dụng cho biến định tính (cây phân loại) nếu phân loại sai có thể dẫn đến sai phạm nghiêm trọng. Còn đối với biến định lượng (cây hồi quy) thì chỉ phân loại đối tượng, hay dự báo theo phạm vi giá trị (phạm vi) được tạo ra trước đó
  • Mô hình này có khả năng “thiên vị” nếu bộ dữ liệu không được cân bằng, chỉ xem xét các giá trị tiêu biểu, và nguyên cơ “Lớp lót”
  • Cây quyết định yêu cầu bộ dữ liệu đào tạo và kiểm tra phải được chuẩn bị hoàn hảo, chất lượng tốt phải được cân bằng đối với các lớp, nhóm trong biến mục tiêu
  • Cây quyết định được hình thành dựa trên các cách thức phân nhánh tại mỗi thời điểm, một nút hoặc biến dữ liệu bất kỳ và chỉ quan tâm duy nhất vào việc phân nhánh sao cho ưu tiên tối đa tại thời điểm đó, mà không xem xét đến toàn bộ
  • Decision Tree chỉ phân nhánh liên tục dựa trên các công thức phân nhánh cho đến khi thấy được kết quả cuối cùng nên chúng ta khó phát hiện được các sai sót

Cây quyết định html

Mô hình cây quyết định phụ thuộc rất lớn vào nguồn dữ liệu của bạn

Cây quyết định thuật toán

Dưới đây, chúng ta cùng tìm hiểu các thuật toán nổi tiếng và cơ bản nhất của Decision Tree

ID3 thuật toán

Iterative Dichotomiser 3 (ID3) là thuật toán nổi tiếng để xây dựng Cây quyết định, áp dụng cho bài toán Phân loại mà tất cả các thuộc tính ở định dạng danh mục. ID3 sử dụng phương pháp tìm kiếm từ trên xuống thông qua không gian của các chi nhánh không thể quay lui. Thuật toán ID3 sử dụng Entropy và Information Gain để xây dựng Cây quyết định

Thuật toán C4. 5

Thuật toán C4. 5 là thuật toán cải tiến ID3. Trong thuật toán ID3, Information Gain được sử dụng để đo lường nhưng ở phương pháp này lại ưu tiên những thuộc tính có số lượng lớn nhất của các giá trị, ít đánh giá tới những giá trị nhỏ hơn. Do vậy, để khắc phục nhược điểm trên, ta sử dụng độ đo Gain Ratio (trong thuật toán C4. 5) as after

Đầu tiên, người dùng cần chuẩn hóa độ lợi thông tin với giá trị phân tách thông tin (thông tin chia nhỏ). Giả sử chúng ta phân chia biến thành nút gốc và Di đại diện cho số lượng bản ghi thuộc về nút đó. Do đó, các hệ số Gain Ratio sẽ xem xét được xu hướng phân phối khi chia cây. Áp dụng cho ví dụ trên và với cách chia thứ nhất, ta có

Thông tin phân chia = – ((4/7)*log2(4/7)) – ((3/7)*log2(3/7)) = 0. 98

Tỷ lệ tăng = 0. 09/0. 98 = 0. 092

Ngoài ID3, C4. 5, chúng ta còn một số thuật toán khác như

  • CHAID TOÁN. Tạo cây quyết định bằng cách sử dụng thống kê chi-square để xác định các phân tách tối ưu. Các biến mục đầu vào có thể là số (liên tục) hoặc phân loại
  • Thuật toán C&R. Sử dụng phân vùng đệ quy để chia cây, tham biến mục tiêu có thể định dạng số hoặc phân loại
  • SAO HOẢ
  • Cây suy luận có điều kiện

Cây quyết định html

Cây quyết định thuật toán C4. 5

Lời kết

Trên đây là thông tin chi tiết để giải thích định nghĩa Cây quyết định là gì?. Hy vọng với những kiến ​​thức bổ sung trong bài viết trên, bạn đọc đã biết cách sử dụng mô hình này chính xác và hiệu quả nhất