Các bước xử lý một bài toán học máy năm 2024
Nhiều năm trước, khi Spotify đang làm việc trên công cụ đề xuất của mình, họ đã phải đối mặt với những thách thức liên quan đến chất lượng dữ liệu được sử dụng để đào tạo các thuật toán ML. Show Nếu họ không quyết định quay lại giai đoạn chuẩn bị dữ liệu và đầu tư thêm nỗ lực vào việc làm sạch, chuẩn hóa và chuyển đổi dữ liệu của họ, thì rất có thể trải nghiệm nghe của chúng tôi sẽ không thú vị bằng. Việc chuẩn bị kỹ lưỡng dữ liệu cho máy học đã cho phép nền tảng phát trực tuyến đào tạo một công cụ ML mạnh mẽ để dự đoán chính xác sở thích nghe của người dùng và đưa ra các đề xuất âm nhạc được cá nhân hóa cao. Spotify đã tránh được một sai lầm nghiêm trọng mà các công ty mắc phải khi chuẩn bị dữ liệu cho máy học — không đầu tư đủ nỗ lực hoặc bỏ qua bất kỳ giai đoạn nào. Nhiều doanh nghiệp cho rằng việc cung cấp khối lượng lớn dữ liệu vào công cụ ML là đủ để tạo ra các dự đoán chính xác. Sự thật là nó có thể dẫn đến một số vấn đề, chẳng hạn như sai lệch thuật toán hoặc khả năng mở rộng hạn chế. Sự thành công của học máy phụ thuộc rất nhiều vào dữ liệu. Và điều đáng buồn là: tất cả các bộ dữ liệu đều có sai sót. Đó là lý do tại sao việc chuẩn bị dữ liệu là rất quan trọng đối với học máy. Nó giúp loại trừ những điểm không chính xác và sai lệch vốn có trong dữ liệu thô, để mô hình ML thu được tạo ra các dự đoán chính xác và đáng tin cậy hơn. Trong bài đăng trên blog này, chúng tôi nhấn mạnh tầm quan trọng của việc chuẩn bị dữ liệu cho máy học và chia sẻ phương pháp thu thập, làm sạch và chuyển đổi dữ liệu của chúng tôi. Vì vậy, nếu bạn chưa quen với ML và muốn đảm bảo sáng kiến của mình thành công, hãy tiếp tục đọc. Cách chuẩn bị dữ liệu cho máy họcBước đầu tiên để áp dụng thành công ML là hình thành rõ ràng vấn đề kinh doanh của bạn. Nó không chỉ đảm bảo rằng mô hình ML mà bạn đang xây dựng phù hợp với nhu cầu kinh doanh của bạn mà còn cho phép bạn tiết kiệm thời gian và tiền bạc cho việc chuẩn bị dữ liệu có thể không liên quan. Ngoài ra, một tuyên bố vấn đề rõ ràng làm cho mô hình ML có thể giải thích được (có nghĩa là người dùng hiểu cách nó đưa ra quyết định). Nó đặc biệt quan trọng trong các lĩnh vực như chăm sóc sức khỏe và tài chính, nơi máy học có tác động lớn đến cuộc sống của mọi người. Khi vấn đề kinh doanh được khắc phục, đã đến lúc bắt đầu công việc dữ liệu. Nhìn chung, quá trình chuẩn bị dữ liệu cho máy học có thể được chia thành các giai đoạn sau:
Chúng ta hãy xem xét kỹ hơn từng cái. Thu thập dữ liệuChuẩn bị dữ liệu cho học máy bắt đầu bằng việc thu thập dữ liệu. Trong giai đoạn thu thập dữ liệu, bạn thu thập dữ liệu để đào tạo và điều chỉnh mô hình ML trong tương lai. Khi làm như vậy, hãy ghi nhớ loại, khối lượng và chất lượng dữ liệu : những yếu tố này sẽ xác định chiến lược chuẩn bị dữ liệu tốt nhất. Học máy sử dụng ba loại dữ liệu: có cấu trúc, không cấu trúc và bán cấu trúc.
Cấu trúc của dữ liệu xác định cách tiếp cận tối ưu để chuẩn bị dữ liệu cho máy học. Ví dụ, dữ liệu có cấu trúc có thể dễ dàng được sắp xếp thành các bảng và được làm sạch thông qua tính năng chống trùng lặp, điền vào các giá trị còn thiếu hoặc chuẩn hóa định dạng dữ liệu. Ngược lại, việc trích xuất các tính năng có liên quan từ dữ liệu phi cấu trúc đòi hỏi các kỹ thuật phức tạp hơn, chẳng hạn như xử lý ngôn ngữ tự nhiên hoặc thị giác máy tính . Cách tiếp cận tối ưu để chuẩn bị dữ liệu cho máy học cũng bị ảnh hưởng bởi khối lượng dữ liệu đào tạo. Một tập dữ liệu lớn có thể yêu cầu lấy mẫu, bao gồm việc chọn một tập hợp con dữ liệu để huấn luyện mô hình do các giới hạn tính toán. Đổi lại, một quy mô nhỏ hơn có thể yêu cầu các nhà khoa học dữ liệu thực hiện các bước bổ sung để tạo thêm dữ liệu dựa trên các điểm dữ liệu hiện có (thêm về điều đó bên dưới.) Chất lượng của dữ liệu được thu thập cũng rất quan trọng. Việc sử dụng dữ liệu không chính xác hoặc sai lệch có thể ảnh hưởng đến đầu ra ML, điều này có thể gây ra những hậu quả nghiêm trọng, đặc biệt là trong các lĩnh vực như tài chính, chăm sóc sức khỏe và tư pháp hình sự. Có những kỹ thuật cho phép dữ liệu được sửa lỗi và sai lệch. Tuy nhiên, chúng có thể không hoạt động trên tập dữ liệu vốn đã bị sai lệch. Khi bạn biết điều gì tạo nên dữ liệu “tốt”, bạn phải quyết định cách thu thập dữ liệu đó và tìm nó ở đâu. Có một số chiến lược cho điều đó:
Tuy nhiên, đôi khi những chiến lược này không mang lại đủ dữ liệu. Bạn có thể bù đắp cho việc thiếu điểm dữ liệu bằng các kỹ thuật sau:
Làm sạch dữ liệuBước tiếp theo cần thực hiện để chuẩn bị dữ liệu cho máy học là làm sạch dữ liệu đó. Làm sạch dữ liệu liên quan đến việc tìm và sửa lỗi, sự không nhất quán và các giá trị bị thiếu. Có một số cách tiếp cận để làm điều đó:
Chuyển đổi dữ liệuTrong giai đoạn chuyển đổi dữ liệu, bạn chuyển đổi dữ liệu thô sang định dạng phù hợp với thuật toán máy học. Điều đó đảm bảo hiệu suất và độ chính xác của thuật toán cao hơn. Các chuyên gia của chúng tôi trong việc chuẩn bị dữ liệu cho máy học đặt tên cho các kỹ thuật chuyển đổi dữ liệu phổ biến sau:
tách dữ liệuBước tiếp theo trong quá trình chuẩn bị dữ liệu cho máy học bao gồm việc chia tất cả dữ liệu đã thu thập thành các tập hợp con — quá trình này được gọi là phân tách dữ liệu. Thông thường, dữ liệu được chia nhỏ thành tập dữ liệu đào tạo, xác thực và thử nghiệm.
Bằng cách chia tách dữ liệu, chúng tôi có thể đánh giá mức độ hiệu quả của một mô hình máy học trên dữ liệu mà nó chưa từng thấy trước đây. Nếu không có sự phân tách, rất có thể mô hình sẽ hoạt động kém trên dữ liệu mới. Điều này có thể xảy ra vì mô hình có thể chỉ ghi nhớ các điểm dữ liệu thay vì học các mẫu và khái quát hóa chúng thành dữ liệu mới. Có một số cách tiếp cận để phân tách dữ liệu và việc lựa chọn cách tối ưu nhất phụ thuộc vào vấn đề đang được giải quyết và các thuộc tính của tập dữ liệu. Các chuyên gia của chúng tôi trong việc chuẩn bị dữ liệu cho máy học nói rằng nhóm dữ liệu thường yêu cầu một số thử nghiệm để xác định chiến lược phân tách hiệu quả nhất. Sau đây là những cái phổ biến nhất:
Trên một lưu ý cuối cùngChuẩn bị đúng cách dữ liệu cho máy học là điều cần thiết để phát triển các giải pháp máy học chính xác và đáng tin cậy. Tại ITRex, chúng tôi hiểu những thách thức của việc chuẩn bị dữ liệu và tầm quan trọng của việc có một bộ dữ liệu chất lượng cho một quy trình học máy thành công. Nếu bạn muốn tối đa hóa tiềm năng dữ liệu của mình thông qua học máy, hãy liên hệ với nhóm ITRex . Các chuyên gia của chúng tôi sẽ hỗ trợ thu thập, làm sạch và chuyển đổi dữ liệu của bạn. |