Ba nhánh máy học chính bao gồm: Học giám sát (supervise learning), Học không giám sát (Unsupervise learning) và Học cũng cố (Reinforcement learning).
Trong bài viết này chúng ta sẽ cùng tìm hiểu về học máy có giám sát (supervise learning)
Định nghĩa học máy giám sát
: Những vấn đề liên quan hay sử dụng phương pháp học giám sát thường là những vấn đề có tập dữ liệu đã được đánh nhãn (labelled)Thế nào là một tập dữ liệu được đánh nhãn?
Ví dụ về học máy giám sát
Một tập dữ liệu bất kỳ bao gồm 2 phần chính: đầu vào (input) và đầu ra (output). Dựa trên những đặc tính riêng biệt nào đó của đầu vào, đầu ra sẽ gán một nhãn qui ước cho đầu vào tương ứng. Ví dụ: Chúng ta có một tập xe hơi, dựa trên đặc tính về hãng sản xuất, chúng ta có thể đánh nhãn theo hãng sản xuất cho những chiếc xe trong tập xe hơi của chúng ta như xe Mecided, Huyndai, Honda,…. Chúng ta có một nhóm động vật là gia cầm, dựa vào những đặc điểm sinh học, chúng ta sẽ có nhãn cho từng loài như vịt, gà, ngan,…Việc ‘học’ dựa trên những tập dữ liệu có nhãn là tìm ra mối liên hệ giữa đầu ra và đầu vào, ở góc độ toán học việc này được gọi là tìm hàm xấp xỉ.
Ví dụ:
Input | 1 | 2 | 3 | 4 |
Output | 1 | 4 | 9 | ? |
Giả sử bạn được yêu cầu tìm đáp án cho dấu hỏi trong bảng trên, câu trả lời của bạn là gì? Trong quá trình tư duy để tìm ra đáp án, não của bạn đang thực hiện một quá trình “học”, tức là tìm một quy luật hay mối liên hệ giữa các giá trị của đầu vào và đầu ra, cuối cùng đưa ra kết quả, sau khi quá trình “học” này kết thúc. Đáp án với những người đã học phép toán nhân quả là dễ dàng: 16. Tuy nhiên, tại sao bạn lại đưa ra con số đó không phải là một giá trị nào khác? Bạn chắc chắn phải dựa trên một cơ sở nào đó, hay khác hơn, một hàm toán học nào đó. Khi bạn nhận ra được hàm này, việc đơn giản là chỉ cần thay giá trị đầu vào, cụ thể là 4, vào phép toán đó và nhận được đáp án là 16. Vậy hàm hay là mối liên hệ đó chính là .
Hoc giám sát bao gồm: Phân lớp (Classification) và Dự đoán (Reggession)
Phân lớp