Trong các mô hình học máy có khá nhiều cách phân loại, trong đó có một cách phân loại là mô hình có tham số và mô hình không có tham số (Parametric và Non parmetric)
Trong bài viết này chúng ta sẽ tìm hiểu sự khác nhau của 2 dạng mô hình này.
Mô hình học máy có tham số (Paramametric model)
Một số mô hình học máy có tham số như: Logistic regression, Neural Network, mô hình SVM có kernel
Mô hình học máy không tham số (Non Parmametric model)
Một số ví dụ có thể kể đến của mô hình học máy có tham số như: Mô hình cây quyết định, mô hình Naive Bayes, Random forests, mô hình SVM không có kernel.
Một số khác biệt giữa mô hình học máy có tham số và mô hìn học mấy không tham số
Một số khác biệt cơ bản của mô hình học máy có tham số và mô hình học máy không tham số là:
Mô hình học máy có tham số và không tham số khác nhau ở cách chúng xử lý dữ liệu và học hỏi từ dữ liệu.
-
Mô hình học máy có tham số (Parametric Models):
- Định nghĩa: Mô hình này giả định một hình thức cụ thể cho hàm số mà chúng ta đang cố gắng học từ dữ liệu, và chỉ có một số lượng hữu hạn tham số cần được ước lượng.
- Đặc điểm:
- Giả định hình thức hàm: Giả định trước dạng của hàm số (ví dụ: tuyến tính, logisitc, Gaussian, v.v.).
- Số lượng tham số cố định: Số lượng tham số trong mô hình không thay đổi, bất kể kích thước dữ liệu.
- Học tập nhanh: Việc huấn luyện thường nhanh hơn vì chỉ có một số lượng giới hạn tham số cần học.
- Ví dụ: Hồi quy tuyến tính, hồi quy logistic, Mạng nơ-ron sâu (Deep Neural Networks).
- Ưu điểm:
- Tiết kiệm không gian bộ nhớ và thời gian huấn luyện.
- Hiệu quả khi dữ liệu ít.
- Nhược điểm:
- Bị giới hạn bởi giả định về hình thức của mô hình.
- Nếu giả định sai, mô hình có thể không biểu diễn được mối quan hệ thực sự trong dữ liệu.
-
Mô hình học máy không tham số (Non-Parametric Models):
- Định nghĩa: Mô hình này không giả định trước hình thức của hàm số và có thể thay đổi linh hoạt dựa trên dữ liệu. Số lượng tham số của mô hình thường không cố định và có thể tăng lên khi kích thước dữ liệu tăng.
- Đặc điểm:
- Không giả định trước hàm số: Không có giả định rõ ràng về hình thức của hàm số cần học.
- Số lượng tham số không cố định: Thay đổi theo kích thước và độ phức tạp của dữ liệu.
- Học tập chậm hơn: Vì mô hình phải tính toán nhiều hơn và có thể cần lưu trữ nhiều dữ liệu.
- Ví dụ: Cây quyết định (Decision Trees), k-Nearest Neighbors (k-NN), Kernel Density Estimation.
- Ưu điểm:
- Linh hoạt hơn vì không giới hạn bởi hình thức của hàm số.
- Có thể phù hợp tốt hơn với dữ liệu thực tế nếu mối quan hệ giữa các biến rất phức tạp.
- Nhược điểm:
- Tốn nhiều bộ nhớ và thời gian tính toán hơn.
- Dễ bị overfitting nếu dữ liệu không đủ.
Tóm lại: Mô hình có tham số đưa ra giả định về cách dữ liệu hoạt động và chỉ học một số lượng hữu hạn tham số. Trong khi đó, mô hình không tham số không có giả định trước và số lượng tham số có thể tăng lên theo dữ liệu.