Định lý Bayes cung cấp nguyên tắc để tính xác suất có điều kiện.

Nó là một phép tính tưởng chừng đơn giản, mặc dù nó có thể được sử dụng để dễ dàng tính toán xác suất có điều kiện của các sự kiện mà trực giác thường thất bại.

Định lý Bayes là một công cụ mạnh mẽ trong lĩnh vực xác suất, Nó cũng được sử dụng rộng rãi trong lĩnh vực học máy. Bao gồm việc sử dụng nó trong khung xác suất để khớp mô hình với tập dữ liệu huấn luyện, được gọi là tối đa hậu nghiệm hoặc viết tắt là MAP và trong việc phát triển các mô hình cho các vấn đề mô hình dự đoán phân loại như Trình phân loại tối ưu Bayes và Naive Bayes.

Định lý Bayes tính xác xuất có điều kiện

Trước khi đi sâu vào định lý Bayes, chúng ta hãy xem lại xác suất cận biên, chung và có điều kiện.

Nhớ lại rằng xác suất cận biên là xác suất của một sự kiện, bất kể các biến ngẫu nhiên khác. Nếu biến ngẫu nhiên độc lập thì đó là xác suất của biến cố trực tiếp, ngược lại, nếu biến ngẫu nhiên phụ thuộc vào các biến khác thì xác suất biên là xác suất của biến cố cộng lại trên tất cả các kết quả của các biến phụ thuộc, gọi là tổng luật lệ.

  • Xác suất cận biên: Xác suất của một sự kiện bất kể kết quả của các biến ngẫu nhiên khác, ví dụ: P(A). Xác suất chung là xác suất của hai (hoặc nhiều) sự kiện đồng thời, thường được mô tả dưới dạng các sự kiện A và B từ hai biến ngẫu nhiên phụ thuộc, ví dụ: X và Y. Xác suất chung thường được tóm tắt chỉ là các kết quả, ví dụ: A và B.
  • Xác suất chung: Xác suất của hai (hoặc nhiều) sự kiện đồng thời, ví dụ: P(A và B) hoặc P(A, B). Xác suất có điều kiện là xác suất của một sự kiện khi xảy ra một sự kiện khác, thường được mô tả dưới dạng các sự kiện A và B từ hai biến ngẫu nhiên phụ thuộc, ví dụ: X và Y.
  • Xác suất có điều kiện: Xác suất của một (hoặc nhiều) sự kiện khi xảy ra một sự kiện khác, ví dụ: P(A cho trước B) hoặc P(A | B). Xác suất chung có thể được tính bằng xác suất có điều kiện; Ví dụ: P(A, B) = P(A | B) * P(B) Đây được gọi là quy tắc sản phẩm. Điều quan trọng, xác suất chung là đối xứng, có nghĩa là: P(A, B) = P(B, A) Xác suất có điều kiện có thể được tính bằng xác suất chung; Ví dụ: P(A | B) = P(A, B) / P(B) Xác suất có điều kiện không đối xứng; Ví dụ: P(A | B) != P(B | A) Bây giờ chúng tôi đang tăng tốc với xác suất cận biên, chung và có điều kiện. Nếu bạn muốn biết thêm thông tin cơ bản về các nguyên tắc cơ bản này, hãy xem hướng dẫn: Giới thiệu nhẹ nhàng về xác suất chung, cận biên và có điều kiện

Có một cách khác để tính xác suất có điều kiện.

Cụ thể, một xác suất có điều kiện có thể được tính bằng xác suất có điều kiện khác; Ví dụ: P(A|B) = P(B|A) * P(A) / P(B)

Điều ngược lại cũng đúng; Ví dụ: P(B|A) = P(A|B) * P(B) / P(A)

Phương pháp tính toán xác suất có điều kiện thay thế này rất hữu ích khi xác suất chung khó tính toán (hầu hết thời gian) hoặc khi xác suất có điều kiện ngược lại có sẵn hoặc dễ tính toán.

Cách tính xác suất có điều kiện thay thế này được gọi là Quy tắc Bayes hoặc Định lý Bayes, được đặt theo tên của Reverend Thomas Bayes, người được ghi nhận là người đầu tiên mô tả nó.

Về mặt ngữ pháp, gọi nó là Định lý Bayes (với dấu nháy đơn), nhưng người ta thường bỏ qua dấu nháy đơn để đơn giản.

Định lý Bayes: Cách nguyên tắc để tính xác suất có điều kiện mà không có xác suất chung. Thường xảy ra trường hợp chúng ta không có quyền truy cập trực tiếp vào mẫu số, ví dụ: P(B). Chúng ta có thể tính toán nó theo một cách khác; Ví dụ: P(B) = P(B|A) * P(A) + P(B|không A) * P(không A) Điều này đưa ra một công thức của Định lý Bayes mà chúng ta có thể sử dụng sử dụng phép tính thay thế của P(B), được mô tả dưới đây: P(A|B) = P(B|A) * P(A) / P(B|A) * P(A) + P(B|không A) * P(không A) Hoặc với dấu ngoặc xung quanh mẫu số cho rõ ràng: P(A|B) = P(B|A) * P(A) / (P(B|A) * P(A) + P(B|không A) * P(không A)) Lưu ý: mẫu số chỉ đơn giản là phần mở rộng mà chúng tôi đã đưa ra ở trên. Như vậy, nếu chúng ta có P(A), thì chúng ta có thể tính P(không phải A) là phần bù của nó; Ví dụ: P(không A) = 1 – P(A)

Ngoài ra, nếu chúng ta có P(không phải B|không phải A), thì chúng ta có thể tính P(B|không phải A) là phần bù của nó; Ví dụ: P(B|không A) = 1 – P(không B|không A) Bây giờ chúng ta đã quen thuộc với việc tính toán Định lý Bayes, chúng ta hãy xem xét kỹ hơn ý nghĩa của các số hạng trong phương trình.

Tên các thuật ngữ trọng định lý Bayes

Các thuật ngữ trong phương trình Định lý Bayes được đặt tên tùy thuộc vào ngữ cảnh mà phương trình được sử dụng.

Có thể hữu ích khi suy nghĩ về phép tính từ những quan điểm khác nhau này và giúp ánh xạ vấn đề của bạn vào phương trình.

Thứ nhất, nói chung, kết quả P(A|B) được gọi là xác suất sau và P(A) được gọi là xác suất trước. P(A|B): Xác suất sau. P(A): Xác suất trước. Đôi khi P(B|A) được gọi là khả năng xảy ra và P(B) được gọi là bằng chứng. P(B|A): Khả năng xảy ra. P(B): Bằng chứng.

Điều này cho phép Định lý Bayes được trình bày lại như sau: Hậu quả = Khả năng * Trước / Bằng chứng Chúng ta có thể làm rõ điều này bằng một trường hợp khói và lửa. Xác suất có lửa khi có khói là bao nhiêu?

Trong đó P(Lửa) là Ưu tiên, P(Khói|Lửa) là Khả năng xảy ra và P(Khói) là bằng chứng: P(Lửa|Khói) = P(Khói|Lửa) * P(Lửa) / P(Khói)

Bạn có thể tưởng tượng tình huống tương tự với mưa và mây. Bây giờ chúng ta đã quen thuộc với Định lý Bayes và ý nghĩa của các thuật ngữ, hãy xem xét một tình huống mà chúng ta có thể tính toán nó.

Làm việc với các phép tính trong định lý bayes

Định lý Bayes được hiểu rõ nhất với một ví dụ hoạt động thực tế với các số thực để chứng minh các phép tính.

Trước tiên, chúng tôi sẽ xác định một kịch bản, sau đó thực hiện phép tính thủ công, phép tính bằng Python và phép tính sử dụng các thuật ngữ có thể quen thuộc với bạn trong lĩnh vực phân loại nhị phân.

Kịch bản thử nghiệm chẩn đoán

Tính toán thủ công

Mã nguồn bằng ngôn ngữ C#

Thuật ngữ phân loại nhị phân

Định lý Bayes cho nguyên lý Mô hình hóa

Định lý Bayes là một công cụ hữu ích trong học máy ứng dụng. Nó cung cấp một cách suy nghĩ về mối quan hệ giữa dữ liệu và một mô hình. Thuật toán hoặc mô hình học máy là một cách suy nghĩ cụ thể về các mối quan hệ có cấu trúc trong dữ liệu.

Theo cách này, một mô hình có thể được coi là một giả thuyết về các mối quan hệ trong dữ liệu, chẳng hạn như mối quan hệ giữa đầu vào (X) và đầu ra (y).

Thực hành học máy ứng dụng là thử nghiệm và phân tích các giả thuyết (mô hình) khác nhau trên một tập dữ liệu nhất định.

Nếu ý tưởng coi một mô hình như một giả thuyết là mới đối với bạn, hãy xem hướng dẫn này về chủ đề này: Giả thuyết trong Machine Learning là gì? Định lý Bayes cung cấp một mô hình xác suất để mô tả mối quan hệ giữa dữ liệu (D) và một giả thuyết (h); Ví dụ: P(h|D) = P(D|h) * P(h) / P(D) Phá vỡ điều này, nó nói rằng xác suất của một giả thuyết nhất định là đúng hoặc đúng với một số dữ liệu được quan sát có thể được tính bằng xác suất quan sát dữ liệu được đưa ra giả thuyết nhân với xác suất của giả thuyết là đúng bất kể dữ liệu là gì, chia cho xác suất quan sát dữ liệu bất kể giả thuyết. Định lý Bayes cung cấp một cách để tính xác suất của một giả thuyết dựa trên xác suất trước đó của nó, xác suất quan sát các dữ liệu khác nhau cho giả thuyết và chính dữ liệu được quan sát. — Trang 156, Học máy, 1997. Theo khuôn khổ này, mỗi phần của phép tính có một tên cụ thể; Ví dụ: P(h|D): Xác suất hậu nghiệm của giả thuyết (điều ta muốn tính toán). P(h): Xác suất trước của giả thuyết. Đ

iều này mang lại một khuôn khổ hữu ích để suy nghĩ và mô hình hóa một vấn đề học máy. Nếu chúng ta có một số kiến thức lĩnh vực trước đó về giả thuyết, thì điều này được nắm bắt trong xác suất trước đó. Nếu không, thì tất cả các giả thuyết có thể có cùng xác suất trước đó. Nếu xác suất quan sát dữ liệu P(D) tăng lên, thì xác suất giữ giả thuyết với dữ liệu P(h|D) giảm xuống. Ngược lại, nếu xác suất của giả thuyết P(h) và xác suất quan sát dữ liệu đưa ra giả thuyết tăng lên, xác suất giữ giả thuyết với dữ liệu P(h|D) tăng lên. Khái niệm thử nghiệm các mô hình khác nhau trên tập dữ liệu trong học máy ứng dụng có thể được coi là ước tính xác suất của từng giả thuyết (h1, h2, h3, … trong H) là đúng với dữ liệu được quan sát. Việc tối ưu hóa hoặc tìm kiếm giả thuyết với xác suất hậu nghiệm tối đa trong mô hình được gọi là tối đa hậu nghiệm hay viết tắt là MAP.

“Bất kỳ giả thuyết có thể xảy ra cực đại nào như vậy được gọi là giả thuyết hậu nghiệm (MAP) tối đa. Chúng ta có thể xác định các giả thuyết MAP bằng cách sử dụng định lý Bayes để tính xác suất sau của từng giả thuyết ứng cử viên.” — Trang 157, Học máy, 1997.

Trong khuôn khổ này, xác suất của dữ liệu (D) là không đổi vì nó được sử dụng để đánh giá từng giả thuyết. Do đó, nó có thể được loại bỏ khỏi tính toán để đưa ra ước tính không chuẩn hóa đơn giản hóa như sau: tối đa h trong H P(h|D) = P(D|h) * P(h)

Nếu chúng ta không có bất kỳ thông tin trước nào về giả thuyết đang được kiểm tra, thì chúng có thể được gán một xác suất đồng nhất và thuật ngữ này cũng sẽ là một hằng số và có thể được loại bỏ khỏi tính toán để đưa ra kết quả như sau: cực đại h trong H P(h|D) = P(D|h) Nghĩa là, mục tiêu là xác định một giả thuyết giải thích tốt nhất dữ liệu quan sát được. Các mô hình phù hợp như hồi quy tuyến tính để dự đoán giá trị số và hồi quy logistic để phân loại nhị phân có thể được đóng khung và giải quyết trong khuôn khổ xác suất MAP. Điều này cung cấp một giải pháp thay thế cho khuôn khổ ước lượng khả năng tối đa (MLE) phổ biến hơn.

Định lý Bayes cho phép toán phân lớp

Phân loại là một bài toán lập mô hình dự đoán liên quan đến việc gán nhãn cho một mẫu dữ liệu đầu vào nhất định. Vấn đề của mô hình dự đoán phân loại có thể được đóng khung khi tính toán xác suất có điều kiện của nhãn lớp được cung cấp một mẫu dữ liệu, ví dụ: P(lớp|dữ liệu) = (P(dữ liệu|lớp) * P(lớp)) / P(dữ liệu)

Trong đó P(lớp|dữ liệu) là xác suất của lớp được cung cấp dữ liệu. Tính toán này có thể được thực hiện cho từng lớp trong bài toán và lớp được gán xác suất lớn nhất có thể được chọn và gán cho dữ liệu đầu vào.

Trong thực tế, rất khó tính toán Định lý Bayes đầy đủ để phân loại. Các ưu tiên cho lớp và dữ liệu dễ dàng ước tính từ tập dữ liệu huấn luyện, nếu tập dữ liệu là đại diện phù hợp cho vấn đề rộng hơn. Xác suất có điều kiện của quan sát dựa trên lớp P(dữ liệu|lớp) là không khả thi trừ khi số lượng ví dụ cực kỳ lớn, ví dụ: đủ lớn để ước tính hiệu quả phân phối xác suất cho tất cả các kết hợp giá trị có thể khác nhau. Điều này gần như không bao giờ xảy ra, chúng tôi sẽ không có đủ phạm vi bảo hiểm của miền. Do đó, việc áp dụng trực tiếp Định lý Bayes cũng trở nên khó khăn, đặc biệt là khi số lượng biến hoặc tính năng (n) tăng lên.

Bộ phân loại Naive Bayes

Giải pháp sử dụng Định lý Bayes cho mô hình phân loại xác suất có điều kiện là đơn giản hóa việc tính toán. Định lý Bayes giả định rằng mỗi biến đầu vào phụ thuộc vào tất cả các biến khác. Đây là nguyên nhân gây phức tạp trong tính toán. Chúng ta có thể loại bỏ giả định này và coi từng biến đầu vào là độc lập với nhau. Điều này thay đổi mô hình từ mô hình xác suất có điều kiện phụ thuộc sang mô hình xác suất có điều kiện độc lập và đơn giản hóa đáng kể việc tính toán. Điều này có nghĩa là chúng tôi tính P(data|class) cho từng biến đầu vào riêng biệt và nhân các kết quả lại với nhau, ví dụ: P(lớp | X1, X2, …, Xn) = P(X1|lớp) * P(X2|lớp) * … * P(Xn|lớp) * P(lớp) / P(dữ liệu) Chúng tôi cũng có thể loại bỏ xác suất quan sát dữ liệu vì nó là hằng số cho tất cả các tính toán, ví dụ: P(lớp | X1, X2, …, Xn) = P(X1|lớp) * P(X2|lớp) * … * P(Xn|lớp) * P(lớp) Sự đơn giản hóa Định lý Bayes này là phổ biến và được sử dụng rộng rãi để phân loại các bài toán mô hình dự đoán và thường được gọi là Naive Bayes. Từ “ngây thơ” là tiếng Pháp và thường có dấu phân cách (âm sắc) trên chữ “i”, chữ này thường bị bỏ đi để đơn giản và “Bayes” được viết hoa vì nó được đặt tên theo Reverend Thomas Bayes.

LEAVE A REPLY

Please enter your comment!
Please enter your name here