“Friends don’t spy; true friendship is about privacy, too.”

Stephen King, Hearts in Atlantis (1999)

Vấn đề bảo mật trong học sâu

Hiện tại, như bạn đã biết rõ, học sâu, là một lĩnh vực con của học máy, là tất cả về học từ dữ liệu. Nhưng thông thường, dữ liệu được học là vô cùng cá nhân. Các mô hình có ý nghĩa nhất tương tác với thông tin cá nhân nhất về cuộc sống của con người và cho chúng ta biết những điều về bản thân mà có thể khó hoặc không biết. Nói cách khác, mô hình học sâu có thể nghiên cứu hàng toàn bộ đời người để giúp bạn hiểu rõ hơn về chính mình.

Tài nguyên chính cho học sâu là dữ liệu đào tạo (tổng hợp hoặc tự nhiên). Không có nó, học sâu không thể học được; và bởi vì các trường hợp sử dụng có giá trị nhất thường tương tác với các datsets cá nhân nhất, học sâu thường là lý do đằng sau các công ty tìm cách tổng hợp dữ liệu. Họ cần nó để giải quyết một trường hợp sử dụng cụ thể.

Nhưng vào năm 2017, Google đã xuất bản một bài báo và bài đăng trên blog rất thú vị đã tạo ra một vết lõm đáng kể trong cuộc trò chuyện này. Google đã đề xuất rằng chúng tôi không cần tập trung một tập dữ liệu để đào tạo một mô hình dựa trên nó. Google đề xuất câu hỏi này: điều gì sẽ xảy ra nếu thay vì đưa tất cả dữ liệu về một nơi, chúng ta có thể đưa mô hình vào dữ liệu? Đây là một trường con mới, thú vị của học máy được gọi là học liên kết và đó là nội dung của toàn bộ bài viết này.

Điều gì sẽ xảy ra nếu thay vì mang tập hợp dữ liệu đào tạo đến một nơi để đào tạo một mô hình, bạn có thể đưa mô hình đến dữ liệu ở bất cứ nơi nào nó được tạo?

Sự đảo ngược đơn giản này là cực kỳ quan trọng. Đầu tiên, điều đó có nghĩa là để tham gia vào đào tạo mô hình học sâu, về mặt kỹ thuật, mọi người không cần phải gửi dữ liệu của họ cho bất kỳ ai. Chúng ta có thể xây dựng những mô hình giá trị trong lĩnh vực chăm sóc sức khỏe, quản lý cá nhân và các lĩnh vực nhạy cảm khác mà không yêu cầu bất kỳ ai tiết lộ thông tin về bản thân. Về lý thuyết, mọi người có thể giữ quyền kiểm soát đối với bản sao dữ liệu cá nhân duy nhất của họ (ít nhất là đối với học sâu).

Kỹ thuật này cũng sẽ có tác động rất lớn đến bối cảnh cạnh tranh của học sâu trong cạnh tranh doanh nghiệp và tinh thần kinh doanh. Các doanh nghiệp lớn trước đây không (hoặc không thể, vì lý do pháp lý) chia sẻ dữ liệu về khách hàng của họ vẫn có thể kiếm được doanh thu từ dữ liệu đó. Có một số lĩnh vực và vấn đề trong đó độ nhạy cảm và các ràng buộc quy định xung quanh dữ liệu là một điều kiện bắt buộc để phát triển. Chăm sóc sức khỏe (healthcare), an ninh mạng là một ví dụ trong đó các bộ dữ liệu thường bị khóa chặt chẽ, khiến việc nghiên cứu trở nên khó khăn.

Học tập liên kết

Bạn không cần phải có quyền truy cập vào tập dữ liệu để học hỏi từ nó.
Tiền đề của học liên kết là nhiều bộ dữ liệu chứa các thông tin hữu ích để giải quyết các vấn đề (ví dụ: xác định bệnh ung thư trong MRI), nhưng thật khó để truy cập các bộ dữ liệu liên quan này với số lượng đủ lớn để đào tạo một mô hình học sâu phù hợp và mạnh mẽ. Mối quan tâm chính là, mặc dù tập dữ liệu có đủ thông tin để đào tạo mô hình học sâu, nó cũng có thông tin (có lẽ) không liên quan gì đến việc học nhiệm vụ nhưng có thể gây hại hoặc ảnh hưởng nếu nó bị tiết lộ thông tin.

Học liên kết là về một mô hình học an toàn và học cách giải quyết một vấn đề mà không cần dữ liệu di chuyển đến bất cứ đâu. Dưới đây là một ví dụ:

Học sâu để phát hiện Email spam

Giả sử bạn muốn đào tạo một mô hình trên các email của mọi người để phát hiện email spam. Trong trường hợp này, bài toán mà chúng ta sẽ nói đến là phân loại email. Mô hình đầu tiên sẽ được đào tạo trên một tập dữ liệu có sẵn công khai gọi là tập dữ liệu Enron, là một kho dữ liệu lớn của các email được phát hành từ vụ kiện Enron nổi tiếng (hiện là tập dữ liệu phân tích email tiêu chuẩn của ngành).

(Thực tế thú vị là :)) : Tôi từng biết một người đọc / chú thích bộ dữ liệu này một cách chuyên nghiệp và mọi người gửi email cho nhau đủ loại nội dung điên rồ cho nhau (phần lớn là rất cá nhân). Nhưng vì tất cả đều được phát hành công khai trong phiên tòa nên hiện tại, bạn có thể sử dụng miễn phí.)

Đoạn mã trong phần trước và phần này chỉ là phần xử lý trước. Tệp dữ liệu đầu vào (ham.txt và spam.txt) có sẵn trên trang web của cuốn sách, www.manning.com/books/grokking-deep-learning; và trên GitHub tại https://github.com/iamtrask/Grokking-Deep-Learning.

Với các hàm train () và test (), bạn có thể khởi tạo mạng nơ-ron và huấn luyện nó bằng cách sử dụng một vài dòng sau code. Chỉ sau ba lần lặp lại, mạng đã có thể phân loại trên tập dữ liệu thử nghiệm với độ chính xác 99,45% (tập dữ liệu thử nghiệm là cân bằng, vì vậy điều này khá tốt):

Học tập liên kết

Giờ chúng ta hãy làm cho nó học theo kiểu học liên kết. 🙂
Ví dụ trước đó là học sâu đơn giản. Bây giờ hãy bảo vệ quyền riêng tư.
Trong phần trước, bạn đã có ví dụ về email. Bây giờ, hãy đặt tất cả các email vào một nơi. Đây là cách làm truyền thống (vẫn còn quá phổ biến trên thế giới). Hãy bắt đầu bằng cách mô phỏng một môi trường học tập được liên kết có nhiều bộ sưu tập email khác nhau:

Giờ đây, bạn có thể thực hiện cùng một đào tạo mô hình như trước đây, nhưng trên toàn bộ cơ sở dữ liệu email của mỗi người cùng một thời điểm. Sau mỗi lần lặp lại, bạn sẽ tính trung bình các giá trị của các mô hình từ Bob, Alice và Sue rồi đánh giá. Lưu ý rằng một số phương pháp học liên kết tổng hợp sau mỗi đợt (hoặc tập hợp các đợt); Chúng ta có thể làm đơn giản như sau:

Trong phần tiếp theo của loạt bài viết về học liên kết, ta sẽ đưa ra một số kết quả giả thuyết, Model học được cho kết quả gần giống với kết quả trường?, và về lý thuyết bạn không thể truy cập được dữ liệu traning, sau đó, mỗi người thay đổi model ở đâu đó và bạn có thể thực không biết về dữ liệu của họ?

LEAVE A REPLY

Please enter your comment!
Please enter your name here