“Tình bạn thực sự cũng là một sự riêng tư”
– Stephen King, Hearts in Atlantis (1999)

Vấn đề bảo mật trong học sâu

Học sâu (và các công cụ cho nó) thường có nghĩa là bạn có quyền truy cập vào dữ liệu đào tạo của bạn Hiện tại, như bạn đã biết rõ, học sâu, là một lĩnh vực con của học máy, tất cả đều là học từ dữ liệu. Nhưng thông thường, dữ liệu được học là vô cùng cá nhân, riêng tư. Các mô hình có ý nghĩa nhất tương tác với thông tin cá nhân nhất về cuộc sống của con người và cho chúng ta biết những điều về bản thân mà có thể khó biết.
Nói một cách khác, một mô hình học sâu có thể nghiên cứu hàng nghìn đời người để giúp bạn hiểu rõ hơn về chính mình.
Tài nguyên thiên nhiên chính cho học sâu là dữ liệu đào tạo (tổng hợp hoặc tự nhiên). Không có nó, học sâu không thể học được; và bởi vì các trường hợp sử dụng có giá trị nhất thường tương tác với các datsets cá nhân nhất, học sâu thường là một lý do đằng sau các công ty tìm cách tổng hợp dữ liệu. Họ cần nó để giải quyết một trường hợp sử dụng cụ thể.
Nhưng vào năm 2017, Google đã xuất bản một bài báo và bài đăng trên blog rất thú vị đã tạo nên một dấu ấn đáng kể trong cuộc trò chuyện này. Google đề xuất rằng chúngta không cần tập trung một tập dữ liệu để đào tạo một mô hình dựa trên nó. Công ty GOOGLEđề xuất câu hỏi này: điều gì sẽ xảy ra nếu thay vì đưa tất cả dữ liệu về một nơi, chúng ta có thể đưa mô hình vào dữ liệu? Đây là một lĩnh vực con mới, thú vị của học máy được gọi là học liên kết và chính là nội dung của bài viết này.
Sự đảo ngược đơn giản này là cực kỳ quan trọng. Đầu tiên, điều đó có nghĩa là để tham gia vào chuỗi cung ứng học sâu, về mặt kỹ thuật, mọi người không phải gửi dữ liệu của họ cho bất kỳ ai. Có thể đào tạo các mô hình có giá trị trong lĩnh vực chăm sóc sức khỏe, quản lý cá nhân và các lĩnh vực nhạy cảm khác mà không yêu cầu bất kỳ ai tiết lộ thông tin về bản thân. Về lý thuyết, mọi người có thể giữ quyền kiểm soát đối với bản sao dữ liệu cá nhân duy nhất của họ (ít nhất là đối với học sâu).
Kỹ thuật này cũng sẽ có tác động rất lớn đến bối cảnh cạnh tranh của học sâu trong cạnh tranh doanh nghiệp và tinh thần kinh doanh. Các doanh nghiệp lớn trước đây không (hoặc không thể, vì lý do pháp lý) chia sẻ dữ liệu về khách hàng của họ vẫn có thể kiếm được doanh thu từ dữ liệu đó. Có một số lĩnh vực vấn đề trong đó độ nhạy cảm và các ràng buộc quy định xung quanh dữ liệu là một luồng gió để tiến triển. Chăm sóc sức khỏe là một ví dụ mà các bộ dữ liệu thường bị khóa chặt chẽ, khiến cho việc nghiên cứu trở nên khó khăn.

Học liên kết

Trong học tập liên kết, bạn không cần phải có quyền truy cập vào dữ liệu để học từ nó. Tiền đề của học liên kết là nhiều tập dữ liệu chứa thông tin hữu ích để giải quyết các vấn đề (ví dụ: xác định ung thư trong MRI), nhưng thật khó để truy cập các tập dữ liệu liên quan này với số lượng đủ lớn để đào tạo một mô hình học sâu mạnh mẽ phù hợp. Mối quan tâm chính là, mặc dù tập dữ liệu có đủ thông tin để đào tạo mô hình học sâu, nó cũng có thông tin (có lẽ) không liên quan gì đến việc học nhiệm vụ nhưng có thể gây hại cho ai đó nếu nó bị tiết lộ. Học liên kết là về một mô hình đi vào một môi trường an toàn và học cách giải quyết một vấn đề mà không cần dữ liệu di chuyển đến bất cứ đâu

Bài toán phát hiện Email spam

Giả sử bạn muốn đào tạo một mô hình trên các email của mọi người để phát hiện spam. Trường hợp sử dụng mà chúng ta sẽ nói đến là phân loại email. Mô hình đầu tiên sẽ được đào tạo trên một tập dữ liệu có sẵn công khai gọi là tập dữ liệu Enron, là một kho dữ liệu lớn của các email được phát hành từ vụ kiện Enron nổi tiếng (nay là tập dữ liệu phân tích email tiêu chuẩn của ngành). Thực tế thú vị: Tôi từng biết một người đọc / chú thích bộ dữ liệu này một cách chuyên nghiệp và mọi người gửi email tất cả các loại nội dung điên rồ cho nhau (phần lớn là rất cá nhân). Nhưng vì tất cả đều được phát hành cho công chúng trong phiên tòa, nên bây giờ bạn có thể sử dụng miễn phí. Dưới đây là chương trình xây dựng phân lớp Email spam.
Dataset được lấy từ nguồn public sau: “http://www2.aueb.gr/users/ion/data/enron-spam/”
Chỉ sau ba lần lặp lại, mạng đã có thể phân loại trên tập dữ liệu thử nghiệm với độ chính xác 99,45% (tập dữ liệu thử nghiệm được cân bằng, vì vậy điều này khá tốt)

Bây giờ chúng ta sẽ sử dụng học tập liên kết để đào tạo mô hình.

Đặt tất cả các email vào một nơi. Đây là cách làm truyền thống (vẫn còn quá phổ biến trên thế giới). Hãy bắt đầu bằng cách mô phỏng một môi trường học tập được liên kết có nhiều bộ sưu tập email khác nhau ( ở đây sẽ gồm 3 người: Bob, alice và sue)


Giờ đây, bạn có thể thực hiện cùng một đào tạo như trước đây nhưng trên toàn bộ cơ sở dữ liệu email của mỗi người cùng một lúc. Sau mỗi lần lặp lại, bạn sẽ tính trung bình các giá trị của các mô hình từ Bob, Alice và Sue và đánh giá. 



Phần tiếp theo cho thấy kết quả. Mô hình học hỏi để đạt được hiệu suất gần như tương tự như trước đây và về lý thuyết, bạn không có quyền truy cập vào dữ liệu đào tạo — Như vậy mỗi người đang thay đổi mô hình bằng cách nào đó. Liệu như vậy bạn không biết bất kì về dữ liệu của từng người đúng không?

Với nhiều người trong giới nghiên cứu deep learning thì federated learning vẫn là một công nghệ mới, hi vọng sẽ có nhiều khám phá hơn và được ứng dụng nhiều hơn trong mã hoá cũng như bảo mật. Đặc biệt là bảo vệ dữ liệu khi công nghệ trí tuệ nhân tạo đang phát triển như vũ bão.

1 COMMENT

LEAVE A REPLY

Please enter your comment!
Please enter your name here