Sự tương đồng kỳ lạ giữa Mạng nơ-ron và Mật mã học: Tại sao chúng lại giống nhau đến vậy?

Bài viết khám phá những điểm tương đồng đáng ngạc nhiên về mặt cấu trúc giữa các mạng nơ-ron (như Transformer) và các thuật toán mã hóa hiện đại (như AES, SHA-3). Cả hai lĩnh vực đều hội tụ về các giải pháp như trộn hàng/cột song song, mã hóa vị trí và tối ưu hóa phần cứng để xử lý dữ liệu phức tạp một cách hiệu quả nhất.

Sự tương đồng về mặt cấu trúc

Thoạt nhìn, việc huấn luyện các mô hình ngôn ngữ (LLM) và mã hóa dữ liệu dường như là hai bài toán hoàn toàn khác biệt: cái này học các mẫu từ dữ liệu để tạo văn bản, còn cái again xáo trộn thông tin để ẩn giấu nó. Tuy nhiên, các thuật toán cơ bản bên dưới chúng lại có những nét tương đồng kỳ lạ.

Hãy xem xét mạng nơ-ron hồi tiếp (RNN) kinh điển, nơi văn bản được đưa vào từng token một vào trạng thái tuần tự trước khi tạo ra kết quả. Về mặt cấu trúc, điều này giống hệt với cấu trúc "Sponge" trong thuật toán băm SHA-3, nơi các byte được "thấm" (absorb) vào một trạng thái trước khi được "vắt" (squeeze) ra thành giá trị băm.

Sự tương đồng này có lẽ không quá ngạc nhiên: để xử lý đầu vào có độ dài thay đổi thành một trạng thái có kích thước cố định, việc hấp thụ tuần tự là một lựa chọn tự nhiên.

Từ tuần tự đến song song

Phần cứng hiện đại được tối ưu hóa cho tính song song hoàn toàn, do đó việc hấp thụ tuần tự lại lãng phí hiệu năng. Cả hai lĩnh vực đều tìm ra cùng một giải pháp: chạy hàm tính toán tốn kém f trên tất cả các khối dữ liệu một cách song song thay vì tuần tự, sau đó kết hợp chúng bằng phép cộng đơn giản.

Tuy nhiên, phép cộng làm mất thông tin về thứ tự, vì vậy cả hai cách tiếp cận đều khôi phục thứ tự bằng cách thêm mã hóa vị trí (positional encodings) vào từng khối. Trong mạng nơ-ron, cấu trúc này là nền tảng của kiến trúc Transformer, cải tiến so với các mạng RNN tuần tự. Trong mật mã học, cấu trúc này cung cấp sức mạnh cho các Mã xác thực thông điệp (MAC) nhanh nhất hiện nay.

Trộn tuyến tính và phi tuyến

Nếu bỏ qua phần xử lý độ dài thay đổi, điều gì nằm bên trong hàm lõi? Cả hai lĩnh vực đều tuân theo cùng một mẫu: biến đổi tuyến tính, biến đổi phi tuyến, và lặp lại.

Các biến đổi tuyến tính cung cấp sự "trộn lẫn" giữa các vị trí vector khác nhau, cho phép nhiều phần tử vector ảnh hưởng lẫn nhau. Các biến đổi phi tuyến cung cấp sự phức tạp: nếu không có chúng, cả chồng các lớp sẽ suy biến thành một biến đổi tuyến tính đơn lẻ.

Cả hai lĩnh vực đều lặp lại lớp giống nhau này nhiều lần thay vì tạo ra các cấu trúc tùy chỉnh. Điều này giúp tập trung nỗ lực nghiên cứu và kỹ thuật: chỉ cần phân tích và tối ưu hóa một loại lớp trong phần mềm hoặc trên silicon.

Trộn hàng và cột

Nếu phóng to sâu hơn, cả hai lĩnh vực đều tổ chức trạng thái của chúng dưới dạng lưới và xen kẽ giữa việc trộn hàng và trộn cột.

Trong mạng nơ-ron: cơ chế chú ý (attention) trộn lẫn nhau giữa các vị trí trong chuỗi (hàng), trong khi các lớp feed-forward trộn lẫn nhau trong mỗi vị trí (cột). Trong thuật toán mã hóa AES: ShiftRows hoán vị qua các cột trong khi MixColumns kết hợp bên trong chúng. Thuật toán ChaCha20 cũng xen kẽ việc trộn theo hàng và đường chéo.

Cách tiếp cận theo yếu tố này thường đánh bại việc trộn toàn bộ trạng thái cùng một lúc. Nó thường nhanh hơn về mặt tiệm cận nếu bước trộn chậm hơn tuyến tính. Quan trọng hơn, mỗi hàng được xử lý độc lập với kích thước bộ nhớ làm việc nhỏ, cung cấp khả năng song song hóa cao hơn và phù hợp hơn với bộ nhớ đệm (cache) và thanh ghi.

Tại sao chúng lại giống nhau?

Những điểm tương đồng này dường như không xuất phát từ việc sao chép ý tưởng bề mặt. Lịch sử nghiên cứu của hai lĩnh vực không cho thấy nhiều sự vay mượn lẫn nhau. Thay vào đó, có những sự tương đồng cơ bản giữa các tuyên bố vấn đề.

Yêu cầu về tính chính xác

Đa số các thuật toán phải đối mặt với các yêu cầu về tính chính xác nghiêm ngặt. Trình biên dịch phải bảo toàn ý nghĩa chương trình. Cơ sở dữ liệu phải trả về chính xác những gì đã lưu trữ. Bộ định tuyến mạng phải chuyển gói tin chính xác.

So với đó, mật mã học chỉ cần tính khả nghịch (invertibility) để tránh mất mát thông tin. Mạng nơ-ron chỉ cần tính khả vi (differentiability) để thực hiện hạ độ dốc (gradient descent). Bạn có thể xây dựng một loạt các hàm khả nghịch hoặc khả vi chỉ bằng cách kết hợp các hàm nhỏ hơn có tính chất tương tự.

Sự tự do này cho phép sự đơn giản cực đoan. Cả hai lĩnh vực đều được xây dựng từ hai hoặc ba nguyên thủy đơn giản lặp lại trong một vòng lặp: đủ đơn giản để implement trong 20 dòng code. Sự tự do này cũng cho phép thử nghiệm nhanh chóng: hàng chục bài nộp SHA-3, hàng trăm biến thể chú ý.

Chất lượng và sự trộn lẫn

Hơn là yêu cầu tính chính xác cơ bản, cả hai lĩnh vực đều chia sẻ một khái niệm tương tự về chất lượng. Mật mã học cần mọi bit đầu ra phụ thuộc vào mọi bit đầu vào theo các cách phức tạp (hiệu ứng tuyết lở). Mạng nơ-ron cần đầu ra tận dụng tốt nhất mọi thông tin đầu vào.

Cả hai đều thưởng cho các thiết kế cho phép mọi phần của trạng thái tương tác với mọi phần khác, lặp đi lặp lại. Do đó, các lớp trộn lặp lại: thông tin phải chảy giữa các vị trí không chỉ một lần mà nhiều lần, tạo ra các sự phụ thuộc phức tạp.

Hiệu suất phần cứng

Các lĩnh vực này là hiếm hoi trong các lĩnh vực thuật toán vì nhấn mạnh vào hiệu suất phần cứng cấp thấp, thường bao gồm cả việc triển khai assembly và phần cứng tùy chỉnh. Sự nhấn mạnh này phát sinh từ áp lực kinh tế như sự phổ biến của mã hóa và quy mô khổng lồ của các mạng nơ-ron.

Nhấn mạnh hiệu suất thưởng cho các thuật toán đơn giản: nó làm cho việc triển khai assembly hoặc phần cứng tùy chỉnh khả thi. Nhấn mạnh hiệu suất cũng thưởng cho tính song song mà chúng ta thấy ở mọi cấp độ thiết kế: xử lý chuỗi song song ở cấp độ cao nhất, các bộ trộn song song như xen kẽ hàng/cột ở cấp độ trung gian, và đại số tuyến tính — dễ dàng song song hóa — ở cấp độ thấp nhất.

Kết luận

Những sự song hành này gợi ý một điều gì đó cơ bản: khi chúng ta yêu cầu các thuật toán trộn lẫn kỹ lưỡng và phức tạp, có ít yêu cầu tính chính xác khác, và hoạt động cực tốt trên phần cứng, các giải pháp tốt nhất có thể trông rất giống nhau. Cũng như sự tiến hóa sinh học đã phát minh ra mắt nhiều lần độc lập, nghiên cứu của con người dường như đã phát minh ra cấu trúc "bộ trộn lớp lặp lại song song sâu" nhiều lần.

Chúng ta đã thấy các ý tưởng nhảy giữa các lĩnh vực. RevNets đã mang mạng Feistel của mật mã học vào mạng nơ-ron, cho phép các lớp có thể đảo ngược để tiết kiệm bộ nhớ. Điều gì sẽ tiếp theo? Có thể có các mạng nơ-ron tương tự như Bộ trộn chẵn lẻ cột hoặc "bộ trộn không căn chỉnh"?

Sự tương đồng kỳ lạ giữa Mạng nơ-ron và Mật mã học: Tại sao chúng lại giống nhau đến vậy?

Sự tương đồng về mặt cấu trúc

Từ tuần tự đến song song

Trộn tuyến tính và phi tuyến

Trộn hàng và cột

Tại sao chúng lại giống nhau?

Yêu cầu về tính chính xác

Chất lượng và sự trộn lẫn

Hiệu suất phần cứng

Kết luận

Bài viết liên quan