Cuộc đua về độ trễ bằng 0: Chúng ta đã đến đích chưa?

Amir Langer phân tích hành trình giảm độ trễ từ lịch sử đến kỷ nguyên hiện đại, nhấn mạnh vai trò của việc tách biệt logic kinh doanh khỏi I/O. Bài viết giới thiệu các công cụ như Aeron và Disruptor, cùng với kiến trúc Sequencer tương lai để đạt tốc độ xử lý ở mức micro giây.

Trong thế giới công nghệ, đặc biệt là trong lĩnh vực tài chính (fintech) và giao dịch tần suất cao, độ trễ (latency) là thước đo sống còn. Vật lý cho thấy độ trễ bằng 0 là bất khả thi, nhưng các kỹ sư vẫn không ngừng chạy đua để tiến càng gần càng tốt tới con số đó. Amir Langer, một nhà phát triển chính tại Adaptive và cựu kỹ sư tại LMAX Exchange, đã có một bài thuyết trình sâu sắc về sự tiến hóa của việc giảm độ trễ, từ những ngày đầu của Pony Express cho đến các kiến trúc phần cứng và phần mềm hiện đại ngày nay.

Tại sao độ trễ lại quan trọng?

Trong ngành công nghệ tài chính, độ trễ liên quan trực tiếp đến lợi nhuận. Nếu một hệ thống có độ trễ thấp hơn đối thủ cạnh tranh, nó có thể chớp lấy các giao dịch tốt hơn và thay đổi giá nhanh hơn khi thị trường biến động. Tuy nhiên, không chỉ độ trễ thấp mà độ trễ "dự đoán được" (predictable latency) cũng quan trọng không kém. Trong một hệ thống giao dịch quan trọng, người dùng không quan tâm đến độ trễ trung bình của hệ thống, họ chỉ quan tâm đến độ trễ của chính đơn hàng của mình.

Thách thức trong kỷ nguyên hiện đại

Hai thập kỷ trước, giải pháp đơn giản để giảm độ trễ là nâng cấp phần cứng. Ngày nay, cách tiếp cận đó không còn hiệu quả. Các thiết kế bộ vi xử lý hiện đại phức tạp hơn với nhiều lớp bộ nhớ đệm (cache), và việc sử dụng điện toán đám mây (cloud) thêm vào nhiều lớp trừu tượng (abstraction layers). Vấn đề lớn nhất hiện nay không nằm ở tốc độ xung nhịp của CPU, mà nằm ở giao tiếp giữa các thành phần trong hệ thống phân tán.

Nhiều nhà phát triển thường mắc sai lầm khi cố gắng giải quyết vấn đề bằng cách "ném thêm tài nguyên" vào hệ thống (tăng CPU, thêm bộ nhớ) và hy vọng hệ điều hành sẽ tự tối ưu hóa. Điều này hiếm khi hoạt động hiệu quả.

Tách biệt mối quan tâm (Separation of Concerns)

Một trong những bài học quan trọng nhất từ dự án LMAX Disruptor (một hàng đợi liên luồng hiệu quả cao trong Java) là nguyên tắc tách biệt mối quan tâm. Bằng cách tách biệt việc ghi nhật ký (journaling), giải mã (decoding) và logic kinh doanh (business logic), các luồng có thể tập trung vào một nhiệm vụ duy nhất mà không bị gián đoạn hay chờ đợi. Điều này mang lại cải thiện lớn về độ trễ.

Dự án Aeron, ra mắt năm 2014, tiếp nối truyền thống này bằng cách cung cấp một giải pháp truyền tin hiệu quả, độ trễ thấp và đáng tin cậy giữa các quá trình (process) thông qua UDP, unicast, multicast hoặc IPC (giao tiếp liên quá trình).

Kỹ thuật Kernel Bypass và tốc độ Micro giây

Để đạt được tốc độ trong phạm vi một chữ số micro giây, các kỹ sư sử dụng kỹ thuật "kernel bypass". Thay vì đi qua các lớp của hệ điều hành và socket, Aeron có thể tích hợp với các dự án như DPDK để ghi gói dữ liệu trực tiếp vào thẻ mạng (NIC).

Khi sử dụng DPDK trên đám mây hoặc các công cụ tương tự trên phần cứng vật lý chuyên dụng, độ trễ có thể giảm xuống mức đáng kinh ngạc. Đối với giao tiếp liên quá trình (IPC) trên cùng một máy chủ, việc sử dụng bộ nhớ chia sẻ (shared memory) giúp đạt được độ trễ cực thấp. Tuy nhiên, nhanh hơn cả IPC là lời gọi hàm (function call) trong cùng một quá trình, với độ trễ chỉ ở mức nano giây.

Hệ thống phân tán và Giao thức đồng thuận

Để xây dựng một hệ thống phân tán có độ trễ thấp nhưng không đánh đổi các thuộc tính chất lượng khác như khả năng mở rộng và khả năng phục hồi, chúng ta cần quay lại các mô hình tính toán cơ bản như Máy trạng thái sao chép (Replicated State Machine).

Các giao thức đồng thuận như Paxos hay Raft đóng vai trò then chốt trong việc đảm bảo các bản sao của hệ thống có cùng trạng thái tại cùng một thời điểm thông qua một nhật ký các thông điệp được sắp xếp toàn bộ (totally ordered log). Aeron Cluster đã triển khai giao thức Raft để đạt được sự đồng thuận này với độ trễ thấp và dự đoán được, nhờ vào khái niệm "người lãnh đạo mạnh" (strong leader).

Tương lai: Kiến trúc Sequencer

Một trong những vấn đề của kiến trúc cụm truyền thống là vấn đề "fan-out" (phân tán đầu ra), nơi một lượng lớn sự kiện đầu ra gây tắc nghẽn kênh đầu ra. Giải pháp cho tương lai nằm ở kiến trúc Sequencer.

Trong kiến trúc này, một thành phần gọi là Sequencer chỉ chịu trách nhiệm quyết định nhật ký và đánh dấu thời gian cho các thông điệp, không chạy bất kỳ logic kinh doanh nào. Các máy trạng thái (state machines) chứa logic kinh doanh sẽ được đặt bên trong các ứng dụng người dùng. Điều này giải quyết vấn đề mở rộng và phục hồi, vì việc nâng cấp một máy trạng thái chỉ yêu cầu khởi động lại ứng dụng và tiêu thụ lại nhật ký từ điểm kiểm tra (checkpoint).

Cuộc đua về độ trễ bằng 0 vẫn tiếp diễn. Với sự kết hợp giữa các hệ thống phân tán đồng bộ ảo (virtual synchrony) và thành phần máy trạng thái, chúng ta đang tiến gần hơn bao giờ hết tới mục tiêu đó.

Cuộc đua về độ trễ bằng 0: Chúng ta đã đến đích chưa?

Tại sao độ trễ lại quan trọng?

Thách thức trong kỷ nguyên hiện đại

Tách biệt mối quan tâm (Separation of Concerns)

Kỹ thuật Kernel Bypass và tốc độ Micro giây

Hệ thống phân tán và Giao thức đồng thuận

Tương lai: Kiến trúc Sequencer

Bài viết liên quan