Kỹ thuật xây dựng nền tảng phần mềm: Ổn định, Bảo mật và Khả năng mở rộng
Matthew Liste từ American Express chia sẻ về những thách thức trong việc xây dựng các nền tảng phần mềm hiện đại, nhấn mạnh vào ba yếu tố cốt lõi: Ổn định, Bảo mật và Khả năng mở rộng. Cuộc thảo luận cũng đề cập đến tác động của AI đối với tốc độ phát triển và vấn đề đào tạo kỹ sư trẻ trong kỷ nguyên mới.

Trong podcast gần đây, Michael Stiefel đã có cuộc trò chuyện với Matthew Liste, chuyên gia chịu trách nhiệm về chiến lược trung tâm dữ liệu, khả năng phục hồi và đa đám mây tại American Express. Cuộc thảo luận tập trung vào việc xây dựng và quản lý các nền tảng phần mềm phục vụ cho phát triển ứng dụng, nơi mà các dịch vụ nền tảng đóng vai trò là nền tảng cơ bản phải luôn đảm bảo tính ổn định, bảo mật và khả năng mở rộng.
Kỹ sư hệ thống làm việc trên hạ tầng
Ba yếu tố cốt lõi: Ổn định, Bảo mật và Khả năng mở rộng
Matthew Liste mô tả công việc của mình là xây dựng các nền tảng mà các kỹ sư khác sử dụng để triển khai phần mềm kinh doanh. Trong lĩnh vực dịch vụ tài chính, ông nhấn mạnh quy tắc "3 S": Stable (Ổn định), Secure (Bảo mật) và Scalable (Có khả năng mở rộng). Đây là những yếu tố không thể thương lượng, đặc biệt khi hệ thống đã đi vào vận hành sản xuất (production).
Tuy nhiên, việc mở rộng hệ thống (scaling) là thách thức lớn nhất. Liste chỉ ra rằng các hệ thống thường bị phá vỡ khi mở rộng do sự tranh chấp tài nguyên (resource contention) không rõ ràng — có thể là xung đột về mạng, CPU hoặc bộ nhớ ở hạ lưu (downstream) mà chúng ta không lường trước được.
"Nếu bạn muốn sản phẩm của mình rất thành công, bạn sẽ có nhiều khách hàng hơn và khối lượng công việc sẽ tăng lên. Vì vậy, bạn phải xây dựng khả năng xử lý quy mô vào hệ thống của mình."
Tác động của AI đối với kỹ thuật hệ thống và sự học việc
Một chủ đề thú vị được thảo luận là tác động của Trí tuệ nhân tạo (AI) đối với quy trình phát triển phần mềm. AI không thay đổi bản chất của phát triển phần mềm nhưng làm tăng tốc độ thay đổi. Điều này đồng nghĩa với việc rủi ro cũng tăng lên, vì các tác nhân AI (AI agents) có thể mắc lỗi nhanh hơn con người.
AI và hệ thống tự chủ
Điều đáng lo ngại hơn là tác động của AI đến thế hệ kỹ sư trẻ. Truyền thống, các kỹ sư junior học nghề thông qua việc thực hiện các tác vụ lập trình cơ bản. Khi AI thực hiện những việc này, cơ hội để các kỹ sư trẻ học hỏi và tích lũy kinh nghiệm từ những lỗi nhỏ bị giảm sút. Đây là một vấn đề chưa có lời giải trong việc đào tạo nhân lực mới.
Quản lý rủi ro và Hành trình khách hàng
Để đo lường độ tin cậy và chức năng của hệ thống, Liste đề xuất sử dụng "hành trình khách hàng" (customer journeys). Khách hàng ở đây bao gồm cả người dùng cuối và các nhà phát triển sử dụng nền tảng. Ví dụ, một hành trình có thể là: "Tôi có thể thanh toán bằng thẻ tín dụng không?".
Việc đánh giá xem sự cố hệ thống ảnh hưởng thế nào đến hành trình này giúp xác định nơi hệ thống đang gặp rủi ro cao nhất. Nếu một lỗi không ảnh hưởng đến khách hàng, mức độ ưu tiên xử lý sẽ thấp hơn. Ngược lại, nếu làm gián đoạn trải nghiệm của hàng nghìn khách hàng, đó là vấn đề cấp bách.
Phục vụ nhà phát triển như một khách hàng
Trong platform engineering, nhà phát triển sử dụng nền tảng cũng được xem là khách hàng. Liste phải quản lý nguồn lực hạn chế và đưa ra những đánh đổi khó khăn. Một thách thức lớn là quyết định thời điểm áp dụng công nghệ mới — không quá sớm (khi công nghệ chưa trưởng thành) nhưng cũng không quá muộn.
Ông cũng nhấn mạnh tầm quan trọng của kỷ luật trong việc từ chối các yêu cầu tùy chỉnh hẹp dành cho một khách hàng duy nhất, thay vào đó tập trung vào giá trị mang lại cho đa số. Sự tồn tại của phần mềm mã nguồn mở (open source) đã giúp ích rất nhiều trong việc cộng tác và giảm bớt căng thẳng khi các đội nhóm có thể tự chủ truy cập vào cơ sở mã.
Cuối cùng, văn hóa tổ chức đóng vai trò then chốt. Cả đội ngũ nền tảng và người dùng đều cần hiểu rõ các đánh đổi kỹ thuật và hợp tác để duy trì sự ổn định chung của hệ sinh thái.
Bài viết liên quan
Công nghệ
Giải quyết bài toán "con gà và quả trứng" cho các sàn giao dịch hai chiều
20 tháng 4, 2026

Phần mềm
Microsoft tung bản vá khẩn cấp khắc phục lỗi khởi động lại liên tục trên Windows Server
20 tháng 4, 2026
Công nghệ
Cách đây 10 năm, ai đó đã viết một bài kiểm tra cho Servo với ngày hết hạn là năm 2026
19 tháng 4, 2026
