Tối ưu hóa Platform Engineering thông qua văn hóa đối thoại dựa trên dữ liệu
Sergiu Petean chia sẻ cách đội ngũ của ông xây dựng một trung tâm xuất sắc để cung cấp SRE như một dịch vụ, giới thiệu các vai trò mới như Federated SRE và Production Manager. Chiến lược này giúp dân chủ hóa SLO/SLA, giảm tải nhận thức và tăng cường chủ quyền kỹ thuật số trong thiết kế nền tảng.

Tại hội nghị Dev Summit Munich, Sergiu Petean đã có bài chia sẻ về hành trình chuyển đổi từ hệ thống cũ sang chủ quyền kỹ thuật số thông qua Platform Engineering. Theo ông, để cung cấp SRE (Site Reliability Engineering) như một dịch vụ, đội ngũ của ông đã xây dựng một "Trung tâm xuất sắc" (Center of Excellence), giới thiệu các vai trò như Federated SREs, Production Manager và Technical Tribe Lead. Đặc biệt, họ đã thiết lập một văn hóa đối thoại dựa trên dữ liệu, nơi các chỉ số SLO (Service Level Objectives) và SLA (Service Level Agreements) được dân chủ hóa cho toàn tổ chức.
Platform Engineering dưới góc độ Xã hội - Kỹ thuật
Petean nhấn mạnh rằng Platform Engineering cần được tiếp cận từ góc độ xã hội - kỹ thuật (socio-technical) và được định hình bởi tất cả các bên liên quan, không chỉ là các nhà phát triển. Sự thành công của nền tảng phụ thuộc vào các nguyên tắc được viết rõ ràng, có khả năng chịu đựng sự thay đổi nhưng vẫn coi sự thay đổi là lực lượng thiết kế chính, giúp các đội ngũ có khả năng xây dựng, vận hành và phát hành phần mềm.
Trong quá trình phát triển nền tảng, để cung cấp SRE như một dịch vụ, họ đã thiết lập một đội ngũ SRE với nhiệm vụ thiết kế lại stack quan sát (observability stack). Việc định nghĩa quy trình và công cụ khá dễ dàng, nhưng việc trao đổi với các bên liên quan đang sử dụng dịch vụ mới lại khó khăn hơn nhiều.
"Chúng tôi phải trở thành một trung tâm xuất sắc, và giáo dục tổ chức về cách tự động hóa nhu cầu của họ vào quy trình, và khiến toàn bộ vòng lặp phản hồi hoạt động hiệu quả cho họ," Petean chia sẻ.
Họ cũng bắt đầu đo lường tác động cả về mặt vận hành (sử dụng các chỉ số DORA) và tài chính (chi phí cho mỗi thay đổi).
Các vai trò mới và Văn hóa dữ liệu
Trong quá trình tiến hóa SRE, đội ngũ đã phải định nghĩa các quy trình và chức năng hỗ trợ mới:
- Federated SRE: Một cộng đồng nội bộ gồm các kỹ sư phần mềm dành 20% thời gian cho các nhiệm vụ vận hành (quản lý lỗ hổng, SRE, SLA, mở rộng CI/CD, API).
- Production Manager: Một người có kỹ năng kỹ thuật, tập trung và sở hữu toàn bộ quy trình Quản lý sự cố (báo cáo, phản ứng, cải tiến, SLA).
- Technical Tribe Lead: Một người có kỹ năng kỹ thuật ngồi cạnh người ra quyết định kinh doanh trong một "tribe".
Các vai trò mới này cần được trao quyền để làm việc với các kỹ sư và chỉ định những gì quan trọng đối với kinh doanh và vận hành, trở thành những người truyền bá nền tảng (platform evangelists).
"Thông qua các thực hành SRE và vai trò Federated SRE mới, tôi đã tạo ra một văn hóa đối thoại dựa trên dữ liệu nơi SLO và SLA được dân chủ hóa cho toàn tổ chức. Điều đó trao quyền cho các Federated SREs để chăm sóc tốt hơn các nhu cầu kinh doanh như chi phí, bảo mật, hiệu suất và tuân thủ."
Đơn giản hóa kiến trúc để giảm tải nhận thức
Khi tạo ra một kiến trúc tham chiếu cho AI cloud-native, đội ngũ đã trở thành một đội ngũ đa nền tảng. Tuy nhiên, đội ngũ không thể mở rộng quy mô; họ phải làm được nhiều việc hơn với nguồn lực ít hơn.
"Cùng một đội ngũ phải chăm sóc nhiều nền tảng trong khi chúng tôi giữ nguyên quy mô và nhân tài. Tải nhận thức (cognitive load) của đội ngũ Platform Engineering đã đạt đến mức độ mới."
Để tồn tại, họ phải liên tục đơn giản hóa mọi thứ. Petean kể rằng họ đã phá hủy và xây dựng lại kiến trúc của mình ít nhất bốn lần. Họ nắm bắt mọi cơ hội thay đổi: tạo tenant mới, hỗ trợ dòng kinh doanh mới hoặc di chuyển sang đám mây. Điều này mang lại cơ hội thay đổi những thứ mà bình thường không bao giờ thay đổi, ví dụ như kiến trúc nền tảng.
Chủ quyền kỹ thuật số và Khả năng phục hồi
Petean lập luận rằng chủ quyền (sovereignty) và khả năng phục hồi (resilience) cần là một phần của mọi cuộc trò chuyện và được nhúng vào thiết kế nền tảng của bạn. Khi thiết kế nền tảng tiếp theo, bạn nên nghĩ về chiến lược chủ quyền và tốc độ cũng như chi phí để chuyển từ một nhà cung cấp đám mây lớn (hyperscaler) sang đám mây riêng hoặc trung tâm dữ liệu.
Trong một cuộc phỏng vấn với InfoQ, Petean giải thích rằng chi phí cho mỗi thay đổi giảm xuống nhờ vào hiệu ứng nền tảng (thêm nhiều dịch vụ/tenant mà không tăng chi phí tính toán hay nhân sự), sự trưởng thành về chuyên môn, mô hình tự phục vụ của Federated SRE và sự mở rộng quy mô kinh doanh lớn.
Về việc đạt được chủ quyền và tăng cường khả năng phục hồi, ông đề xuất các hành động như: tạo ra năng lực sáng tạo nội bộ (thu hút nhân tài, văn hóa đổi mới thay vì coi IT là trung tâm chi phí) và đảm bảo có sự lãnh đạo kỹ thuật ở cấp quản trị (board level).



