Neobank Monzo xây dựng Data Mesh được quản trị cho hơn 100 đội nhóm và 12.000 mô hình dbt

Monzo gần đây đã thiết kế lại kho dữ liệu của mình để hỗ trợ hơn 100 đội nhóm làm việc trên hơn 12.000 mô hình dbt. Bằng cách áp dụng cách tiếp cận "meshy", ngân hàng số này đã giảm chi phí kho dữ liệu khoảng 40% và tăng tốc độ cung cấp dữ liệu lên 25%.

Monzo, ngân hàng kỹ thuật số có trụ sở tại Anh, gần đây đã thiết kế lại kho dữ liệu (data warehouse) của mình để hỗ trợ hơn 100 đội nhóm làm việc trên hơn 12.000 mô hình dbt. Bằng cách giới thiệu một cách tiếp cận được gọi là "meshy" (dạng lưới), Monzo đã cắt giảm chi phí kho dữ liệu khoảng 40% và cải thiện tốc độ cung cấp dữ liệu lên 25%.

Trong năm qua, Monzo đã xây dựng lại nền tảng dữ liệu của mình dựa trên các lớp mô hình hóa được xác định rõ ràng, các mô hình giao diện được khai báo tường minh cho các phụ thuộc dữ liệu giữa các nhóm, và quy trình xác thực cấu trúc, đặt tên cũng như mẫu truy cập được thực thi thông qua CI (Tích hợp liên tục). Quá trình di chuyển này bao gồm hàng nghìn mô hình dbt và giới thiệu hàng trăm giao diện được quản lý, giúp giảm thiểu các truy vấn thừa và tính toán lại, đồng thời cải thiện thời gian xử lý dữ liệu.

Mô hình trực quan hóa kiến trúc dữ liệu mới của Monzo

Thách thức về quyền sở hữu phân tán

Mặc dù mỗi đội nhóm sở hữu và duy trì các mô hình dữ liệu của riêng mình, Monzo hỗ trợ quyền sở hữu phân tán này thông qua các "lan can" tự động (automated guardrails) và công cụ dùng chung. Antonia Badarau, Irina Mugford và Massimo Frangiamore, các kỹ sư phân tích tại Monzo, giải thích về thách thức này:

Tại Monzo, hơn 100 đội nhóm độc lập và được trao quyền đóng góp vào kho dữ liệu của chúng tôi gồm hơn 12.000 mô hình dbt. Sức khỏe của dữ liệu được sở hữu bởi tất cả các đội nhóm này. Loại quyền sở hữu phân tán này rất mạnh mẽ, nhưng cũng rất khó để thực hiện đúng ở quy mô lớn. Ngoài ra, khi lập trình hỗ trợ bởi AI trở thành tiêu chuẩn và mọi người đều có thể đóng góp vào các dự án dbt sản xuất, câu hỏi đặt ra là: làm thế nào để đảm bảo kết quả đầu ra vẫn hoạt động hiệu quả, nhất quán và chất lượng cao?

Các mô hình dbt về bản chất là các truy vấn SQL chuyển đổi dữ liệu thô thành các tập dữ liệu có cấu trúc, được thiết kế dưới dạng các thành phần mô-đun, có thể tái sử dụng để xây dựng và duy trì các đường ống dữ liệu (data pipelines).

Nguyên tắc kiến trúc và cấu trúc lớp dữ liệu

Monzo đã xác định ba nguyên tắc cho kiến trúc dữ liệu của mình: thực thi các tiêu chuẩn rõ ràng, chính thức hóa việc chia sẻ dữ liệu thông qua các giao diện tường minh, và dựa vào tự động hóa cũng như kiểm tra CI để đảm bảo chất lượng thay vì xem xét thủ công.

Ngân hàng cấu trúc các mô hình dữ liệu của mình thành bốn lớp:

Các mô hình tiếp nhận (landing models) tự động làm phẳng các sự kiện thô.
Các mô hình chuẩn hóa (normalized models) được tạo ra đại diện cho các thực thể với lịch sử đầy đủ.
Các mô hình logic (logical models) nơi logic kinh doanh kết hợp các thực thể.
Các mô hình trình bày (presentation models) được tùy chỉnh cho các mục đích sử dụng hạ lưu cụ thể.

Sơ đồ các lớp dữ liệu trong kiến trúc Data Mesh của Monzo

Đội ngũ sau đó thực thi tính nhất quán thông qua công cụ dòng lệnh gọi là Modelgen, công cụ này tạo ra các mô hình SQL và YAML từ định nghĩa đối tượng, và thông qua các tiêu chuẩn dữ liệu được hỗ trợ bởi CI để xác thực cấu trúc, quy ước và các phương pháp tốt nhất.

Luke Briscoe, Giám đốc Kỹ thuật tại Monzo Bank, chia sẻ:

Mở rộng quy mô dữ liệu trong bất kỳ tổ chức đang phát triển nhanh nào cũng không dễ dàng, chưa nói đến một ngân hàng (...) Tôi không biết nhiều công ty chạy các công cụ như thế này (hoặc ít nhất là công khai nói về nó!).

Mateusz Ulas, người sáng lập Expeditious Software, cũng nhận xét:

Việc coi các giao diện dữ liệu là mã nguồn hạng nhất (first-class code) vẫn kỳ lạ là hiếm. Hầu hết các nơi tôi thấy đều dựa vào tài liệu và hy vọng mọi thứ suôn sẻ. Kết nối các tiêu chuẩn vào CI mới thực sự mang lại sự cải tiến.

Kết quả đạt được

Theo đội ngũ Monzo, các lớp dữ liệu rõ ràng, các giao diện ổn định giữa các tập dữ liệu và các kiểm tra tự động trong CI giúp hệ thống nhất quán, cho phép các nhóm làm việc độc lập trong khi giảm chi phí kho dữ liệu và thời gian xử lý.

Monzo thực thi chất lượng và tính nhất quán của dữ liệu bằng cách yêu cầu mỗi mô hình phải xác định một khóa duy nhất, bao gồm các kiểm tra tính mới (freshness tests), chạy theo mặc định theo kiểu tăng dần (incrementally), khai báo đội nhóm sở hữu, cung cấp tài liệu và tuân theo các quy ước đặt tên và siêu dữ liệu nghiêm ngặt được xác thực trong CI.

Hiện tại, Monzo đã hoàn thành khoảng 30% quá trình di chuyển toàn công ty sang các phương pháp và hệ thống này, và con đường phía trước vẫn còn dài. Tuy nhiên, kết quả ban đầu rất đáng khích lệ. Họ đã thấy mức giảm chi phí khoảng 40% và thời gian tiếp nhận dữ liệu nhanh hơn khoảng 25% trong một số lĩnh vực - dù vẫn còn ở giai đoạn đầu.

Trong một bài viết riêng, đội ngũ kỹ thuật của Monzo cũng mô tả cách họ sử dụng các mạng nơ-ron đa nhiệm (multi-task neural networks) để học các biểu diễn chung của các mẫu gian lận, từ đó cải thiện khả năng phát hiện các hành vi hiếm gặp và chưa từng thấy trước đây, vượt xa khả năng của các mô hình truyền thống.

Neobank Monzo xây dựng Data Mesh được quản trị cho hơn 100 đội nhóm và 12.000 mô hình dbt

Thách thức về quyền sở hữu phân tán

Nguyên tắc kiến trúc và cấu trúc lớp dữ liệu

Kết quả đạt được

Bài viết liên quan