Databricks ra mắt LTAP: Kiến trúc dữ liệu thống nhất OLAP và OLTP đầu tiên trên Data Lake

Databricks giới thiệu LTAP, một kiến trúc dữ liệu mới kết hợp xử lý giao dịch và phân tích trên cùng một bản sao trong hồ dữ liệu. Kiến trúc này loại bỏ hoàn toàn nhu cầu về ETL, bản sao và đường ống dữ liệu phức tạp, tạo nền tảng tối ưu cho các ứng dụng AI trong kỷ nguyên đại lý thông minh.

Databricks hôm nay đã công bố LTAP (Lake Transactional/Analytical Processing), một kiến trúc xử lý dữ liệu đột phá giúp thống nhất OLAP (xử lý phân tích trực tuyến) và OLTP (xử lý giao dịch trực tuyến) trên cùng một bản sao dữ liệu trong hồ dữ liệu (data lake). Được xây dựng trên nền tảng Lakebase, LTAP thiết kế để loại bỏ các quy trình ETL, các bản sao dữ liệu và đường ống (pipeline) truyền thống.

Kiến trúc LTAP của Databricks

Nền tảng dữ liệu mới cho kỷ nguyên AI

Trong suốt bốn thập kỷ qua, các khối lượng công việc giao dịch và phân tích luôn tồn tại trong các hệ thống riêng biệt. Các cơ sở dữ liệu vận hành phục vụ ứng dụng, trong khi các hệ thống phân tích trả lời các câu hỏi chiến lược. Việc kết nối chúng đòi hỏi phải xây dựng các đường ống CDC (Change Data Capture) phức tạp và dễ bị lỗi.

Điều này đã trở thành một điểm nghẽn lớn khi AI hỗ trợ các nhà phát triển xây dựng số lượng ứng dụng nhiều hơn gấp 50 lần so với trước đây. Nhiều ứng dụng trong số này được điều khiển bởi các tác nhân AI (agents) cần đọc, suy luận và hành động trên dữ liệu theo thời gian thực. Kiến trúc cũ không được thiết kế để đáp ứng tốc độ và yêu cầu này.

Dữ liệu và AI

Tại sao LTAP khác biệt?

Ngành công nghiệp dữ liệu đã từng cố gắng giải quyết vấn đề này thông qua HTAP (Hybrid Transactional/Analytical Processing), hứa hẹn thống nhất dữ liệu trong một động cơ duy nhất. Tuy nhiên, HTAP thường làm xói mòn sự cô lập khối lượng công việc, ảnh hưởng đến hiệu suất và để lại các hệ thống proprietary đắt đỏ.

LTAP tiếp cận vấn đề từ một góc độ hoàn toàn khác: thay vì ép buộc cả hai khối lượng công việc vào một động cơ hay che giấu đường ống dữ liệu, nó thống nhất dữ liệu ngay tại lớp lưu trữ.

Thống nhất quản trị: Tất cả dữ liệu vận hành, phân tích và luồng trực tiếp đều nằm trên lưu trữ đối tượng mở trong các định dạng mở như Delta và Iceberg.
Không đánh đổi hiệu suất: Các khối lượng công việc giao dịch chạy trên Postgres chuẩn với ngữ nghĩa ACID đầy đủ. Các khối lượng công việc phân tích chạy trên toàn bộ Lakehouse với bất kỳ quy mô và độ đồng thời nào.
Không có đường ống ETL: Kiến trúc loại bỏ hoàn toàn lớp ETL, giảm chi phí vận hành để giữ cho các hệ thống đồng bộ hóa.

"Trong nhiều thập kỷ, cơ sở hạ tầng dữ liệu phức tạp là một loại thuế mà các nhóm buộc phải trả. Sau đó, các tác nhân AI xuất hiện. LTAP loại bỏ rào cản đó," - Ali Ghodsi, đồng sáng lập và CEO của Databricks chia sẻ.

Lakebase mở rộng khả năng phục hồi và thử nghiệm

Lakebase, nền tảng của kiến trúc LTAP, đã mang các giao dịch gốc của Postgres đến lớp lưu trữ đối tượng. Hiện tại, Lakebase đang phục vụ hàng nghìn khách hàng và xử lý 12 triệu lần khởi chạy cơ sở dữ liệu mỗi ngày.

Databricks cũng công bố các khả năng mới mở rộng Lakebase cho doanh nghiệp AI quy mô lớn:

Phục hồi thảm họa đa đám mây, đa khu vực: Giúp các tổ chức xây dựng kiến trúc dữ liệu linh hoạt hơn.
Phân nhánh và ảnh chụp kiểu Git: Cho phép thử nghiệm an toàn trên dữ liệu sản xuất.
Vận hành cơ sở dữ liệu tự chủ: Cho phép các tác nhân AI giám sát sức khỏe, phát hiện sự chậm trễ và đề xuất các chỉ mục.

Sự sẵn có

LTAP sẽ sớm được ra mắt như một phần của Lakebase, đánh dấu bước tiến quan trọng trong việc cung cấp một nền tảng dữ liệu thống nhất cho cả phân tích và vận hành trong kỷ nguyên trí tuệ nhân tạo tạo sinh.