AWS tung ra phiên bản Redshift mới chạy chip Graviton, hiệu suất tăng gấp 7 lần

AWS vừa ra mắt các phiên bản instance Redshift mới sử dụng bộ vi xử lý Graviton của riêng mình, mang lại hiệu suất cao hơn gấp 7 lần cho các khối lượng công việc mới. Động thái này nhằm đáp ứng nhu cầu ngày càng tăng từ các tác nhân AI, vốn thực hiện nhiều truy vấn dữ liệu hơn so với các chuyên gia SQL truyền thống.

AWS tuyên bố đã nâng cao hiệu suất của dịch vụ kho dữ liệu Redshift bằng cách chuyển sang các instance chạy trên bộ vi xử lý Graviton do chính hãng phát triển. Bước đi này định vị Redshift để xử lý tốt hơn các khối lượng công việc từ tác nhân AI và cạnh tranh với các đối thủ trên thị trường phân tích dữ liệu.

Các instance Redshift RG mới, được cung cấp sức mạnh bởi chip AWS Graviton, có thể tăng tốc độ xử lý truy vấn mới lên tới bảy lần. AWS khẳng định các instance này nhanh hơn tới 2,2 lần so với dòng RA3 ra mắt năm 2019, đồng thời giảm 30% chi phí trên mỗi vCPU.

Động cơ truy vấn được cập nhật cũng cho phép người dùng chạy phân tích SQL trên cả kho dữ liệu (data warehouse) và hồ dữ liệu (data lake) từ một động cơ duy nhất, mang lại hiệu suất cao hơn gấp 2,4 lần cho Apache Iceberg và gấp 1,5 lần cho Apache Parquet.

Sự sẵn có và tùy chọn thanh toán

Các instance Amazon Redshift RG hiện đã có mặt tại nhiều khu vực AWS, bao gồm Mỹ Đông (US East), Mỹ Tây (US West), Châu Á - Thái Bình Dương, Canada (Trung tâm), Châu Âu (Frankfurt, Ireland, Milan, London, Paris, Tây Ban Nha, Stockholm) và Nam Mỹ (São Paulo). AWS lên kế hoạch công bố lộ trình mở rộng trong tương lai.

Người dùng có thể lựa chọn hình thức thanh toán theo giờ mà không cần cam kết hoặc sử dụng Reserved Instances để tiết kiệm chi phí. AWS khuyến nghị khách hàng sử dụng công cụ Pricing Calculator với các mẫu khối lượng công việc cụ thể để ước tính chi phí.

Tối ưu hóa cho tác nhân AI

Sự kết hợp giữa tốc độ, hiệu quả chi phí và động cơ truy vấn tích hợp giúp Redshift RG đối phó tốt hơn với các khối lượng công việc thay đổi từ các tác nhân AI. Những tác nhân này cho phép người dùng truy vấn dữ liệu bằng ngôn ngữ tự nhiên thay vì sử dụng SQL chuyên sâu.

Andrew Warfield, Phó chủ tịch và Kỹ sư xuất sắc của AWS, cho biết các kỹ sư Redshift đã làm việc chặt chẽ với đội ngũ Graviton trong vài năm qua. Ông nhận định rằng sự cải thiện hiệu suất sẽ giúp hệ thống lakehouse đáp ứng nhu cầu ngày càng tăng từ các khối lượng công việc do tác nhân điều khiển, khi người dùng kinh doanh thông thường truy vấn dữ liệu tổ chức bằng ngôn ngữ tự nhiên thay vì các chuyên gia BI hoặc dữ liệu sử dụng SQL.

"Các tác nhân AI, nhờ cấu trúc chuỗi lý luận (chain-of-reasoning), thường tương tác rất nhiều với dữ liệu. Chúng sẽ đưa ra truy vấn, giới hạn kết quả, xem xét kết quả ban đầu, quyết định bước tiếp theo và sau đó điều chỉnh. Chúng tôi đang thấy sự gia tăng cực kỳ lớn về tốc độ truy vấn," Warfield nói.

Ông so sánh điều này khác với "vấn đề thực tập sinh", khi một người dùng phát hiện ra "có một truy vấn đã lên lịch là SELECT * đối với dữ liệu petabyte chạy mỗi tuần một lần".

"Các tác nhân thực sự có khả năng tiết kiệm hơn nhiều về kết quả mà chúng yêu cầu từ cơ sở dữ liệu, nhưng chúng lại đưa ra nhiều truy vấn hơn nhiều, vì chúng có thể lặp lại qua lại khi suy nghĩ về một kết quả và chuyển sang câu hỏi tiếp theo," Warfield giải thích thêm.

Chiến lược dữ liệu mở và tương lai

Một lý do khác khiến AWS quyết tâm nâng cấp hệ thống kho dữ liệu/hồ dữ liệu cốt lõi này là sự cạnh tranh ngày càng gay gắt. Mặc dù AWS có lợi thế lớn với lượng dữ liệu khổng lồ lưu trữ trên S3, nhưng việc hỗ trợ định dạng bảng mở Apache Iceberg từ đầu năm 2023 đã giúp khách hàng dễ dàng mang công cụ phân tích của họ đến với dữ liệu hơn, bất kể môi trường nào.

AWS đã củng cố cam kết với Iceberg thông qua việc ra mắt loại thùng S3 Tables để lưu trữ dữ liệu ở định dạng Apache Iceberg, có khả năng làm cho dữ liệu sẵn sàng hơn cho các động cơ phân tích đối thủ.

Warfield chia sẻ: "Chúng tôi đã rất có chủ đích trong công việc xung quanh Iceberg và S3 Tables. Việc di chuyển dữ liệu vô cùng đau đớn. Những quyết định nền tảng về cách biểu diễn dữ liệu và quản trị; đó là những quyết định bạn không muốn thực hiện lại trong tương lai, vì chúng liên quan đến rất nhiều thay đổi quản lý và di chuyển stuff, và thực sự làm chậm đội nhóm của bạn. Quyết định neo vào Iceberg của chúng tôi dựa hoàn toàn vào việc khách hàng nói với chúng tôi rằng đó là định dạng họ đang chuyển đổi sang, và chúng tôi muốn đảm bảo cho phép khách hàng biểu diễn dữ liệu theo cách cho phép họ sử dụng bất kỳ động cơ nào họ muốn, dù là của chúng tôi hay của bên khác."

Lĩnh vực phân tích đang mở rộng ra ngoài các chuyên gia. Ví dụ, gã khổng lồ ứng dụng SAP từ lâu đã có hệ thống kho dữ liệu cho dữ liệu của riêng mình, nhưng họ gần đây đã mua lại chuyên gia Iceberg là Dremio trong nỗ lực biến SAP trở thành nơi trú ngụ cho các tác nhân AI truy vấn dữ liệu trong môi trường của các nhà cung cấp khác.

Warfield khẳng định: "Chúng tôi đã có nhiều động cơ của riêng mình. Chúng tôi đã làm việc chặt chẽ với các cộng đồng nguồn mở. Chúng tôi muốn đảm bảo, ở cấp độ lưu trữ và dữ liệu, khách hàng luôn có quyền tự do mang công cụ phù hợp nhất để làm việc với dữ liệu."

AWS tung ra phiên bản Redshift mới chạy chip Graviton, hiệu suất tăng gấp 7 lần

Sự sẵn có và tùy chọn thanh toán

Tối ưu hóa cho tác nhân AI

Chiến lược dữ liệu mở và tương lai

Bài viết liên quan