AWS ra mắt S3 Files: Mang giao diện hệ thống tệp đến các bucket S3
AWS vừa giới thiệu S3 Files, cho phép người dùng gắn kết các bucket Amazon S3 và truy cập dữ liệu thông qua giao diện hệ thống tệp tiêu chuẩn. Ứng dụng có thể đọc và ghi tệp bằng các thao tác thông thường, trong khi hệ thống tự động chuyển đổi chúng thành yêu cầu S3, giúp các dịch vụ tính toán làm việc trực tiếp với dữ liệu lưu trữ trên S3.

AWS gần đây đã giới thiệu S3 Files, một giải pháp mới cho phép người dùng gắn kết (mount) một bucket Amazon S3 và truy cập dữ liệu của nó thông qua giao diện hệ thống tệp tiêu chuẩn. Các ứng dụng giờ đây có thể đọc và ghi tệp bằng cách sử dụng các thao tác tệp thông thường, trong khi hệ thống sẽ tự động chuyển đổi chúng thành các yêu cầu S3 ngầm bên dưới. Điều này giúp các dịch vụ tính toán làm việc trực tiếp với dữ liệu được lưu trữ trên S3 một cách mượt mà và hiệu quả hơn.
Sơ đồ kiến trúc S3 Files
Cơ chế hoạt động và Hiệu suất
Sébastien Stormacq, nhà phát triển chính tại AWS, giải thích rằng khi bạn làm việc với các tệp và thư mục cụ thể thông qua hệ thống tệp, siêu dữ liệu và nội dung tệp liên quan sẽ được đặt vào bộ nhớ lưu trữ hiệu suất cao của hệ thống tệp. Theo mặc định, các tệp hưởng lợi từ quyền truy cập độ trễ thấp sẽ được lưu trữ và phục vụ từ bộ nhớ hiệu suất cao này. Đối với các tệp không được lưu trữ trên bộ nhớ hiệu suất cao, chẳng hạn như những tệp cần đọc tuần tự lớn, S3 Files sẽ tự động phục vụ trực tiếp từ Amazon S3 để tối đa hóa thông lượng.
AWS khẳng định đây là nhà cung cấp duy nhất hiện nay cung cấp quyền truy cập hệ thống tệp đầy đủ tính năng và hiệu suất cao cho một kho lưu trữ đối tượng (object store). Họ đề xuất sử dụng S3 Files cho các khối lượng công việc như phân tích dữ liệu, học máy (machine learning), xử lý phương tiện truyền thông và các ứng dụng khác yêu cầu quyền truy cập hệ thống tệp chia sẻ cho các tập dữ liệu lớn.
Tích hợp sâu với Amazon EFS
Dưới lớp vỏ bọc, S3 Files sử dụng Amazon EFS và mang lại độ trễ khoảng 1ms cho dữ liệu hoạt động. Hệ thống tệp hỗ trợ quyền truy cập đồng thời từ nhiều tài nguyên tính toán với tính nhất quán NFS "close-to-open", khiến nó trở nên lý tưởng cho các khối lượng công việc tương tác và chia sẻ thay đổi dữ liệu, từ các tác nhân AI hợp tác thông qua công cụ dựa trên tệp đến các quy trình đào tạo ML xử lý tập dữ liệu.
S3 Files hỗ trợ tính năng tìm nạp trước thông minh (intelligent prefetching) để dự đoán nhu cầu truy cập dữ liệu. Khách hàng có thể kiểm soát những gì được lưu trữ trên hệ thống tệp, bao gồm tùy chọn tải toàn bộ dữ liệu tệp hoặc chỉ siêu dữ liệu, cho phép tối ưu hóa cho các mẫu truy cập cụ thể.
Quản lý dữ liệu và Xử lý xung đột
Andrew Warfield, Phó chủ tịch và Kỹ sư xuất sắc tại Amazon, đã chia sẻ thêm về động cơ và các lựa chọn thiết kế đằng sau S3 Files:
"Khi bạn tạo hoặc sửa đổi tệp, các thay đổi được tổng hợp và cam kết trở lại S3 khoảng mỗi 60 giây dưới dạng một yêu cầu PUT duy nhất. Đồng bộ hóa chạy theo cả hai hướng, vì vậy khi các ứng dụng khác sửa đổi các đối tượng trong bucket, S3 Files sẽ tự động phát hiện những sửa đổi đó và phản ánh chúng trong chế độ xem hệ thống tệp một cách tự động."
Một điểm đáng chú ý là cơ chế xử lý xung đột. Nếu có xung đột xảy ra khi tệp được sửa đổi từ cả hai nơi cùng một lúc, S3 sẽ là nguồn sự thật và phiên bản hệ thống tệp sẽ được chuyển đến thư mục lost+found với một chỉ số CloudWatch xác định sự kiện. Dữ liệu tệp không được truy cập trong 30 ngày sẽ bị loại khỏi chế độ xem hệ thống tệp nhưng không bị xóa khỏi S3, giúp chi phí lưu trữ tỷ lệ thuận với tập dữ liệu hoạt động của bạn.
Chi phí và Giới hạn hiện tại
Về chi phí, phí được áp dụng dựa trên lượng dữ liệu được lưu trữ trong hệ thống tệp S3, cho các thao tác đọc tệp nhỏ và tất cả thao tác ghi, cũng như các yêu cầu S3 được sử dụng để đồng bộ hóa dữ liệu giữa hệ thống tệp và bucket S3. Mặc dù S3 Files chạy trên cơ sở hạ tầng EFS với mức giá giống hệt, nhưng vì phí chỉ áp dụng cho phần dữ liệu nhỏ, được truy cập thường xuyên, tổng chi phí có thể vẫn thấp hơn so với việc sử dụng EFS thuần túy.
Tuy nhiên, cộng đồng phát triển cũng phản ứng trái chiều về tính năng này. Một số đánh giá cao trải nghiệm phát triển đơn giản hơn, trong khi others lo ngại về chi phí tiềm năng. Dzhuneyt Ahmed, CTO tại Provenant, đã chỉ ra một số hạn chế hiện tại khi thử nghiệm tùy chọn mới này:
- Phiên bản S3 (S3 versioning) là bắt buộc.
- Chưa có hỗ trợ Mã hóa hạ tầng (Infrastructure as Code - IaC) tại thời điểm ra mắt.
- Thiết lập IAM không rõ ràng, với chính sách tin cậy sử dụng các dịch vụ EFS và các điều kiện cụ thể của S3 Files.
S3 Files hiện đã có sẵn chung (GA) tại tất cả các khu vực AWS.



