Castor: Hệ thống quản lý lưu trữ nâng cao của CERN

04 tháng 6, 2026·4 phút đọc

Castor là hệ thống quản lý lưu trữ phân cấp kết hợp giữa đĩa và băng từ, được CERN phát triển để lưu trữ khối lượng dữ liệu vật lý khổng lồ. Hệ thống hỗ trợ nhiều giao thức truy cập như XROOT và GridFTP, cho phép người dùng lưu trữ, liệt kê và truy xuất dữ liệu từ xa. Kể từ năm 2020, Castor chính thức được kế thừa bởi hệ thống lưu trữ băng từ mới của CERN (CTA).

Castor: Hệ thống quản lý lưu trữ nâng cao của CERN

CERN Advanced STORage Manager (CASTOR) là hệ thống quản lý lưu trữ phân cấp (tức là kết hợp giữa đĩa và băng từ) được phát triển tại CERN nhằm mục đích lưu trữ dữ liệu vật lý với khối lượng cực lớn. Người dùng có thể lưu trữ, liệt kê, truy xuất và truy cập dữ liệu từ xa thông qua các công cụ dòng lệnh của CASTOR hoặc các ứng dụng được phát triển dựa trên CASTOR API.

Hệ thống cung cấp một tập hợp các giao thức truy cập, trong đó nổi bật nhất là XROOT (giao thức chính được khuyến nghị) và GridFTP. Trước đây, RFIO (Remote File IO) cũng được hỗ trợ nhưng đã ngừng hoạt động từ năm 2016.

Lịch sử và sự kế thừa

CASTOR là hệ thống kế thừa của SHIFT (Scalable Heterogeneous Integrated FaciliTy), một cơ sở tính toán cho vật lý năng lượng cao được phát triển và vận hành vào những năm 1990. Tính đến ngày 29 tháng 6 năm 2020, CTA (CERN Tape Archive - Kho lưu trữ băng từ của CERN) bắt đầu được vận hành như hệ thống kế thừa của CASTOR và dần dần thay thế nó.

Sự tiến hóa của tổng lượng dữ liệu trên băng từ tại CERN kể từ năm 2001 cho thấy sự tăng trưởng vượt bậc, bao gồm các số liệu thống kê được thu thập từ CASTOR 1 (1998-2007), CASTOR 2 (2005-2022) và hiện tại là CTA (từ năm 2020 trở đi).

Thiết kế kiến trúc

Thiết kế của CASTOR dựa trên kiến trúc thành phần, sử dụng một cơ sở dữ liệu trung tâm để bảo vệ các thay đổi trạng thái của các thành phần trong hệ thống.

  • Stager: Kiểm soát việc truy cập vào các pool đĩa.
  • Name Server: Duy trì cấu trúc thư mục.
  • Tape Infrastructure: Kiểm soát việc truy cập băng từ (ghi và đọc lại).

Các module chức năng chính

Hệ thống bao gồm 5 module chức năng chính:

Stager

Đây là trình quản lý pool đĩa chịu trách nhiệm cấp phát và thu hồi không gian lưu trữ. Nó cũng kiểm soát quyền truy cập của khách hàng và giám sát danh mục nội bộ của pool đĩa.

Name Server

Không gian tên của CASTOR (bao gồm các tệp và thư mục) chứa các siêu dữ liệu tệp tương ứng như kích thước, ngày tháng, checksum, quyền sở hữu và ACL (Danh sách kiểm soát truy cập), cũng như thông tin về bản sao trên băng. Các công cụ dòng lệnh được mô phỏng theo các công cụ Unix cho phép thao tác với không gian tên này (ví dụ: lệnh nsls tương đương với ls).

Tape Infrastructure (Hạ tầng băng từ)

Trong điều kiện nhất định, CASTOR sẽ lưu các tệp onto băng từ để đảm bảo an toàn dữ liệu và quản lý lượng dữ liệu lưu trữ lớn hơn khả năng của ổ cứng. Tại CERN, các đơn vị băng từ dung lượng cao được sử dụng bao gồm Oracle StorageTek T10000C (5 TB) và IBM TS1140 (4 TB). Các băng từ được chứa trong các thư viện băng từ và việc truy cập chúng được tự động hóa hoàn toàn.

Các thư viện được CASTOR sử dụng trong môi trường sản xuất bao gồm 4 hệ thống Oracle SL8500 và 3 hệ thống IBM TS3500. Tổng dung lượng lưu trữ băng từ hiện tại khoảng 100 PB (tính đến tháng 1 năm 2013).

Quản lý băng từ

Cơ sở dữ liệu CASTOR Volume Manager chứa thông tin về các đặc điểm, dung lượng và trạng thái của từng băng. Cơ sở dữ liệu Name Server chứa thông tin về các tệp (đôi khi được gọi là các đoạn) trên băng, bao gồm quyền sở hữu, chi tiết quyền hạn và vị trí offset của tệp trên băng.

Việc gắn thẻ (cartridge) vào và ra khỏi ổ băng từ được quản lý bởi Volume Drive Queue Manager (VDQM) kết hợp với phần mềm điều khiển thư viện dành riêng cho từng mẫu thư viện băng từ.

Client và SRM

Module Client cho phép người dùng tải lên, tải xuống, truy cập và quản lý dữ liệu CASTOR. Trong khi đó, Storage Resource Management cho phép truy cập dữ liệu trong một lưới tính toán (Grid) thông qua giao thức SRM. Nó tương tác với CASTOR thay mặt cho người dùng hoặc các dịch vụ khác (như FTS - Hệ thống truyền tệp được cộng đồng LHC sử dụng để xuất dữ liệu).

Hiệu quả và chi phí

Chi phí lưu trữ trên mỗi terabyte trên băng từ thấp hơn nhiều so với ổ cứng, đồng thời có ưu điểm là không tiêu thụ điện năng khi băng từ không được truy cập. Tuy nhiên, thời gian truy cập trên băng từ lâu hơn, tính theo phút thay vì tính bằng giây như ổ cứng.

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗