Castor: Hệ thống quản lý lưu trữ tiên tiến của CERN

Phần mềm04 tháng 6, 2026·4 phút đọc

CASTOR là hệ thống quản lý lưu trữ phân cấp kết hợp giữa đĩa và băng từ, được CERN phát triển để lưu trữ dữ liệu vật lý khổng lồ. Hệ thống cung cấp các giao thức như XROOT và GridFTP để truy cập dữ liệu từ xa, và hiện đang được kế nhiệm bởi CTA.

Castor: Hệ thống quản lý lưu trữ tiên tiến của CERN

CASTOR (CERN Advanced STORage Manager) là hệ thống quản lý lưu trữ phân cấp, kết hợp giữa ổ đĩa và băng từ, được phát triển tại CERN nhằm mục đích lưu trữ dữ liệu vật lý với dung lượng cực lớn. Người dùng có thể lưu trữ, liệt kê, truy xuất và truy cập dữ liệu từ xa thông qua các công cụ dòng lệnh hoặc ứng dụng sử dụng CASTOR API. Hệ thống cung cấp nhiều giao thức truy cập, trong đó XROOT là giao thức chính được khuyến nghị, bên cạnh GridFTP.

Lịch sử và sự phát triển

CASTOR là hệ thống kế thừa của SHIFT (Scalable Heterogeneous Integrated FaciliTy), một cơ sở tính toán cho vật lý năng lượng cao được phát triển và vận hành vào thập niên 1990. Kể từ ngày 29 tháng 6 năm 2020, CTA (CERN Tape Archive - Kho lưu trữ băng từ của CERN) bắt đầu được vận hành như hệ thống kế thừa của CASTOR và dần dần thay thế nó. Sự gia tăng tổng lượng dữ liệu trên băng từ tại CERN từ năm 2001 đã ghi nhận thống kê từ CASTOR 1 (1998-2007), CASTOR 2 (2005-2022) và hiện nay là CTA (từ năm 2020).

Thiết kế hệ thống

Thiết kế của CASTOR dựa trên kiến trúc thành phần, sử dụng một cơ sở dữ liệu trung tâm để bảo vệ các thay đổi trạng thái của các thành phần trong hệ thống. Quy trình truy cập vào các pool đĩa được kiểm soát bởi Stager, trong khi cấu trúc thư mục được duy trì bởi Name Server. Quy trình truy cập băng từ (ghi và đọc lại) do cơ sở hạ tầng băng từ (Tape Infrastructure) kiểm soát.

Các module chức năng chính

Hệ thống bao gồm 5 module chức năng chính:

  • Stager: Đây là trình quản lý pool đĩa, có nhiệm vụ cấp phát và thu hồi không gian lưu trữ. Nó cũng kiểm soát quyền truy cập của khách hàng và giám sát danh mục nội bộ của pool đĩa.
  • Name Server: Không gian tên của CASTOR (bao gồm các tệp và thư mục) chứa siêu dữ liệu tương ứng (kích thước, ngày tháng, checksum, quyền sở hữu và ACLs - Danh sách kiểm soát truy cập, thông tin bản sao trên băng). Các công cụ dòng lệnh được mô phỏng theo công cụ Unix cho phép thao tác với không gian tên này (ví dụ: lệnh nsls tương đương với ls).
  • Tape Infrastructure (Cơ sở hạ tầng băng từ): Trong điều kiện nhất định, CASTOR lưu các tệp onto băng từ để đảm bảo an toàn dữ liệu và quản lý lượng dữ liệu lớn hơn khả năng lưu trữ của ổ đĩa. Tại CERN, các đơn vị băng dung lượng cao được sử dụng bao gồm Oracle StorageTek T10000C (5 TB) và IBM TS1140 (4 TB). Các hộp băng (cartridges) được chứa trong các thư viện băng từ và quy trình truy cập được tự động hóa hoàn toàn. Các thư viện đang được sử dụng trong sản xuất là 4 x Oracle SL8500 và 3 x IBM TS3500. Tổng dung lượng lưu trữ băng hiện tại khoảng 100 PB (tính đến tháng 1 năm 2013).
  • Quản lý băng từ: Cơ sở dữ liệu CASTOR Volume Manager chứa thông tin về đặc điểm, dung lượng và trạng thái của từng băng. Cơ sở dữ liệu Name Server chứa thông tin về các tệp (đôi khi được gọi là các đoạn) trên băng, bao gồm quyền sở hữu, chi tiết quyền phép, và vị trí offset của tệp trên băng. Các lệnh người dùng có sẵn để hiển thị thông tin trong cả hai cơ sở dữ liệu này.
  • Quản lý thiết bị: Việc gắn/tháo các hộp băng vào/ra khỏi ổ băng được quản lý bởi Volume Drive Queue Manager (VDQM) kết hợp với phần mềm điều khiển thư viện dành riêng cho từng mẫu thư viện băng.

Ưu và nhược điểm của lưu trữ băng

Chi phí lưu trữ trên mỗi terabyte trên băng từ thấp hơn nhiều so với ổ cứng, đồng thời có ưu điểm là không tiêu thụ điện năng khi băng không được truy cập. Tuy nhiên, thời gian truy cập trên băng từ lâu hơn, tính theo phút thay vì tính bằng giây như ổ cứng.

Khách hàng và Quản lý tài nguyên lưu trữ

Module Client cho phép người dùng tải lên, tải xuống, truy cập và quản lý dữ liệu CASTOR. Trong khi đó, Storage Resource Management cho phép truy cập dữ liệu trong một lưới tính toán (Grid) thông qua giao thức SRM. Nó tương tác với CASTOR thay mặt cho người dùng hoặc các dịch vụ khác (như FTS - Hệ thống truyền tệp được cộng đồng LHC sử dụng để xuất dữ liệu).

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗