OCSF giải thích: Tiếng ngữ dữ liệu chia sẻ mà đội ngũ an ninh đang thiếu

Ngành công nghiệp an ninh mạng tập trung vào AI và các trợ lý ảo, nhưng một sự chuyển dịch thầm lặng đang diễn ra dưới tầng bề mặt đó: Các nhà cung cấp đang tập trung quanh một cách chia sẻ để mô tả dữ liệu an ninh. Khung OCSF (Open Cybersecurity Schema Framework) đang nổi lên như một ứng cử viên mạnh mẽ, cung cấp một ngôn ngữ chung để đại diện các sự kiện, phát hiện và ngữ cảnh an ninh, giúp giảm thời gian viết lại tên trường và thời gian phân tích dữ liệu.

Năm qua, ngành công nghiệp an ninh mạng đã nói nhiều về các mô hình ngôn ngữ lớn (LLM), trợ lý ảo và các tác nhân AI. Tuy nhiên, một sự chuyển dịch thầm lặng đang diễn ra ngay dưới tầng bề mặt đó: Các nhà cung cấp đang đứng về phía một phương pháp chung để mô tả dữ liệu an ninh. Khung Lược đồ Bảo mật Mạng Mở (OCSF) đang nổi lên như một ứng cử viên mạnh mẽ cho công việc này.

Nó cung cấp cho các nhà cung cấp, doanh nghiệp và chuyên gia một cách chung để đại diện cho các sự kiện bảo mật, kết quả kiểm toán, đối tượng và ngữ cảnh. Điều này có nghĩa là ít thời gian hơn để viết lại tên trường và trình phân tích tùy chỉnh, và nhiều thời gian hơn để phân tích các phát hiện, chạy phân tích và xây dựng quy trình làm việc có thể hoạt động xuyên suốt các sản phẩm khác nhau. Trong một thị trường mà mọi đội ngũ an ninh đang ghép nối dữ liệu từ các điểm cuối, danh tính, đám mây, SaaS và telemetri AI, hạ tầng chung cảm thấy như một giấc mơ, và OCSF giờ đây đưa nó vào tầm với.

OCSF trong ngôn ngữ đơn giản

OCSF là một khung mã nguồn mở cho các lược đồ an ninh mạng. Nó được thiết kế không thiên vị nhà cung cấp và có chủ đích là không phụ thuộc vào định dạng lưu trữ, thu thập dữ liệu và các lựa chọn ETL. Về mặt thực tế, nó cung cấp cấu trúc chia sẻ cho các sự kiện để đội ngũ kỹ thuật ứng dụng và kỹ sư dữ liệu có thể làm việc với một ngôn ngữ nhất quán hơn cho việc phát hiện và điều tra mối đe dọa.

Điều đó nghe có vẻ khô khan cho đến khi bạn nhìn vào công việc hàng ngày bên trong một Trung tâm Vận hành An ninh (SOC). Đội ngũ an ninh phải tốn nhiều nỗ lực để chuẩn hóa dữ liệu từ các công cụ khác nhau để họ có thể phân tích các sự kiện. Ví dụ, việc phát hiện một nhân viên đăng nhập từ San Francisco vào lúc 10 giờ sáng trên máy tính xách tay, sau đó truy cập tài nguyên đám mây từ New York vào lúc 10:02 sáng có thể tiết lộ thông tin đăng nhập bị rò rỉ.

Tuy nhiên, việc thiết lập một hệ thống có thể phân tích các sự kiện đó không phải là một nhiệm vụ dễ dàng: Các công cụ khác nhau mô tả cùng một ý tưởng với các trường, cấu trúc lồng nhau và giả định khác nhau. OCSF được xây dựng để giảm thiểu "thuế" này. Nó giúp các nhà cung cấp ánh xạ các lược đồ của họ vào một mô hình chung và giúp khách hàng chuyển dữ liệu qua các hồ dữ liệu, đường ống dữ liệu và công cụ SIEM mà không cần phải dịch đắt đỏ tại mỗi bước chuyển.

Hai năm qua diễn ra rất nhanh

Phần lớn sự gia tốc có thể thấy của OCSF đã diễn ra trong hai năm qua. Dự án được công bố vào tháng 8 năm 2022 bởi Amazon AWS và Splunk, dựa trên các công trình đóng góp từ Symantec, Broadcom và các tập đoàn hạ tầng khác như Cloudflare, CrowdStrike, IBM, Okta, Palo Alto Networks, Rapid7, Salesforce, Securonix, Sumo Logic, Tanium, Trend Micro và Zscaler.

Cộng đồng OCSF đã duy trì nhịp độ phát hành đều đặn trong hai năm qua. Cộng đồng đã phát triển nhanh chóng. AWS tuyên bố vào tháng 8 năm 2024 rằng OCSF đã mở rộng từ một sáng kiến của 17 công ty thành một cộng đồng với hơn 200 tổ chức tham gia và 800 người đóng góp, sau đó mở rộng lên 900 người khi OCSF gia nhập Quỹ Linux vào tháng 11 năm 2024.

OCSF xuất hiện ở khắp nơi

Trong không gian quan sát và an ninh, OCSF xuất hiện ở khắp nơi. AWS Security Lake chuyển đổi tự nhiên các bản ghi và sự kiện AWS được hỗ trợ thành OCSF và lưu trữ chúng dưới dạng Parquet. AWS AppFabric có thể xuất dữ liệu kiểm toán đã chuẩn hóa theo định dạng OCSF. Các kết quả của AWS Security Hub sử dụng OCSF, và AWS xuất bản một phần mở rộng cho chi tiết tài nguyên cụ thể của đám mây.

Splunk có thể dịch dữ liệu đầu vào thành OCSF bằng trình xử lý cạnh và trình thu thập dữ liệu. Cribl hỗ trợ chuyển đổi liền mạch dữ liệu theo luồng thành OCSF và các định dạng tương thích. Palo Alto Networks có thể chuyển tiếp dữ liệu dịch vụ Strata Slogging sang Amazon Security Lake theo định dạng OCSF. CrowdStrike tự định vị ở cả hai phía của đường ống OCSF, với dữ liệu Falcon được dịch sang OCSF cho Security Lake và Falcon Next-Gen SIEM được định vị để nhập và phân tích dữ liệu theo định dạng OCSF. OCSF là một trong những hiếm hoi các tiêu chuẩn đã vượt qua rào cản từ một tiêu chuẩn trừu tượng thành đường ống vận hành tiêu chuẩn trên toàn ngành.

AI đang mang lại tính cấp thiết mới cho câu chuyện OCSF

Khi các doanh nghiệp triển khai hạ tầng AI, các mô hình ngôn ngữ lớn (LLM) nằm ở trung tâm, bao quanh bởi các hệ thống phân tán phức tạp như cổng mô hình, thời gian chạy tác nhân, cơ sở dữ liệu vector, gọi công cụ, hệ thống truy xuất và động cơ chính sách. Các thành phần này tạo ra các dạng dữ liệu telemetri mới, phần lớn trong số đó vượt ra ngoài ranh giới sản phẩm. Các đội ngũ an ninh trên khắp SOC ngày càng tập trung vào việc thu thập và phân tích dữ liệu này. Câu hỏi trung tâm thường trở thành tác nhân AI thực sự đã làm gì thay vì chỉ văn bản nó tạo ra, và hành động của nó có dẫn đến bất kỳ lỗ hổng bảo mật nào hay không.

Điều này đặt áp lực lớn hơn lên mô hình dữ liệu nền tảng. Một trợ lý AI gọi công cụ sai, truy xuất dữ liệu sai, hoặc chuỗi kết hợp một dãy hành động rủi ro tạo ra một sự kiện an ninh cần được hiểu trên nhiều hệ thống. Một lược đồ an ninh chia sẻ trở nên giá trị hơn trong thế giới đó, đặc biệt khi AI cũng đang được sử dụng trên phía phân tích để phân tích nhiều dữ liệu hơn, nhanh hơn.

Đối với OCSF, năm 2025 là tất cả về AI

Hãy tưởng tượng một công ty sử dụng một trợ lý AI để giúp nhân viên tìm tài liệu nội bộ và kích hoạt các công cụ như hệ thống xử lý vé hoặc kho lưu trữ mã. Một ngày nọ, trợ lý bắt đầu kéo các tệp sai, gọi các công cụ nó không nên sử dụng và tiết lộ thông tin nhạy cảm trong các phản hồi của nó.

Các bản cập nhật trong các phiên bản 1.5.0, 1.6.0 và 1.7.0 của OCSF giúp đội ngũ an ninh dựng lại những gì đã xảy ra bằng cách đánh dấu hành vi bất thường, cho thấy ai có quyền truy cập vào các hệ thống được kết nối và theo dõi từng bước các cuộc gọi công cụ của trợ lý. Thay vì chỉ thấy câu trả lời cuối cùng mà AI đã đưa ra, đội ngũ có thể điều tra toàn bộ chuỗi hành động dẫn đến vấn đề.

Hướng tới tương lai

Hãy tưởng tượng một công ty sử dụng một bot hỗ trợ khách hàng AI, và một ngày nào đó bot bắt đầu đưa ra các câu trả lời dài, chi tiết bao gồm hướng dẫn khắc phục sự cố nội bộ chỉ dành cho nhân viên. Với các thay đổi đang phát triển cho OCSF 1.8.0, đội ngũ an ninh có thể thấy mô hình nào xử lý cuộc trao đổi, nhà cung cấp nào cung cấp nó, vai trò của mỗi tin nhắn là gì và số lượng token thay đổi như thế nào trong cuộc trò chuyện.

Một sự tăng đột biến bất thường trong số lượng token prompt hoặc hoàn thành có thể biểu thị rằng bot đã bị cung cấp một prompt ẩn bất thường, kéo quá nhiều dữ liệu nền tảng từ cơ sở dữ liệu vector, hoặc tạo ra câu trả lời quá dài khiến cơ hội tiết lộ thông tin nhạy cảm tăng lên. Điều đó cung cấp cho các nhà điều tra một manh mối thực tế về nơi tương tác đi sai đường, thay để lại cho họ chỉ câu trả lời cuối cùng.

Tại sao điều này quan trọng đối với thị trường rộng lớn hơn

Câu chuyện lớn hơn là OCSF đã chuyển dịch nhanh chóng từ một nỗ lực cộng đồng trở thành một tiêu chuẩn thực sự mà các sản phẩm an ninh sử dụng hàng ngày. Trong hai năm qua, nó đã có được sự giám sát tốt hơn, các bản phát hành thường xuyên và sự hỗ trợ thực tế qua các hồ dữ liệu, đường ống nhập liệu, quy trình làm việc SIEM và các hệ sinh thái đối tác.

Trong một thế giới mà AI mở rộng lĩnh vực an ninh qua các lừa đảo, lạm dụng và các con đường tấn công mới, các đội ngũ an ninh dựa vào OCSF để kết nối dữ liệu từ nhiều hệ thống mà không mất ngữ cảnh trên đường đi để bảo vệ dữ liệu của bạn.

Nikhil Mungel đã xây dựng các đội ngũ hệ thống phân tán và AI tại các công ty SaaS trong hơn 15 năm.