Từ Shadow IT đến Shadow AI: Tại sao doanh nghiệp cần AI-BOM để bảo mật chuỗi cung ứng?

Khi chuỗi cung ứng doanh nghiệp ngày càng phụ thuộc vào AI, bản danh mục phần mềm truyền thống (SBOM) không còn đủ để đảm bảo an toàn. Giới chuyên gia đang chuyển sang sử dụng AI-BOM để theo dõi các tài sản AI, mô hình và dữ liệu, nhằm giải quyết vấn đề "Shadow AI" và các lỗ hổng bảo mật mới.

Trong bối cảnh bảo mật chuỗi cung ứng doanh nghiệp hiện nay, nơi các ứng dụng và tác nhân AI (AI agents) đã thâm nhập sâu rộng, bản danh mục vật liệu phần mềm truyền thống (SBOM) không còn cung cấp một danh sách kiểm kê hoàn chỉnh tất cả các thành phần trong môi trường. Đó là lúc khái niệm AI-BOM (Bản danh mục vật liệu AI) xuất hiện.

Trong khi SBOM truyền thống bao gồm tất cả các gói phần mềm và phần phụ thuộc của tổ chức, AI-BOM nhằm mục đích lấp đầy các khoảng trống do tài sản AI tạo ra. Nó cung cấp khả năng quan sát trên tất cả các mô hình, tập dữ liệu, thư viện SDK, máy chủ MCP, khung ML, tác nhân, kỹ năng tác nhân, câu lệnh (prompts) và các công cụ AI khác — cộng với cách các thành phần AI này tương tác với nhau và kết nối với quy trình làm việc.

"Bạn không biết công thức, bạn không biết nguyên liệu, bạn không biết người thợ làm bánh. Bạn có dám ăn một miếng bánh đó không?"

Ian Swanson, Phó chủ tịch mảng bảo mật AI tại Palo Alto Networks, đã sử dụng một hình ảnh ẩn dụ thú vị khi phỏng vấn với The Register: "Hãy tưởng tượng AI giống như một chiếc bánh sinh nhật đặt giữa căn phòng này, nhưng bạn không biết nó đến từ đâu. Bạn không biết công thức, không biết nguyên liệu, cũng không biết ai làm ra nó. Bạn có dám ăn một miếng bánh đó không?"

Tuy nhiên, rất nhiều tổ chức vẫn đang "ăn" chiếc bánh đó mà không do dự.

Bên cạnh các mô hình và công cụ AI được công ty chấp thuận sử dụng trong ngăn xếp công nghệ, còn tồn tại vấn đề "Shadow AI" (AI bóng tối) — trước đây chúng ta gọi là "Shadow IT". Những công cụ không được cấp phép này cũng cần được đưa ra khỏi bóng tối để có thể kiểm toán. Điều này bao gồm các nền tảng lập trình theo cảm hứng và các tác nhân mà nhân viên cá nhân tự tạo ra, cũng như các chatbot bên ngoài mà họ tương tác trên máy tính làm việc và có thể vô tình nhập dữ liệu nhạy cảm của công ty vào đó.

Để bảo vệ tất cả các "nguyên liệu AI" được nướng vào chiếc bánh đó, các công ty trước hết cần biết chúng là gì, chúng kết nối với đâu và cách chúng đang được sử dụng.

Amy Chang, người đứng đầu mảng tình báo đe dọa AI và nghiên cứu bảo mật tại Cisco, cho biết: "Nhìn chung, các tổ chức đang cố gắng nắm bắt vấn đề bảo mật AI đều muốn một cách thức để xác định những tài sản AI nào đang tồn tại trong môi trường của họ. Một công cụ như bản danh mục vật liệu AI (AI-BOM) là một trong những điểm khởi đầu đầu tiên giúp bạn có sự hiểu biết tốt hơn về những gì đang tồn tại."

Truy xuất nguồn gốc mô hình (Model Provenance)

Cisco trước đây đã mã nguồn mở AI-BOM của mình, cho phép bất kỳ ai cũng có thể quét cơ sở mã, hình ảnh container và môi trường đám mây để tạo ra bản danh mục này.

Vào thứ Sáu tuần trước, công ty cũng cung cấp công cụ Model Provenance Kit (Bộ công cụ truy xuất nguồn gốc mô hình) dưới dạng mã nguồn mở để theo dõi nguồn gốc mô hình. Trong một bài đăng trên blog công bố kho lưu trữ mới, Chang và các nhà nghiên cứu AI khác mô tả nó như một "kiểm tra DNA" cho các mô hình AI. Nó xác định nguồn gốc bằng một trong hai chế độ: so sánh (compare) hoặc quét (scan).

Chế độ Compare lấy bất kỳ hai mô hình nào và hiển thị mức độ tương đồng của chúng trên siêu dữ liệu, cấu trúc tokenizer, tín hiệu cấp trọng số cùng với điểm số tổng hợp cuối cùng. Chế độ Scan bắt đầu bằng một mô hình duy nhất và khớp nó với cơ sở dữ liệu để xác định các ứng cửen dòng dõi gần nhất nhất — và để hỗ trợ chế độ này, Cisco cũng đã phát hành cơ sở dữ liệu dấu vân tay mô hình bao gồm khoảng 150 mô hình cơ bản trên hơn 45 họ và hơn 20 nhà xuất bản.

Chang chia sẻ rằng công cụ AI mới này thực hiện hai kiểm soát cổng. "Đầu tiên, ở cấp độ siêu dữ liệu, nó so sánh thông tin từ mô hình cơ bản với phiên bản tinh chỉnh (fine-tuned) của mô hình để phác họa một mối quan hệ liên kết nguồn gốc — ví dụ như mô hình này được dẫn xuất từ Meta Llama 4 hay Alibaba Qwen3," bà nói.

"Sau đó, chúng tôi xem xét các dấu hiệu dựa trên trọng số. Vì vậy, bây giờ chúng tôi đang cung cấp một cách có thể xác minh, lặp lại và có thể chứng minh để xác thực rằng các mô hình bạn sử dụng và triển khai, các mô hình hướng tới khách hàng và đang tiêu thụ tất cả dữ liệu này, thực sự là những mô hình bạn nên sử dụng, hoặc nằm trong giới hạn dung sai rủi ro của bạn."

Rủi ro tuân thủ và nhận dạng phi con người

Chang chỉ ra trường hợp của Cursor's Composer 2, một phần được xây dựng trên Kimi 2.5, một mô hình mã nguồn mở của Trung Quốc. "Họ đã rất nhanh chóng thừa nhận rằng, đúng, chúng tôi đã sử dụng mô hình Trung Quốc để xây dựng cái này," bà nói. "Nhưng điều đó có thể mang lại rủi ro về quy định hoặc tuân thủ."

Một ví dụ điển hình là Đạo luật AI của Liên minh Châu Âu (EU AI Act), trong đó bắt buộc các tổ chức phải tài liệu hóa dữ liệu đào tạo, đặc điểm của phương pháp đào tạo và đánh giá rủi ro cho "hệ thống rủi ro cao".

Trong khi đó, Wiz (công ty thuộc sở hữu của Google) trong các AI-BOM của mình cũng tính đến tất cả các công cụ trên máy trạm của nhà phát triển, chẳng hạn như máy tính xách tay hoặc môi trường phát triển tích hợp (IDE), đã được sử dụng để xây dựng ứng dụng AI.

Ziad Ghalleb, quản lý sản phẩm kỹ thuật của Wiz, cho biết: "Nhiều người định nghĩa khả năng quan sát hoặc BOM dựa trên những gì thực sự nằm trong tạo phẩm cuối cùng, nhưng chúng tôi cũng mở rộng định nghĩa của BOM nói chung và AI-BOM nói riêng để bao gồm cả các công cụ AI đã được sử dụng để xây dựng ứng dụng đó."

"Và sau đó một khía cạnh quan trọng khác là các danh tính (identities) được gắn cho các khối lượng công việc AI này, bởi vì tất cả các tác nhân hoặc mô hình, công cụ, v.v. đều được gắn với một danh tính cụ thể trong môi trường của bạn," Ghalleb thêm vào. "Vì vậy, bạn cần xem xét các danh tính phi con người này liên quan đến các hệ thống đó. Không chỉ là tài nguyên, mà còn là các danh tính và bộ quyền hạn được gắn với chúng."

Tất cả những điều này đều xoay quanh khả năng quan sát và bảo mật. "Nếu bạn không có khả năng quan sát các khối lượng công việc này, bạn thực sự không thể hiểu mình cần bảo vệ cái gì," Swanson nói.

Bảo vệ trước các cuộc tấn công đầu độc

Không chỉ có các doanh nghiệp đang vội vàng tích hợp công cụ AI vào quy trình làm việc, mà tội phạm cũng đang sử dụng các công cụ tương tự để di chuyển nhanh hơn và làm cho các cuộc tấn công của họ hiệu quả hơn.

Theo Swanson, đây cũng là trường hợp mà việc có AI-BOM có thể giúp những người bảo vệ phản ứng nhanh hơn. Ông không thể nêu tên công ty, nhưng trong một sự cố mà Palo Alto Networks đã xử lý, một nhóm tội phạm đã sử dụng AI để do thám tổ chức nạn nhân và định vị các điểm cuối bị lộ.

"Một trong những việc họ làm là tiếp cận các câu lệnh hệ thống (system prompts) — hướng dẫn cho khối lượng công việc AI về những gì nó có thể làm và không thể làm," Swanson nói. Và khi kẻ tấn công giành được quyền truy cập vào các câu lệnh hệ thống AI nội bộ của công ty, chúng đã sửa đổi chúng để ép buộc AI làm những việc nó không nên làm — chẳng hạn như đánh cắp dữ liệu và gửi nó đến một tài khoản email bên ngoài.

Một AI-BOM sẽ cung cấp sự hiểu biết về cấu hình và các phần phụ thuộc của hệ thống AI tại một trạng thái cụ thể trong thời gian — và cũng chỉ ra bất kỳ thay đổi nào.

"Nếu bạn có sự hiểu biết về trạng thái và sự thay đổi trạng thái, bạn sẽ có thể quay lại bản danh mục vật liệu AI và nói: 'Câu lệnh hệ thống nào đã được sử dụng trong các nguyên liệu để tạo ra ứng dụng AI này?' Và sau đó thấy rằng nó đã thay đổi từ trạng thái trước sang trạng thái mới. Vì vậy, chúng ta có lẽ nên kiểm tra điều này để xem có anything xấu đang xảy ra ở đây không," Swanson giải thích. "Và trong trường hợp đó, bạn sẽ có thể bắt được nó."

Các cuộc tấn công chuỗi cung ứng khác như đầu độc mô hình và kỹ năng (skills poisoning) càng làm nổi bật rủi ro của việc không biết những công cụ AI nào đang tồn tại trong môi trường IT.

"Các kỹ năng mà mọi người sử dụng phối hợp với nhiều trợ lý lập trình này khá dễ dàng để can thiệp, vì vậy điều quan trọng là phải có thể quét chúng để đảm bảo rằng không ai đang thao túng các khả năng này," Swanson nói. Nếu một kỹ năng được cho là cung cấp dự báo thời tiết, nó không nên đồng thời đánh cắp thông tin xác thực hoặc làm lộ bí mật.

"Hiểu về sự thay đổi trạng thái, liên tục quét các tạo phẩm này để tìm rủi ro chuỗi cung ứng, và sau đó tại thời điểm chạy (runtime), khi ứng dụng AI của bạn đang hoạt động, cũng hãy xem xét tất cả các liên lạc để đảm bảo không có gì xấu đang xảy ra," Swanson khuyên.

AI-BOM (và các bản đối tác phần mềm của chúng) cũng có thể giúp các tổ chức nhanh chóng xác định mã nguồn mở bị xâm nhập đang chạy trên hệ thống doanh nghiệp. Ví dụ: đợt tấn công gần đây vào các gói npm và PyPI bị đầu độc, cũng như các cuộc tấn công sâu Shai-Hulud trước đó. Cả hai chiến dịch này đều nhắm vào mã thường được tích hợp vào các ứng dụng AI.

Ngay cả khi không có định danh CVE, AI-BOM cho phép người dùng truy vấn "các thư viện hoặc gói liên quan", và sau đó xác định bất kỳ phiên bản độc hại nào trong môi trường của họ, Ghalleb nói. "Không có CVE nào được gắn cho chúng, nhưng ít nhất bạn biết cách loại bỏ những thứ này để ngăn chặn một mối đe dọa đang phát triển."

Từ Shadow IT đến Shadow AI: Tại sao doanh nghiệp cần AI-BOM để bảo mật chuỗi cung ứng?

Truy xuất nguồn gốc mô hình (Model Provenance)

Rủi ro tuân thủ và nhận dạng phi con người

Bảo vệ trước các cuộc tấn công đầu độc

Bài viết liên quan