Cisco dùng AI để viết báo cáo sự cố bảo mật: Kết quả khả quan nhưng rủi ro vẫn hiện hữu
Cisco đã thử nghiệm sử dụng AI để soạn thảo các báo cáo phản ứng sự cố bảo mật và nhận thấy thời gian làm việc giảm đi 50%. Tuy nhiên, công ty cũng cảnh báo về các vấn đề như tính nhất quán kém, lỗi chính tả và nguy cơ "ảo giác" của mô hình ngôn ngữ lớn.

Cisco dùng AI để viết báo cáo sự cố bảo mật: Kết quả khả quan nhưng rủi ro vẫn hiện hữu
Gã khổng lồ mạng Cisco gần đây đã tiến hành thử nghiệm khả năng viết báo cáo chính xác của AI trong một bài tập phản ứng sự cố bảo mật trên bàn giấy. Kết quả cho thấy mặc dù công nghệ này giúp tiết kiệm đáng kể thời gian, nhưng vẫn còn nhiều rủi ro tiềm ẩn cần lưu ý.
Trong một bài đăng trên blog, Nate Pors - chỉ huy sự vụ cấp cao của đội Talos Incident Response thuộc Cisco - đã chia sẻ những kinh nghiệm thực tế khi áp dụng các mô hình ngôn ngữ lớn (LLM) vào công việc báo cáo kỹ thuật.
Hạn chế của các mô hình ngôn ngữ lớn
Pors nhận định rằng khi được yêu cầu tạo ra nội dung kỹ thuật dài, LLM thường mang lại "những sai sót đáng kể, kết luận bất thường và phong cách viết không nhất quán". Nguyên nhân sâu xa là do bản chất của LLM thực chất chỉ là một hệ thống tự động hoàn thiện văn bản tinh vi, đưa ra các phán đoán có tính giáo dục thay vì sự hiểu biết thực sự.
Theo Pors, LLM thường mắc phải bốn loại lỗi chính:
- Sử dụng dữ liệu khác nhau cho từng truy vấn, khiến việc dựa vào LLM để có kết quả nghiên cứu chuẩn hóa trở nên khó khăn.
- Đưa ra các kết luận khác nhau từ cùng một dữ liệu. Ví dụ, trong một tình huống vi phạm dữ liệu, mô hình có thể khuyến nghị đặt lại mật khẩu cho toàn tổ chức trong lần chạy này, nhưng lại đề xuất đặt lại có mục tiêu trong lần khác.
- Tạo ra các tài liệu có cấu trúc và định dạng khác nhau ở mỗi lần chạy mới, gây khó khăn cho việc kiểm soát chất lượng.
- Bỏ sót dữ liệu, dẫn đến việc đầu ra có thể bỏ qua những thông tin quan trọng.
Các kỹ thuật khắc phục
Để hạn chế những vấn đề trên, đội Talos của Cisco đã phát triển một số kỹ thuật cụ thể. Một trong số đó là cung cấp cho LLM "hướng dẫn chi tiết theo từng nhiệm vụ đơn lẻ", tập trung vào "một phần nhỏ cụ thể của báo cáo". Cách tiếp cận này giúp giảm đáng kể nguy cơ ảo giác hoặc sự ô nhiễm chéo giữa các phần.
Ngoài ra, việc chỉ định rõ nguồn dữ liệu mà LLM cần sử dụng và thiết lập các quy tắc khắt khe về phong cách cũng như định dạng đầu ra cũng mang lại hiệu quả tích cực.
Kết quả thử nghiệm
Nhờ áp dụng các kỹ thuật này, Cisco cho biết thời gian cần thiết để soạn thảo một báo cáo sự cố dựa trên bài tập tình huống đã giảm tới 50%.
Một bài kiểm tra mù trong quy trình đảm bảo chất lượng của Cisco cho thấy không có sự sụt giảm đáng kể nào về chất lượng viết chung. Người đánh giá đồng nghiệp, biên tập viên chuyên nghiệp và người quản lý đều đưa ra những nhận xét tích cực về báo cáo mà không hề biết nó được AI tạo ra. Thậm chí, người đánh giá còn nhận thấy tỷ lệ lỗi chính tả và ngữ pháp trong báo cáo này thấp hơn nhiều so với mức trung bình.
Những rủi ro mới phát sinh
Tuy nhiên, đội ngũ Talos cũng phát hiện ra một vấn đề đáng lo ngại: việc chỉnh sửa nhiều báo cáo mẫu trong cùng một phiên làm việc dẫn đến sự ô nhiễm chéo của nội dung từ tài liệu nguồn của báo cáo này sang báo cáo khác, ngay cả khi các ghi chú dùng để tạo báo cáo đầu tiên đã bị xóa.
Do đó, các nhà nghiên cứu khuyến nghị nên bắt đầu một phiên làm việc mới và nhập lại các lệnh nhắc (prompt) cho mỗi báo cáo sự cố riêng biệt.
Họ cũng thử nghiệm một lệnh nhắc dùng để kiểm tra chính tả và ngữ pháp, nhưng kết quả thất vọng. Công cụ này đã "ảo giác" ra vô số vấn đề ngữ pháp, không nhận diện được các lỗi thực tế và có tỷ lệ thành công dưới 50%. Pors kết luận rằng công cụ này "hiện không phù hợp để sử dụng trong môi trường sản xuất".
Kết luận
Cisco cho rằng phương pháp tiếp cận của họ có thể được điều chỉnh để áp dụng cho mọi trường hợp báo cáo an ninh mạng có đầu vào chuẩn hóa và đầu ra dự đoán được. Tuy nhiên, các tác giả phải "chịu trách nhiệm về từng từ trong báo cáo cuối cùng".
Trong quá trình thử nghiệm, nhóm phát hiện ra rằng LLM tạo ra các khuyến nghị trùng lặp, không liên quan hoặc không thể thực hiện. Nếu được sử dụng trong môi trường thực tế mà không có sự kiểm tra thủ công, điều này có thể dẫn đến những khuyến nghị kém chất lượng trong báo cáo cuối cùng.
Bài viết liên quan

Công nghệ
Tôi chuyên đánh giá robot hút bụi, hãy đặt bất kỳ câu hỏi nào cho tôi!
21 tháng 5, 2026

Công nghệ
Cảnh sát bắt giữ nghi can được cho là "ông trùm" của trang web buôn bán ma túy Dream Market
14 tháng 5, 2026

Công nghệ
Thử nghiệm tính năng Avatar AI của Google Gemini: Bản sao số của tôi thật đáng sợ nhưng chân thực
21 tháng 5, 2026
