Giả mạo danh tính Git dễ dàng lừa Claude phê duyệt mã độc

Các chuyên gia bảo mật cho thấy AI của Anthropic có thể bị đánh lừa chỉ bằng hai lệnh Git. Bằng cách giả mạo metadata của một nhà phát triển uy tín, mô hình đã chấp nhận các thay đổi mã độc hại mà không phát hiện ra.

Các chuyên gia bảo mật tại Manifold Security vừa chứng minh rằng trình duyệt mã dựa trên AI của Anthropic - Claude - có thể bị lừa phê duyệt các thay đổi mã độc hại chỉ bằng cách giả mạo danh tính người gửi.

Trong một bài đăng blog mới đây, nhóm nghiên cứu đã chỉ ra cách họ thao túng metadata của Git. Bằng cách thiết lập tên tác giả và email giả mạo, họ khiến một commit có vẻ như đến từ một nguồn tin cậy. Khi đưa qua quy trình duyệt tự động, mô hình AI đã chấp nhận nó mà không nghi ngờ.

Vấn đề này không nằm ở lỗ hổng của Git, vì metadata của commit luôn dễ bị giả mạo nếu không có cơ chế ký mã (signing) bổ sung. Vấn đề thực sự nằm ở chỗ mô hình AI coi trọng danh tính được khai báo hơn là đánh giá độc lập xem thay đổi đó có an toàn hay không.

Trong thử nghiệm của Manifold, quy trình được thiết lập để tự động phê duyệt các pull request từ các "huyền thoại trong ngành". Trong thực tế, các quy tắc này có thể ít rõ ràng hơn, như kiểm tra tư cách thành viên tổ chức hoặc lịch sử đóng góp, nhưng bản chất vấn đề vẫn giống nhau: Metadata không chứng minh được ai là người thực sự thực hiện thay đổi.

"Động lực đằng sau các cấu hình như vậy là dễ hiểu. Những người bảo trì các dự án mã nguồn mở phổ biến đang bị ngập trong các PR," Manifold nhận định. "Tự động hóa việc duyệt cho các đóng góp từ các nhân vật uy tín giúp giảm thiểu nút thắt cổ chai. Nhưng nó tạo ra giả định rằng tác giả có thể tin tưởng ngay lập tức."

Manifold so sánh tình huống này với sự cố thỏa hiệp gói OpenClaw Cline gần đây, nơi một gói độc hại đã lọt vào môi trường tin cậy. Trong cả hai trường hợp, thứ có vẻ xuất phát từ nguồn tin cậy đã được cấp độ tin tưởng mà nó không xứng đáng có.

Điều thay đổi với các hệ thống như Claude là cách niềm tin được áp dụng. Một người duyệt mã bằng con người có thể đặt câu hỏi tại sao một người bảo trì cụ thể lại thực hiện một thay đổi bất ngờ. Một trình duyệt tự động có xu hướng tuân theo các tín hiệu nội bộ nhất quán, và nếu các tín hiệu đó bao gồm danh tính, việc giả mạo danh tính trở thành con đường tấn công.

"Các thư viện mã nguồn mở ngày càng phụ thuộc vào các công cụ quy trình làm việc dựa trên AI để tự động duyệt và phê duyệt pull request, nhưng các tác nhân này dễ bị lừa, tạo cơ hội cho các mối đe dọa vượt qua các kiểm soát bảo mật và đầu độc các kho lưu trữ mã phổ biến," Manifold cảnh báo.

Kết luận của Manifold là các hàng rào bảo vệ không thể chỉ sống trong mô hình AI. Nếu không có gì khác kiểm tra ai đã làm gì, mã độc không chỉ được gợi ý mà còn được đẩy thẳng vào hệ thống.

Giả mạo danh tính Git dễ dàng lừa Claude phê duyệt mã độc

Bài viết liên quan