Meta triển khai các tác nhân AI thống nhất để tự động hóa tối ưu hóa hiệu suất ở quy mô siêu lớn

Meta vừa công bố nền tảng hiệu suất năng lực mới sử dụng các tác nhân AI để tự động phát hiện và giải quyết vấn đề hiệu suất trên toàn cầu. Đây là bước tiến lớn hướng tới hệ thống tự tối ưu hóa, giúp giảm chi phí vận hành và giải phóng kỹ sư khỏi tác vụ thủ công.

Meta đã công bố một nền tảng hiệu suất năng lực mới sử dụng các tác nhân AI thống nhất để tự động phát hiện và giải quyết các vấn đề hiệu suất trên toàn bộ cơ sở hạ tầng toàn cầu. Chi tiết trong một bài viết kỹ thuật gần đây, hệ thống này là một phần của Chương trình Hiệu suất Năng lực (Capacity Efficiency Program) rộng lớn hơn của Meta. Nó được thiết kế để giảm chi phí vận hành, cải thiện việc sử dụng tài nguyên và giải phóng các kỹ sư khỏi các tác vụ tinh chỉnh hiệu suất thủ công.

Nền tảng này kết hợp các tác nhân dựa trên Mô hình Ngôn ngữ Lớn (LLM) với các công cụ có cấu trúc và kiến thức kỹ thuật được mã hóa để liên tục phân tích hiệu suất cơ sở hạ tầng, xác định các điểm không hiệu quả và áp dụng các tối ưu hóa. Bằng cách tích hợp các giao diện chuẩn hóa — được gọi là các công cụ — với các "kỹ năng" có thể tái sử dụng có nguồn gốc từ kiến thức chuyên gia, Meta cho phép các tác nhân này tự chẩn đoán và khắc phục sự cố, hiệu quả hóa việc mở rộng chuyên môn của các kỹ sư cấp cao trên toàn bộ phạm vi cơ sở hạ tầng.

Thách thức ở quy mô siêu lớn

Ở quy mô siêu lớn (hyperscale), ngay cả những sự không hiệu quả nhỏ cũng có thể dẫn đến chi phí khổng lồ về tính toán, điện năng và độ trễ. Cách tiếp cận của Meta giải quyết thách thức này bằng cách cho phép các tác nhân AI hoạt động trên nhiều lớp của hệ thống, từ mã nguồn và cấu hình đến các chỉ số hiệu suất cấp hệ thống. Các tác nhân có thể truy vấn dữ liệu phân tích (profiling), kiểm tra cấu hình và đề xuất hoặc thực hiện các tối ưu hóa, giảm nhu cầu can thiệp thủ công trong các tác vụ kỹ thuật hiệu suất thường lệ.

Điều này đại diện cho sự chuyển dịch từ quản lý hiệu suất phản ứng truyền thống sang tối ưu hóa tự động liên tục, nơi các hệ thống được tinh chỉnh theo thời gian thực. Bằng cách nhúng kiến thức chuyên môn vào các khả năng tác nhân có thể tái sử dụng, Meta nhằm đảm bảo rằng các phương pháp tốt nhất được áp dụng nhất quán, ngay cả khi hệ thống phát triển về độ phức tạp và quy mô.

Mã hóa kiến thức tổ chức

Một đổi mới chính trong hệ thống là khả năng thu thập và vận hành hóa kiến thức tổ chức. Thay vì chỉ dựa vào các kỹ sư con người để chẩn đoán và khắc phục sự cố, Meta mã hóa lý luận chuyên gia thành các "kỹ năng" của tác nhân có thể được tái sử dụng và mở rộng quy mô trên toàn tổ chức. Điều này cho phép nền tảng không chỉ xác định vấn đề mà còn áp dụng các giải pháp có nhận thức về bối cảnh, hiệu quả hóa việc dân chủ hóa quyền truy cập vào chuyên môn kỹ thuật sâu sắc.

Kết quả là cải thiện hiệu quả trên nhiều khía cạnh, bao gồm giảm lãng phí tài nguyên, giảm mức tiêu thụ điện năng và giải quyết nhanh hơn các nút thắt hiệu suất. Nó cũng cho phép các kỹ sư tập trung vào các công việc có giá trị cao hơn, chẳng hạn như thiết kế các hệ thống và tính năng mới, thay vì khắc phục sự cố lặp đi lặp lại.

Xu hướng tự động hóa dựa trên tác nhân

Sáng kiến của Meta phản ánh một xu hướng rộng hơn trong ngành công nghệ hướng tới tự động hóa dựa trên tác nhân, nơi các hệ thống AI chủ động quản lý và tối ưu hóa cơ sở hạ tầng thay vì chỉ cung cấp thông tin chi tiết. Khi khối lượng công việc AI tiếp tục tăng trưởng về quy mô và độ phức tạp, các phương pháp tiếp cận truyền thống đối với quản lý hiệu suất đang trở nên không đủ, thúc đẩy nhu cầu về các hệ thống tự chủ và thông minh hơn.

Các dự báo của ngành cho thấy các tác nhân AI sẽ trở thành thành phần tiêu chuẩn của các hệ thống doanh nghiệp, tự động hóa các tác vụ thường lệ và cho phép vận hành hiệu quả hơn ở quy mô. Việc triển khai của Meta chứng minh cách khái niệm này có thể được áp dụng vào quản lý cơ sở hạ tầng, biến AI từ một công cụ phân tích thành một người tham gia tích cực trong việc tối ưu hóa hệ thống.

Sự phát triển này cũng làm nổi bật tầm quan trọng ngày càng tăng của hiệu quả trong cơ sở hạ tầng AI, khi các tổ chức đầu tư mạnh vào năng lực tính toán để hỗ trợ các mô hình và dịch vụ quy mô lớn. Với chi phí cơ sở hạ tầng tăng nhanh, việc tối ưu hóa việc sử dụng tài nguyên đã trở thành ưu tiên chiến lược, không chỉ là mối quan tâm kỹ thuật.

Bối cảnh cạnh tranh

Các nhà cung cấp đám mây như Amazon Web Services và Microsoft, cùng với các nền tảng mới hơn như Cast AI, đang tập trung vào tối ưu hóa tài nguyên tự chủ và hiệu quả chi phí. Các nền tảng này sử dụng AI để liên tục điều chỉnh kích thước tài nguyên (right-size), mở rộng quy mô khối lượng công việc và tối ưu hóa vị trí đặt trên các khu vực và loại phiên bản, đặc biệt là cho các môi trường Kubernetes và sử dụng nhiều GPU. Song song đó, một thế hệ nhà cung cấp cơ sở hạ tầng AI mới đang nổi lên với trọng tâm là hiệu suất suy luận (inference) và mở rộng quy mô nhận thức về năng lượng.

Google cũng đang đầu tư mạnh vào cơ sở hạ tầng và điều phối được tối ưu hóa cho AI, kết hợp phần cứng tùy chỉnh như TPU với các hệ thống phần mềm như JAX và Pathways để cân bằng khối lượng công việc động trên các cụm máy khổng lồ. Các thông báo gần đây nhấn mạnh sự thúc đẩy hướng tới các "siêu máy tính AI" (AI hypercomputers), nơi tối ưu hóa hiệu suất đạt được thông qua sự đồng thiết kế phần cứng-phần mềm chặt chẽ, mạnging độ trễ thấp và phân phối khối lượng công việc theo thời gian thực.

Trên tất cả các cách tiếp cận này, một mô hình rõ ràng đang hình thành: dù thông qua các tác nhân, silicon tùy chỉnh hay các lớp điều phối thông minh, ngành công nghiệp đang chuyển hướng tới cơ sở hạ tầng tự tối ưu hóa hoàn toàn, nơi hiệu suất, chi phí và hiệu quả được cân bằng liên tục theo thời gian thực thay vì được tinh chỉnh thủ công.

Meta triển khai các tác nhân AI thống nhất để tự động hóa tối ưu hóa hiệu suất ở quy mô siêu lớn

Thách thức ở quy mô siêu lớn

Mã hóa kiến thức tổ chức

Xu hướng tự động hóa dựa trên tác nhân

Bối cảnh cạnh tranh

Bài viết liên quan