Rủi ro doanh nghiệp không ai dự đoán: AI đang thay thế chính những chuyên gia mà nó cần học hỏi

Các hệ thống AI cần sự đánh giá của chuyên gia con người để hoàn thiện, nhưng chính những công việc hình thành nên chuyên gia này đang bị tự động hóa. Việc sa thải nhân sự cấp nhập môn và phụ thuộc vào các tiêu chí máy móc có thể dẫn đến sự suy giảm tri thức sâu sắc mà không ai nhận ra cho đến khi quá muộn.

Để các hệ thống AI tiếp tục cải thiện trong công việc tri thức, chúng cần một trong hai yếu tố: một cơ chế tự cải thiện tự chủ đáng tin cậy, hoặc những người đánh giá là con người có khả năng bắt lỗi và tạo ra phản hồi chất lượng cao. Ngành công nghiệp công nghệ đã đầu tư khổng lồ vào yếu tố đầu tiên, nhưng lại gần như không dành bất kỳ suy nghĩ nào cho yếu tố thứ hai.

Tôi lập luận rằng chúng ta cần đối xử với vấn đề đánh giá của con người với sự nghiêm ngặt và đầu tư tương tự như những gì chúng ta bỏ ra để xây dựng khả năng của các mô hình. Việc tuyển dụng nhân sự mới tốt nghiệp tại các công ty công nghệ lớn đã giảm một nửa kể từ năm 2019. Xem xét tài liệu, nghiên cứu bước đầu, làm sạch dữ liệu, xem xét mã nguồn: các mô hình hiện nay xử lý tất cả những việc này. Các nhà kinh tế theo dõi vấn đề này gọi đó là sự thay thế. Các công ty đang làm điều này gọi đó là hiệu quả. Nhưng không bên nào thực sự tập trung vào vấn đề trong tương lai.

Tại sao tự cải thiện có giới hạn trong công việc tri thức

Sự phản đối phổ biến nhất là Học tăng cường (Reinforcement Learning - RL). AlphaZero đã học chơi cờ vây, cờ vua và Shogi ở cấp độ siêu nhân mà không cần dữ liệu con người và tạo ra các chiến lược mới trong quá trình đó. Nước đi 37 trong trận đấu năm 2016 chống lại Lee Sedol — một nước đi mà các chuyên gia nói rằng họ sẽ không bao giờ chơi — không đến từ chú thích của con người. Nó xuất hiện từ việc AI tự chơi với chính mình.

Điều làm cho điều này khả thi là sự ổn định của môi trường. Nước đi 37 là một nước đi mới trong không gian trạng thái cố định của cờ vây. Các luật lệ là hoàn chỉnh, rõ ràng và vĩnh viễn. Quan trọng hơn, tín hiệu phần thưởng là hoàn hảo: Thắng hoặc thua, và ngay lập tức, không có chỗ cho sự diễn giải. Hệ thống luôn biết liệu một nước đi có tốt hay không vì trò chơi cuối cùng sẽ kết thúc với một kết quả rõ ràng.

Công việc tri thức không có bất kỳ thuộc tính nào trong số này. Các quy tắc trong bất kỳ lĩnh vực chuyên nghiệp nào đều năng động và liên tục được viết lại bởi những con người đang hoạt động trong đó. Luật mới được thông qua. Các công cụ tài chính mới được phát minh. Một chiến lược pháp lý hiệu quả vào năm 2022 có thể thất bại trong một thẩm quyền jurisdiction đã thay đổi cách giải thích kể từ đó. Việc một chẩn đoán y tế có đúng hay không có thể phải mất nhiều năm mới biết được. Nếu không có môi trường ổn định và tín hiệu phần thưởng rõ ràng, bạn không thể đóng vòng lặp lại. Bạn cần con người trong chuỗi đánh giá để tiếp tục dạy mô hình.

Vấn đề hình thành nhân tài

Các hệ thống AI đang được xây dựng ngày nay được đào tạo trên chuyên môn của những người đã trải qua chính quá trình hình thành đó. Sự khác biệt bây giờ là các công việc cấp nhập môn giúp phát triển chuyên môn đó lại là những thứ đầu tiên bị tự động hóa. Điều này có nghĩa là thế hệ tiếp theo của các chuyên gia tiềm năng đang không tích lũy được loại phán xét (judgment) khiến một người đánh giá con người trở nên đáng giá để có trong vòng lặp.

Lịch sử có những ví dụ về sự triệt tiêu của kiến thức. Bê tông La Mã. Kỹ thuật xây dựng Gothic. Các truyền thống toán học mất hàng thế kỷ để phục hồi. Nhưng trong mọi trường hợp lịch sử, nguyên nhân là từ bên ngoài: Dịch bệnh, chinh phạt, sự sụp đổ của các tổ chức lưu giữ kiến thức. Điều khác biệt ở đây là không cần bất kỳ lực lượng bên ngoài nào. Các lĩnh vực có thể teo tóp không phải vì thảm họa, mà vì hàng ngàn quyết định kinh tế hợp lý riêng lẻ, mỗi quyết định đều hợp lý khi đứng một mình. Đó là một cơ chế mới, và chúng ta không có nhiều kinh nghiệm trong việc nhận ra nó trong khi nó đang diễn ra.

Khi cả một lĩnh vực trở nên im lặng

Ở giới hạn logic của nó, vấn đề này không chỉ là vấn đề về nguồn cung (pipeline). Đó là sự sụp đổ về nhu cầu đối với chính chuyên môn đó.

Hãy xem xét toán học nâng cao. Nó không teo tóp vì chúng ta ngừng đào tạo các nhà toán học. Nó teo tóp vì các tổ chức ngừng cần các nhà toán học cho công việc hàng ngày của họ, động lực kinh tế để trở thành một nhà toán học biến mất, dân số những người có thể lập luận toán học biên giới thu hẹp lại, và khả năng của lĩnh vực này để tạo ra sự hiểu biết mới âm thầm sụp đổ. Logic tương tự cũng áp dụng cho lập trình. Câu hỏi của chúng ta không phải là "AI có viết mã không" mà là "nếu AI viết tất cả mã sản xuất, ai sẽ phát triển trực giác kiến trúc sâu sắc tạo ra thiết kế hệ thống thực sự mới mẻ?"

Có một sự khác biệt quan trọng giữa việc một lĩnh vực được tự động hóa và việc một lĩnh vực được hiểu rõ. Chúng ta có thể tự động hóa một lượng lớn kỹ thuật kết cấu ngày nay, nhưng kiến thức trừu tượng về lý do tại sao một số cách tiếp cận hiệu quả lại sống trong đầu những người đã dành nhiều năm làm sai nó trước. Nếu bạn loại bỏ thực hành, bạn không chỉ mất những người thực hành. Bạn mất khả năng biết rằng bạn đã mất những gì.

Toán học nâng cao, khoa học máy tính lý thuyết, lập luận pháp lý sâu sắc, kiến trúc hệ thống phức tạp: Khi người cuối cùng hiểu sâu sắc về một lĩnh vực con của đại số nghỉ hưu và không ai thay thế họ vì kinh phí cạn kiệt và con đường sự nghiệp biến mất, kiến thức đó khó có khả năng được phát hiện lại bất cứ lúc nào.

Nó đã biến mất. Và không ai nhận thấy vì các mô hình được đào tạo dựa trên công việc của họ vẫn hoạt động tốt trên các điểm chuẩn trong một thập kỷ nữa. Tôi coi đây là sự rỗng ruột (hollowing out): Khả năng bề mặt vẫn còn (các mô hình vẫn có thể tạo ra đầu ra trông giống chuyên gia) trong khi khả năng con người cơ bản để xác thực, mở rộng hoặc sửa chữa chuyên môn đó âm thầm biến mất.

Tại sao các tiêu chí (Rubrics) không thể thay thế hoàn toàn

Cách tiếp cận hiện tại là đánh giá dựa trên tiêu chí. AI Hiến pháp, Học tăng cường từ phản hồi của AI (RLAIF) và các tiêu chí có cấu trúc cho phép các mô hình chấm điểm các mô hình khác là những kỹ thuật nghiêm túc có ý nghĩa giảm sự phụ thuộc vào người đánh giá con người. Tôi không bác bỏ chúng.

Hạn chế của chúng là: Một tiêu chí chỉ có thể nắm bắt được những gì người viết nó biết cần đo lường. Tối ưu hóa mạnh mẽ chống lại nó và bạn sẽ nhận được một mô hình rất giỏi trong việc thỏa mãn tiêu chí. Điều đó không giống với một mô hình thực sự đúng.

Các tiêu chí mở rộng quy mô cho phần có thể diễn đạt rõ ràng của phán xét. Phần sâu hơn hơn, bản năng, cảm giác nhận thấy rằng có gì đó sai lệch, không vừa khít trong một tiêu chí. Bạn không thể viết nó xuống vì bạn cần trải nghiệm nó trước khi bạn biết phải viết gì.

Điều này có nghĩa gì trong thực tế

Đây không phải là lập luận để làm chậm sự phát triển. Những lợi ích về khả năng là có thật. Và có thể các nhà nghiên cứu sẽ tìm ra cách để đóng vòng lặp đánh giá mà không cần phán xét của con người. Có thể các đường ống dữ liệu tổng hợp trở nên đủ tốt. Có thể các mô hình phát triển các cơ chế tự sửa lỗi đáng tin cậy mà chúng ta chưa thể hình dung.

Nhưng chúng ta chưa có những thứ đó ngày hôm nay. Và trong lúc đó, chúng ta đang tháo dỡ cơ sở hạ tầng con người hiện đang lấp đầy khoảng trống đó, không phải như một quyết định có chủ đích mà như một sản phẩm phụ của hàng ngàn quyết định hợp lý. Phiên bản có trách nhiệm của sự chuyển đổi này không phải là giả định rằng vấn đề sẽ tự giải quyết. Đó là coi khoảng trống đánh giá là một vấn đề nghiên cứu mở với cùng mức độ khẩn cấp mà chúng ta mang lại cho các lợi ích về khả năng.

Điều AI cần nhất từ con người chính là thứ chúng ta ít tập trung vào việc bảo tồn nhất. Cho dù điều đó là đúng vĩnh viễn hay đúng tạm thời, chi phí của việc bỏ qua nó là như nhau.

Ahmad Al-Dahle là Giám đốc Công nghệ (CTO) của Airbnb.