Tương lai của mọi thứ là sự dối trá? Những nghề nghiệp mới trong kỷ nguyên AI

Bài viết phân tích sự xuất hiện của các loại hình công việc mới tại giao điểm giữa con người và hệ thống Máy học (ML). Từ các chuyên gia thao tác Prompt, kỹ sư kiểm soát chất lượng cho đến những người chịu trách nhiệm pháp lý, tương lai lao động sẽ đòi hỏi kỹ năng quản lý sự phức tạp và không thể đoán trước của AI.

Khi chúng ta triển khai Machine Learning (ML) rộng rãi hơn, sẽ có những loại hình công việc mới xuất hiện. Tôi tin rằng phần lớn trong đó sẽ diễn ra ở ranh giới giữa hệ thống con người và ML. Các "người niệm thần chú" (Incanters) có thể chuyên về việc đưa ra lệnh (prompt) cho các mô hình. Các kỹ sư quy trình và thống kê có thể kiểm soát lỗi trong các hệ thống xung quanh đầu ra của ML và trong chính các mô hình đó. Một số lượng đáng ngạc nhiên người hiện nay được thuê làm người huấn luyện mô hình, chuyển giao chuyên môn của họ cho các hệ thống tự động. Các "khiên thịt" (meat shields) có thể được yêu cầu chịu trách nhiệm khi hệ thống ML thất bại, và các "giải mã hành vi" (haruspices) có thể giải thích hành vi của mô hình.

Chuyên gia thao tác Prompt (Incanters)

Các Mô hình Ngôn ngữ Lớn (LLM) rất kỳ lạ. Đôi khi bạn có thể đạt được kết quả tốt hơn bằng cách đe dọa chúng, nói với chúng rằng chúng là chuyên gia, lặp lại các lệnh của bạn, hoặc nói dối rằng chúng sẽ nhận được tiền thưởng. Hiệu suất của chúng giảm sút trên các đầu vào dài hơn, và các token (đơn vị dữ liệu) hữu ích trong một nhiệm vụ này có thể làm ô nhiễm nhiệm vụ khác. Do đó, những người dùng LLM giỏi sẽ suy nghĩ rất nhiều về việc giới hạn ngữ cảnh được đưa vào mô hình.

Tôi hình dung sẽ có những người (trong mọi loại công việc!) chuyên biết cách cung cấp cho LLM các đầu vào dẫn đến kết quả tốt. Một số người trong lĩnh vực phần mềm dường như đang đi theo hướng này: trở thành những chuyên gia thao tác LLM nói chuyện với Claude, thay vì là những lập trình viên làm việc trực tiếp với mã nguồn.

Kỹ sư Quy trình (Process Engineers)

Tính chất khó đoán trước của đầu ra LLM đòi hỏi kiểm soát chất lượng. Ví dụ, các luật sư liên tục gặp rắc rối vì họ đệp các sự bịa đặt của AI lên tòa án. Nếu họ muốn tiếp tục sử dụng LLM, các công ty luật sẽ cần một loại kỹ sư quy trình giúp họ bắt lỗi LLM.

Bạn có thể hình dung một quy trình trong đó những người viết một tài liệu tòa án cố tình chèn các lỗi tinh tế (nhưng dễ sửa chữa) và xóa những thứ lẽ ra phải có mặt. Các lỗi được đưa ra này được đăng ký để sử dụng sau này. Sau đó tài liệu được chuyển cho một biên tập viên xem xét kỹ lưỡng mà không biết những lỗi nào đã được đưa vào. Tài liệu chỉ có thể rời khỏi công ty sau khi tất cả các lỗi cố ý (và hy vọng là lỗi vô tình) được bắt hết. Tôi hình dung về phần mềm theo dõi nguồn gốc, tích hợp với LexisNexis và các hệ thống quy trình tài liệu để hỗ trợ quy trình kiểm soát chất lượng này.

Những kỹ sư quy trình này sẽ giúp xây dựng và tinh chỉnh quy trình kiểm soát chất lượng: đào tạo người dùng, xác định nơi cần xem xét thêm, điều chỉnh mức độ hỗ trợ tự động, đo lường xem toàn bộ quy trình có tốt hơn làm việc thủ công hay không, v.v.

Kỹ sư Thống kê (Statistical Engineers)

Một vai trò liên quan chặt chẽ có thể là kỹ sư thống kê: những người cố gắng đo lường, mô hình hóa và kiểm soát tính biến thiên trong các hệ thống ML trực tiếp. Ví dụ, một kỹ sư thống kê có thể nhận ra rằng lựa chọn mà LLM đưa ra khi được trình bày một danh sách các tùy chọn bị ảnh hưởng bởi thứ tự các tùy chọn đó được trình bày, và phát triển các cách để bù đắp.

Tôi nghi ngờ công việc này sẽ trông giống một chút như tâm trắc học — một lĩnh vực trong đó các nhà tâm lý học đã đi rất xa để mô hình hóa thống kê và đo lường hành vi lộn xộn của con người thông qua các gián tiếp.

Vì LLM là các hệ thống hỗn loạn, công việc này sẽ phức tạp và đầy thách thức: các mô hình sẽ không đơn giản là "chính xác 95%". Thay vào đó, một bộ tối ưu hóa ML cho các truy vấn cơ sở dữ liệu có thể hoạt động tốt trên văn bản tiếng Anh, nhưng lại gặp vấn đề nghiêm trọng trên dữ liệu chuỗi thời gian. Một LLM y tế có thể rất chính xác cho các truy vấn bằng tiếng Anh, nhưng hoạt động tệ khi cùng một câu hỏi được đưa ra bằng tiếng Tây Ban Nha. Điều này sẽ đòi hỏi công việc chuyên sâu, cụ thể theo từng lĩnh vực.

Người huấn luyện Mô hình (Model Trainers)

Khi "rác thải thông tin" (slop) tràn ngập Internet, các phòng lab có thể gặp khó khăn trong việc có được kho dữ liệu chất lượng cao để huấn luyện mô hình. Người huấn luyện cũng phải đối phó với các nguồn giả mạo: Almira Osmanovic Thunström đã chứng minh rằng chỉ một vài bài báo giả rõ ràng có thể khiến Gemini, ChatGPT và Copilot thông báo cho người dùng về một căn bệnh tưởng tượng với cái tên ridiculous.

Một giải pháp là sử dụng tương đương thông tin của "thép nền thấp" (low-background steel): các tác phẩm không bị ô nhiễm được sản xuất trước năm 2023 có khả năng chính xác hơn. Một lựa chọn khác là thuê các chuyên gia con người làm người huấn luyện mô hình. OpenAI có thể thuê, ví dụ, các nghiên cứu sinh sau tiến sĩ về Phục hưng Carolingian để dạy cho các mô hình của họ về Alcuin. Các chuyên gia chủ đề này sẽ viết tài liệu cho lần huấn luyện đầu tiên, phát triển điểm chuẩn để đánh giá và kiểm tra phản hồi của mô hình trong quá trình điều chỉnh. LLM cũng có xu hướng mắc các lỗi tinh tế trông có vẻ đúng. Có lẽ việc khắc phục vấn đề đó liên quan đến việc thuê những người rất thông minh để đọc kỹ nhiều đầu ra của LLM và bắt nơi nó mắc lỗi.

Trong một trường hợp khác của "tôi đã viết điều này cách đây vài năm, và bây giờ nó là kiến thức chung", một người bạn đã giới thiệu cho tôi bài viết này về Mercor, Scale AI, v.v., những người thuê số lượng lớn chuyên gia để huấn luyện các mô hình thực hiện các nhiệm vụ bí ẩn — tự đặt mình ra khỏi công việc trong quá trình đó. "Đây là, như một cựu binh trong ngành nói, cuộc thu hoạch tri thức con người lớn nhất từng được thực hiện." Tất nhiên là có phần mềm giám sát, tiền lương giảm, giờ làm việc vô lý và không có công đoàn.

Người chịu trách nhiệm (Meat Shields)

Bạn có thể nghĩ rằng các CEO và thành viên hội đồng quản trị có thể sợ rằng công việc của chính họ có thể bị LLM chiếm đoạt, nhưng điều này dường như không ngăn họ sử dụng "AI" làm cái cớ để sa thải rất nhiều người.

Tôi nghĩ một phần lý do là các vai trò này không chỉ là gửi email và nhìn vào biểu đồ, mà còn là việc treo một cơ thể ấm áp trước miệng của hệ thống pháp lý và dư luận. Bạn có thể phạt một công ty sử dụng LLM, nhưng chỉ có con người mới có thể xin lỗi hoặc ngồi tù. Con người có thể được thúc đẩy bởi hậu quả và cung cấp sự đền bù xã hội theo cách mà LLM không thể.

Tôi đang nghĩ về hậu quả của bản phụ mùa hè lộn xộn của Chicago Sun-Times. Bất kỳ ai đọc nó lẽ ra phải nhận ra đó là vô nghĩa, nhưng CEO của Chicago Public Media Melissa Bell giải thích rằng họ lấy bài viết từ King Features, thuộc sở hữu của Hearst, người lẽ ra phải cung cấp các bài viết không được soạn thảo hoàn toàn bằng mùn cưa và sự dối trá. King Features, lần lượt, nói rằng họ đã thuê ngoài toàn bộ bản phụ 64 trang cho freelancer Marco Buscaglia. Tất nhiên Buscaglia là người gần gũi nhất với LLM và gánh chịu trách nhiệm đáng kể, nhưng cùng lúc đó, những người huấn luyện LLM đã đóng góp vào sự ngớ ngẩn này, cũng như các biên tập viên tại King Features và Sun-Times, và gián tiếp là các quản lý tương ứng của họ. Tên của những người đó là gì, và tại sao họ không xin lỗi như Buscaglia và Bell?

Tôi nghĩ chúng ta sẽ thấy một số người được thuê (dù có thể không công khai) làm người chịu trách nhiệm: những người chịu trách nhiệm cho các hệ thống ML dưới sự giám sát của họ. Trách nhiệm có thể hoàn toàn nội bộ, như khi Meta thuê con người để xem xét các quyết định của hệ thống kiểm duyệt tự động. Nó có thể là bên ngoài, như khi luật sư bị phạt vì đệp lời nói dối của LLM lên tòa án. Nó có thể liên quan đến trách nhiệm được chính thức hóa, như một Chuyên viên Bảo vệ Dữ liệu. Có thể thuận tiện cho một công ty khi có các nhà thầu phụ bên thứ ba, như Buscaglia, người có thể bị "ném xe buýt đè" khi toàn bộ hệ thống cư xử sai lệch. Có lẽ các tài xế có xe chủ yếu tự lái bị tai nạn sẽ bị chịu trách nhiệm theo cách tương tự.

Sau khi viết xong điều này, tôi đột nhiên bị ám ảnh bởi một hình ảnh về một phiên điều trần quốc hội đang phỏng vấn một Mô hình Ngôn ngữ Lớn. "Hoàn toàn đúng, Thượng nghị sĩ. Tôi đã biển thủ 65 triệu đô la đó. Đây là phân tích chi tiết..."

Giải mã hành vi Mô hình (Haruspices)

Khi các mô hình gặp sự cố, chúng ta sẽ muốn biết tại sao. Điều gì khiến máy bay không người lái bỏ qua mục tiêu dự định và kích nổ tại một bệnh viện dã chiến? Tại sao mô hình y tế ít có khả năng chẩn đoán chính xác người da màu? Công ty taxi tự động có nên chịu trách nhiệm bao nhiêu khi một trong số phương tiện của họ đâm vào một đứa trẻ? Tại sao hệ thống kiểm duyệt tự động của công ty truyền thông xã hội lại liên tục gắn cờ ảnh chụp màn hình Donkey Kong là nội dung khiêu dâm?

Các nhiệm vụ này có thể thuộc về một haruspex: người chịu trách nhiệm sàng lọc qua các đầu vào, đầu ra và trạng thái nội bộ của mô hình, cố gắng tổng hợp một tài khoản cho hành vi của nó. Một phần công việc này sẽ là các điều tra sâu vào một trường hợp cụ thể, và các tình huống khác sẽ đòi hỏi phân tích thống kê rộng hơn.

Haruspices có thể được triển khai nội bộ bởi các công ty ML, bởi người dùng của họ, các nhà báo độc lập, tòa án và các cơ quan như NTSB.

Tương lai của mọi thứ là sự dối trá? Những nghề nghiệp mới trong kỷ nguyên AI

Chuyên gia thao tác Prompt (Incanters)

Kỹ sư Quy trình (Process Engineers)

Kỹ sư Thống kê (Statistical Engineers)

Người huấn luyện Mô hình (Model Trainers)

Người chịu trách nhiệm (Meat Shields)

Giải mã hành vi Mô hình (Haruspices)

Bài viết liên quan