Công cụ mới của startup Goodfire giúp "gỡ lỗi" và chỉnh sửa hành vi của các mô hình LLM

Startup Goodfire vừa ra mắt Silico, một công cụ cho phép các kỹ sư nhìn sâu vào bên trong các mô hình AI và điều chỉnh tham số trong quá trình huấn luyện. Công cụ này nhằm mục đích biến việc xây dựng AI từ một nghệ thuật bí ẩn thành một kỹ thuật chính xác, giúp kiểm soát các hành vi không mong muốn của mô hình.

Startup Goodfire có trụ sở tại San Francisco vừa tung ra một công cụ mới mang tên Silico. Công cụ này cho phép các nhà nghiên cứu và kỹ sư nhìn "thấu" bên trong một mô hình AI và điều chỉnh các tham số—các cài đặt quyết định hành vi của mô hình—trong quá trình huấn luyện. Điều này có thể mang lại cho các nhà tạo lập mô hình sự kiểm soát chi tiết hơn nhiều so với những gì từng được nghĩ là khả thi.

Goodfire khẳng định Silico là công cụ dạng "sẵn dùng" (off-the-shelf) đầu tiên thuộc loại này, có thể giúp các nhà phát triển gỡ lỗi ở tất cả các giai đoạn của quá trình phát triển, từ việc xây dựng bộ dữ liệu đến huấn luyện mô hình. Công ty cho rằng sứ mệnh của họ là biến việc xây dựng các mô hình AI bớt giống như "thuật giả kim" và trở nên giống như một khoa học thực thụ.

Mặc dù các mô hình ngôn ngữ lớn (LLM) như ChatGPT và Gemini có thể làm được những điều tuyệt vời, nhưng thực tế không ai biết chính xác cách thức hay lý do tại sao chúng hoạt động. Điều này khiến việc khắc phục các khiếm khuyết hoặc chặn các hành vi không mong muốn trở nên khó khăn.

"Chúng tôi nhận thấy khoảng cách ngày càng rộng giữa mức độ hiểu biết về các mô hình và mức độ chúng được triển khai rộng rãi như thế nào," Eric Ho, CEO của Goodfire, chia sẻ với MIT Technology Review trong một cuộc trò chuyện độc quyền trước khi ra mắt Silico. "Tôi nghĩ cảm giác chủ đạo ở mọi phòng thí nghiệm tiên phong hàng đầu hiện nay là bạn chỉ cần nhiều quy mô hơn, nhiều sức mạnh tính toán hơn, nhiều dữ liệu hơn, và sau đó bạn sẽ đạt được AGI (trí tuệ nhân tạo tổng quát) và không còn gì quan trọng khác nữa. Và chúng tôi nói rằng không, có một cách tốt hơn."

Goodfire là một trong số ít các công ty, bao gồm cả những người dẫn đầu ngành như Anthropic, OpenAI và Google DeepMind, đang tiên phong một kỹ thuật được gọi là giải thích cơ chế (mechanistic interpretability). Kỹ thuật này nhằm mục đích hiểu những gì diễn ra bên trong một mô hình AI khi nó thực hiện một nhiệm vụ bằng cách ánh xạ các nơ-ron và các đường dẫn giữa chúng.

Goodfire muốn sử dụng phương pháp tiếp cận này không chỉ để kiểm toán các mô hình—tức là nghiên cứu những mô hình đã được huấn luyện—mà còn để giúp thiết kế chúng ngay từ đầu.

"Chúng tôi muốn loại bỏ sự thử và sai và biến việc huấn luyện các mô hình thành kỹ thuật chính xác," ông Ho nói. "Và điều đó có nghĩa là phơi bày các nút vặn và nút bấm để bạn thực sự có thể sử dụng chúng trong quá trình huấn luyện."

Goodfire đã sử dụng các kỹ thuật và công cụ của mình để tinh chỉnh hành vi của các LLM—ví dụ, giảm số lượng ảo giác mà chúng tạo ra. Với Silico, công ty hiện đang đóng gói nhiều kỹ thuật nội bộ đó và cung cấp chúng dưới dạng một sản phẩm. Công cụ sử dụng các tác nhân (agents) để tự động hóa phần lớn công việc phức tạp.

Leonard Bereska, một nhà nghiên cứu tại Đại học Amsterdam, người đã làm việc về giải thích cơ chế, cho rằng Silico trông giống như một công cụ hữu ích. Tuy nhiên, ông phản bác lại những tham vọng cao cả của Goodfire.

"Trong thực tế, họ đang thêm độ chính xác vào thuật giả kim," ông nói. "Gọi nó là kỹ thuật khiến nó nghe có nguyên tắc hơn mức thực tế."

Ánh xạ các mô hình

Silico cho phép bạn phóng to vào các phần cụ thể của một mô hình đã được huấn luyện, chẳng hạn như các nơ-ron riêng lẻ hoặc nhóm nơ-ron, và chạy các thử nghiệm để xem những nơ-ron đó làm gì. (Giả sử bạn có quyền truy cập vào hoạt động bên trong của mô hình. Hầu hết mọi người sẽ không thể sử dụng Silico để khám phá bên trong ChatGPT hoặc Gemini, nhưng bạn có thể sử dụng nó để xem các tham số bên trong nhiều mô hình mã nguồn mở).

Sau đó, bạn có thể kiểm tra xem các đầu vào nào làm cho các nơ-ron khác nhau kích hoạt, và truy tìm các đường dẫn ngược dòng và xuôi dòng của một nơ-ron để xem các nơ-ron khác ảnh hưởng đến nó như thế nào và nó ảnh hưởng đến các nơ-ron khác ra sao.

Ví dụ, Goodfire đã tìm thấy một nơ-ron bên trong mô hình mã nguồn mở Qwen 3 có liên quan đến cái gọi là "vấn đề xe điện" (trolley problem). Kích hoạt nơ-ron này đã thay đổi câu trả lời của mô hình, khiến nó định dạng các đầu ra của mình như những tình huống đạo đức rõ ràng.

"Khi nơ-ron này hoạt động, mọi thứ kỳ lạ đều xảy ra," ông Ho nói.

Việc xác định nguồn gốc của các hành vi kỳ lạ như hiện nay là một thực hành khá tiêu chuẩn. Nhưng Goodfire muốn giúp việc điều chỉnh hành vi đó trở nên dễ dàng hơn. Sử dụng Silico, các nhà phát triển hiện có thể điều chỉnh các tham số được kết nối với các nơ-ron riêng lẻ để tăng cường hoặc ngăn chặn các hành vi nhất định.

Trong một ví dụ khác, các nhà nghiên cứu của Goodfire đã hỏi một mô hình xem một công ty có nên tiết lộ rằng AI của họ hoạt động lừa dối trong 0,3% trường hợp, ảnh hưởng đến 200 triệu người dùng hay không. Mô hình nói không, trích dẫn tác động kinh doanh tiêu cực của việc tiết lộ như vậy.

Bằng cách nhìn sâu vào bên trong mô hình, các nhà nghiên cứu nhận thấy rằng việc tăng cường các nơ-ron được tìm thấy có liên quan đến sự minh bạch và tiết lộ đã đảo ngược câu trả lời từ không thành có trong chín trên mười lần.

"Mô hình đã có mạch lý luận đạo đức, nhưng nó bị lấn át bởi đánh giá rủi ro thương mại," ông Ho nói.

Việc tinh chỉnh các giá trị của một mô hình theo cách này chỉ là một phương pháp tiếp cận. Silico cũng có thể giúp định hướng quá trình huấn luyện bằng cách lọc ra một số dữ liệu huấn luyện nhất định để tránh đặt các giá trị không mong muốn cho một số tham số ngay từ đầu.

Ví dụ, nhiều mô hình sẽ nói với bạn rằng 9.11 lớn hơn 9.9. Nhìn vào bên trong một mô hình để xem điều gì đang diễn ra có thể tiết lộ rằng nó đang bị ảnh hưởng bởi các nơ-ron liên quan đến Kinh Thánh, trong đó câu 9.9 đến trước câu 9.11, hoặc bởi các kho lưu trữ mã nơi các bản cập nhật liên tiếp được đánh số 9.9, 9.10, 9.11, v.v. Sử dụng thông tin này, mô hình có thể được huấn luyện lại để khiến nó tránh các "nơ-ron Kinh Thánh" của mình khi thực hiện phép tính.

Bằng cách phát hành Silico, Goodfire muốn đưa các kỹ thuật trước đây chỉ có sẵn cho một vài phòng thí nghiệm hàng đầu vào tay các công ty nhỏ hơn và các nhóm nghiên cứu muốn xây dựng mô hình của riêng mình hoặc điều chỉnh một mô hình mã nguồn mở. Công cụ này sẽ có sẵn với mức phí được xác định tùy theo yêu cầu của khách hàng.

"Nếu chúng ta có thể khiến việc huấn luyện các mô hình trở nên giống như xây dựng phần mềm, thì không có lý do gì mà không thể có nhiều công ty hơn nữa thiết kế các mô hình phù hợp với nhu cầu của họ," ông Ho nói.

Bereska đồng ý rằng các công cụ như Silico có thể giúp các công ty xây dựng các mô hình đáng tin cậy hơn. Các kỹ thuật này có thể rất cần thiết cho các ứng dụng an toàn quan trọng trong chăm sóc sức khỏe và tài chính.

"Các phòng thí nghiệm tiên phong đã có các nhóm giải thích nội bộ," ông thêm. "Silico trang bị cho tầng lớp công ty tiếp theo, nơi giá trị nằm ở việc không cần phải thuê các nhà nghiên cứu về giải thích."

Công cụ mới của startup Goodfire giúp "gỡ lỗi" và chỉnh sửa hành vi của các mô hình LLM

Ánh xạ các mô hình

Bài viết liên quan