Sự Dư Thừa Phi Lý Trong Cấu Trúc Protein: Bài Học Cho AI Trong Thiết Kế Thuốc
Các mô hình học sâu như AlphaFold3 đã thay đổi cuộc chơi trong việc dự đoán tương tác sinh học. Tuy nhiên, việc mở rộng dữ liệu bằng cách dự đoán cấu trúc từ trình tự protein cho thấy thiên nhiên tái sử dụng các cấu trúc gấp protein nhiều hơn nhiều so với suy nghĩ trước đây. Điều này đặt ra thách thức lớn trong việc huấn luyện các mô hình tạo sinh để thiết kế enzyme và thuốc mới.

Sự Dư Thừa Phi Lý Trong Cấu Trúc Protein: Bài Học Cho AI Trong Thiết Kế Thuốc
Trong vài năm qua, mạng nơ-ron sâu đã tạo ra bước tiến vượt bậc trong mô hình hóa ngôn ngữ tạo sinh, mang đến cho chúng ta các mô hình ngôn ngữ lớn (LLM). Một bước nhảy vọt tương tự cũng đã diễn ra đối với các dạng dữ liệu liên tục như hình ảnh và video. Gần đây, các kỹ thuật này đã được áp dụng thành công rực rỡ cho việc mô hình hóa tạo sinh các sinh phân tử.
Các mô hình như AlphaFold3 của DeepMind đã giúp việc dự đoán tương tác sinh phân tử trở nên dễ dàng hơn nhiều, bao gồm cả các phức hợp thuốc-protein và kháng thể-protein. Không lâu sau đó, mọi người đã tìm ra cách tận dụng các khả năng này để thiết kế các phân tử giống thuốc. Trong tương lai gần, chúng ta có thể thấy phần lớn các kháng thể đưa vào lâm sàng được thiết kế chủ yếu bằng các mô hình tạo sinh dựa trên học sâu, có khả năng sở hữu tính dược lý vượt trội và nhắm vào các thụ thể mà các phương pháp thí nghiệm truyền thống chưa thể tiếp cận.
Công thức mở rộng quy mô cho AI sinh học
Làm thế nào để cải thiện các hệ thống này? Chúng ta chắc chắn muốn có khả năng mô hình hóa sinh phân tử tốt hơn để đưa ra các loại thuốc hiệu quả hơn vào lâm sàng. Công thức để cải thiện một hệ thống học sâu ở mức độ cao lại vô cùng đơn giản: bạn mở rộng quy mô mô hình, mở rộng sức mạnh tính toán và mở rộng dữ liệu. Các LLM rõ ràng đang được cải thiện nhờ việc mở rộng quy mô mạnh mẽ. AlphaFold3 cũng là một nỗ lực lớn để mở rộng quy mô mô hình và dữ liệu; nó được huấn luyện trên một bộ sưu tập rộng lớn các phức hợp sinh phân tử đã biết, từ các cấu trúc thực nghiệm đến các cơ sở dữ liệu trình tự khổng lồ từ gen học và metagenomics như MGnify.
Bước đi then chốt trong công thức mở rộng quy mô của AlphaFold3 là chuyển đổi quy mô trình tự thành quy mô cấu trúc: sử dụng dự đoán cấu trúc để chuyển đổi các cơ sở dữ liệu trình tự protein lớn thành các cấu trúc 3D dự đoán. Genomics và metagenomics đã cung cấp cho chúng ta hàng tỷ trình tự protein, nhiều trong số đó được suy ra từ DNA môi trường thu thập từ các sinh vật chưa từng được nuôi cấy trong phòng thí nghiệm. Tuy nhiên, để huấn luyện các mô hình thiết kế dựa trên cấu trúc, đối tượng hữu ích thường là cấu trúc 3D. Các mô hình dự đoán cấu trúc cho phép chúng ta chuyển đổi một phần quy mô trình tự đó thành dữ liệu cấu trúc: lấy hàng triệu trình tự tự nhiên, dự đoán các nếp gấp (folds) mà chúng tạo thành, và sử dụng các cấu trúc dự đoán đó làm ví dụ huấn luyện cho thế hệ tiếp theo của các mô hình sinh phân tử.
Hiệu quả của việc mở rộng dữ liệu trên việc dự đoán kháng thể-kháng nguyên
Sự đa dạng của trình tự không đồng nghĩa với sự đa dạng của cấu trúc
Tại Ligo, chúng tôi quan tâm đến công thức này vì chúng tôi huấn luyện các mô hình tạo sinh để thiết kế enzyme. Khi cố gắng mở rộng dữ liệu huấn luyện cấu trúc bằng cách gấp thêm nhiều trình tự tự nhiên, chúng tôi gặp phải một vấn đề: trình tự protein tự nhiên rất rộng lớn, nhưng các nếp gấp của chúng lại dư thừa nhiều hơn nhiều so với số lượng trình tự gợi ý. Bài viết này sẽ nói về sự chênh lệch đó và lý do tại sao việc chỉ đơn giản là gấp thêm nhiều trình tự tự nhiên có thể không mang lại nhiều sự đa dạng cấu trúc mới như chúng ta mong đợi.
Không gian trình tự protein lý thuyết là vô cùng lớn: một protein có độ dài N có 20^N trình tự axit amin có thể xảy ra. Protein tự nhiên chỉ chiếm một phần rất nhỏ, có cấu trúc cao của không gian đó. Sự tiến hóa có xu hướng tái sử dụng các nếp gấp ổn định, có thể biểu hiện và thích nghi, thay vì phân tán protein đồng đều trên mọi trình tự và hình dạng có thể.
Ví dụ, trong một cụm cấu trúc từ cơ sở dữ liệu AlphaFold (AFDB), ba protein chỉ có 23,9–28,3% giống nhau về trình tự nhưng vẫn chia sẻ cùng một nếp gấp (điểm TM-score > 0,75). Điều này có nghĩa là khi chúng ta mở rộng tập dữ liệu trình tự, chúng ta không nhất thiết đang thêm các ví dụ độc lập. Chúng ta có thể đang thêm nhiều biến thể trình tự của cùng một họ nếp gấp, các kết hợp miền và các thỏa hiệp tiến hóa.
Vấn đề của việc phân cụm cấu trúc dự đoán
Cấu trúc dự đoán khác với tinh thể. Trình tự và MSA là có thật, nhưng cấu trúc lại thiếu bối cảnh, và AlphaFold sẽ dự đoán toàn bộ chuỗi: các miền có trật tự, đuôi mềm mại, liên kết dài, peptide tín hiệu và các protein đa miền mà sự sắp xếp tương đối của chúng có thể không có ý nghĩa. Điều này làm cho vấn đề phân cụm trở nên khó khăn. Hai protein có được coi là cùng một nếp gấp vì một miền trùng khớp, hay chúng khác nhau vì một cái có phần mở rộng không có trật tự?
Để giải quyết vấn đề này, chúng tôi cần một cách để tách protein dựa trên cách các chất dư kết nối với nhau. Chúng tôi biến protein thành một đồ thị: mỗi chất dư là một nút, và các cạnh kết nối các chất dư gần nhau trong không gian. Sử dụng lý thuyết đồ thị, chúng tôi áp dụng "phân chia phổ" (spectral bisection) để tìm ra kết nối yếu nhất trong đồ thị này—về cơ bản là tìm ra "cổ chai" không gian kết nối hai miền độc lập.
Sau khi chia nhỏ các protein thành các "đơn vị tương tác" nhỏ gọn, chúng tôi sử dụng công cụ Foldseek để phân cụm các mảnh này theo sự tương tự cấu trúc. Tuy nhiên, chúng tôi phát hiện ra một vấn đề: các "singleton" (cụm chỉ có một thành viên) của Foldseek không nhất thiết là các nếp gấp mới. Nó chỉ có nghĩa là không có mảnh nào khác vượt qua ngưỡng trong lần chạy Foldseek cụ thể đó.
So sánh hiệu suất trên các benchmark cofolding
Khi kiểm tra lại bằng điểm TM-align (một thước đo nghiêm ngặt hơn về sự chồng khớp xương sống), chúng tôi phát hiện ra rằng nhiều singleton thực sự thuộc về cùng một cụm cấu trúc. Điều này dẫn đến kết luận quan trọng: sau khi làm sạch dữ liệu, loại bỏ nhiễu và phân cụm, MGnify không phải là hai triệu ví dụ cấu trúc độc lập. Phần lặp lại của tập dữ liệu gần với hai mươi lăm nghìn "cộng đồng cấu trúc", với phần lớn khối lượng tập trung ở một số nhỏ cụm.
Kết luận: Thiên nhiên bảo thủ hơn chúng ta nghĩ
Kết quả gây ngạc nhiên nhất là mức độ dư thừa của không gian nếp gấp tự nhiên khi bạn chọn đúng đơn vị phân cụm. Sau khi xử lý các cấu trúc dự đoán thành các đơn vị huấn luyện và phân cụm chúng ở quy mô lớn, phần lớn khối lượng dữ liệu nằm ở một số nhỏ các khu vực cấu trúc. Protein tự nhiên dường như không khám phá không gian xương sống một cách đồng đều. Chúng dường như tái sử dụng một tập hợp các giải pháp nếp gấp tương đối nhỏ lặp đi lặp lại.
Đối với thiết kế enzyme, điều này để lại hai khả năng. Một là con đường giống tự nhiên: chọn một khung quen thuộc và học cách kỹ thuật hóa vùng lân cận vị trí hoạt động với độ chính xác cao hơn. Nếu đây là chế độ đúng, thì việc chỉ đơn giản thêm nhiều cấu trúc có nguồn gốc từ trình tự tự nhiên có thể không giúp ích nhiều; nó có thể chỉ cung cấp thêm nhiều ví dụ về cùng một họ khung.
Khả năng thứ hai phỏng đoán hơn: Sự tiến hóa bị hạn chế về mặt lịch sử, và không gian nếp gấp tự nhiên có thể được định hình bởi những gì dễ đạt được thông qua nhân bản và phân kỳ. Nếu các mô hình thiết kế trở đủ tốt, có thể có không gian xương sống hữu ích mà thiên nhiên chưa bao giờ khám phá. Tuy nhiên, điều này đặt ra một câu hỏi khó hơn: liệu các mô hình được huấn luyện chủ yếu trên các nếp gấp tự nhiên có thể học cách khám phá ra ngoài đa tạp nếp gấp tự nhiên, hay chúng sẽ kế thừa cùng sự dư thừa mà chúng ta đang đo lường ở đây?
Chúng ta sẽ tìm ra câu trả lời trong phòng thí nghiệm khi cố gắng thiết kế enzyme, xem xét các thiết kế nào thực sự biểu hiện, gấp lại và xúc tác. Hy vọng rằng sự hiểu biết sâu sắc về sự dư thừa này sẽ giúp tối ưu hóa cách chúng ta huấn luyện AI cho sinh học trong tương lai.



