Source: ‘It will change everything': DeepMind's AI makes gigantic leap in solving protein structures
Updated: Dec 07, 2020

Các nhà khoa học cho biết chương trình học sâu của Google để xác định hình dạng 3D của protein hy vọng sẽ có một bước tiến lớn với sinh học.
Mạng trí tuệ nhân tạo (AI) được phát triển bởi Google AI DeepMind đã tạo ra một bước nhảy vọt trong việc giải quyết một trong những thách thức lớn nhất của sinh học - xác định hình dạng 3D của protein từ chuỗi axit amin của nó. Chương trình của DeepMind, được gọi là AlphaFold, đã vượt qua khoảng 100 đội khác trong thử thách dự đoán cấu trúc protein hai năm một lần có tên là CASP, viết tắt của Critical Assessment of Structure Prediction. Các kết quả được công bố vào ngày 30 tháng 11, ngày đầu tiên trong hội nghị - được tổ chức online trong năm nay. John Moult, một nhà sinh học tính toán tại Đại học Maryland ở College Park, người đồng sáng lập CASP vào năm 1994 , cho biết: "Đây là một bước tiến lớn để cải thiện các phương pháp tính toán nhằm dự đoán chính xác cấu trúc protein".

Các thuật toán của AI giải quyết các cấu trúc nhanh hơn bao giờ hết. Khả năng dự đoán chính xác cấu trúc protein từ chuỗi axit amin của chúng sẽ là một lợi ích to lớn đối với khoa học đời sống và y học. Nó sẽ thúc đẩy đáng kể nỗ lực tìm hiểu các khối cấu tạo của tế bào và cho phép phát hiện ra thuốc nhanh hơn và tiên tiến hơn.

AlphaFold đã đứng đầu bảng tại CASP vừa qua - vào năm 2018, năm đầu tiên DeepMind có trụ sở tại London tham gia. Tuy nhiên, năm nay, mạng lưới học sâu này vượt trội hơn hẳn các nhóm khác và các nhà khoa học nói rằng họ đã hoạt động tốt đến mức có thể báo trước một cuộc cách mạng trong sinh học. Andrei Lupas, một nhà sinh học tiến hóa tại Viện Sinh học Phát triển Max Planck ở Tübingen, Đức, người đã đánh giá hiệu suất của các đội khác nhau trong CASP cho biết: "Đây là một người thay đổi cuộc chơi". AlphaFold đã giúp ông tìm ra cấu trúc của một loại protein mà ông đã tìm hiểu trong một thập kỉ trong phòng thí nghiệm và ông hy vọng nó sẽ thay đổi cách ông làm việc và những câu hỏi mà anh ta giải quyết. "Điều này sẽ thay đổi y học. Nó sẽ thay đổi nghiên cứu. Nó sẽ thay đổi kỹ thuật sinh học. Nó sẽ thay đổi mọi thứ", Lupas nói thêm.

Trong một số trường hợp, dự đoán cấu trúc của AlphaFold không thể phân biệt được với những dự đoán được xác định bằng phương pháp thực nghiệm 'tiêu chuẩn vàng' như sắc ký tia X và trong những năm gần đây, kính hiển vi điện tử lạnh (cryo-EM). Các nhà khoa học cho biết AlphaFold có thể chưa xóa bỏ được nhu cầu về những phương pháp tốn kém này, nhưng AI sẽ giúp chúng ta có thể nghiên cứu các sinh vật sống theo những cách mới.

Vấn đề cấu trúc

Protein là nền tảng của sự sống, chịu trách nhiệm cho hầu hết những gì xảy ra bên trong tế bào. Cách thức hoạt động của protein và chức năng của nó được xác định bởi hình dạng 3D của nó - ‘cấu trúc là chức năng’ là một tiên đề của sinh học phân tử. Protein có xu hướng tự hình thành hình dạng của chúng mà không cần sự trợ giúp, chỉ được hướng dẫn bởi các định luật vật lý. Trong nhiều thập kỷ, các thí nghiệm trong phòng thí nghiệm là cách làm chính để có được cấu trúc protein tốt. Các cấu trúc hoàn chỉnh đầu tiên của protein đã được xác định, bắt đầu từ những năm 1950, bằng việc sử dụng một kỹ thuật mà trong đó các chùm tia X được bắn vào các protein đã kết tinh và ánh sáng nhiễu xạ được dịch thành tọa độ nguyên tử của protein. Kỹ thuật sắc kí tia X đã có những đóng góp lớn nhất trong nghiên cứu về cấu trúc protein. Tuy nhiên, trong thập kỷ qua, cryo-EM đã trở thành công cụ được ưa chuộng của nhiều phòng thí nghiệm cấu trúc-sinh học.

Từ lâu, các nhà khoa học đã tự hỏi làm thế nào các bộ phận cấu thành của protein - một chuỗi các axit amin khác nhau - vạch ra nhiều đường xoắn và nếp gấp để tạo ra hình dạng cuối cùng của nó. Các nhà nghiên cứu cho biết những nỗ lực ban đầu sử dụng máy tính để dự đoán cấu trúc protein vào những năm 1980 và 1990 đã hoạt động kém hiệu quả. Những tuyên bố cao cả về các phương pháp trong các bài báo đã xuất bản có xu hướng thất bại khi các nhà khoa học khác áp dụng chúng vào các protein khác. Moult đã thành lập ra CASP để mong muốn mang lại sự chặt chẽ hơn cho những nỗ lực này. Sự kiện này thách thức các đội dự thi dự đoán cấu trúc của các protein đã được giải quyết bằng các phương pháp thử nghiệm, nhưng cấu trúc chưa được công khai.

Hiệu suất của DeepMind’s 2018 tại CASP13 đã khiến nhiều nhà khoa học trong lĩnh vực này, vốn từ lâu đã trở thành pháo đài của các nhóm học thuật nhỏ phải giật mình. Jinbo Xu, một nhà sinh vật học tính toán tại Đại học Chicago, Illinois, cho biết cách tiếp cận của nó gần giống với cách tiếp cận của các nhóm khác đang áp dụng AI.

Lần lặp đầu tiên của AlphaFold đã áp dụng phương pháp AI được gọi là học sâu vào dữ liệu cấu trúc và di truyền để dự đoán khoảng cách giữa các cặp axit amin trong một protein. Trong bước thứ hai không sử dụng AI, AlphaFold sử dụng thông tin này để đưa ra mô hình ‘đồng thuận’ về loại protein sẽ trông như thế nào, John Jumper tại DeepMind, người đứng đầu dự án cho biết.

Nhóm nghiên cứu đã cố gắng xây dựng trên cách tiếp cận đó nhưng cuối cùng đã gặp phải những trở ngại. Vì vậy, họ đã thay đổi cách giải quyết, Jumper nói và phát triển một mạng lưới AI kết hợp thông tin bổ sung về các ràng buộc vật lý và hình học xác định cách thức một protein gấp lại. Họ cũng đặt ra một nhiệm vụ khó hơn: thay vì dự đoán mối quan hệ giữa các axit amin, mạng lưới này sẽ dự đoán cấu trúc cuối cùng của chuỗi protein mục tiêu. Jumper nói: “Đây là một hệ thống phức tạp hơn một chút".

Độ chính xác đáng kinh ngạc

CASP diễn ra trong vài tháng. Các protein mục tiêu hoặc các phần của protein được gọi là miền - tổng cộng khoảng 100 - được tạo ra thường xuyên. Các nhóm có vài tuần để gửi dự đoán cấu trúc của họ. Sau đó, một nhóm các nhà khoa học độc lập sẽ đánh giá các dự đoán bằng cách sử dụng các số liệu đánh giá mức độ tương tự của một loại protein được dự đoán với cấu trúc được xác định bằng thực nghiệm. Người đánh giá không biết ai đang đưa ra dự đoán. Các dự đoán của AlphaFold được đặt dưới tên "nhóm 427", nhưng độ chính xác đáng kinh ngạc của nhiều đầu mục công việc đã khiến chúng trở nên nổi bật, Lupas nói. "Tôi đã đoán đó là AlphaFold. Hầu hết mọi người cũng có dự đoán đó, "ông nói. Một số dự đoán tốt hơn những dự đoán khác, nhưng gần hai phần ba có chất lượng tương đương với cấu trúc thí nghiệm. Moult nói, trong một số trường hợp, không rõ liệu sự khác biệt giữa dự đoán của AlphaFold và kết quả thử nghiệm là lỗi dự đoán hay là sai số hệ thống của thử nghiệm. Đối với các mục tiêu protein được coi là có độ khó vừa phải, performance tốt nhất của các đội khác thường đạt 75 điểm trên thang điểm 100 về độ chính xác dự đoán, trong khi AlphaFold ghi được khoảng 90 với các mục tiêu tương tự, Moult nói. Moult nói rằng khoảng một nửa số đội đã đề cập đến ‘học sâu’ trong bản tóm tắt cách tiếp cận của họ, cho thấy rằng AI đang tạo ra tác động rộng rãi trên lĩnh vực này. Hầu hết trong số này là từ các nhóm học thuật, nhưng Microsoft và công ty công nghệ Trung Quốc Tencent cũng tham gia CASP14.

Cấu trúc nhanh hơn

Dự đoán của AlphaFold đã giúp xác định cấu trúc của một loại protein vi khuẩn mà phòng thí nghiệm của Lupas đã cố gắng xác định trong nhiều năm. Nhóm của Lupas trước đây đã thu thập dữ liệu nhiễu xạ tia X thô, nhưng việc chuyển đổi các mẫu giống Rorschach này thành một cấu trúc cần yêu cầu một số thông tin về hình dạng của protein. Các thủ thuật để lấy thông tin này, cũng như các công cụ dự đoán khác đã thất bại. “Mô hình từ nhóm 427 đã cung cấp cho chúng tôi cấu trúc của chúng trong nửa giờ, trong khi chúng tôi đã dành một thập kỷ để thử mọi thứ,” Lupas nói.

Demis Hassabis, đồng sáng lập và giám đốc điều hành của DeepMind, nói rằng công ty có kế hoạch làm cho AlphaFold trở nên hữu ích để các nhà khoa học khác có thể sử dụng nó. (Trước đây nó đã công bố đủ thông tin chi tiết về phiên bản đầu tiên của AlphaFold để các nhà khoa học khác nhân rộng cách tiếp cận.) Có thể mất vài ngày AlphaFold để đưa ra một cấu trúc dự đoán, bao gồm các ước tính về độ tin cậy của các vùng khác nhau của protein. “Chúng tôi chỉ mới bắt đầu hiểu các nhà sinh học muốn gì”, Hassabis cho biết thêm, người coi việc khám phá thuốc và thiết kế protein là những ứng dụng tiềm năng.

Vào đầu năm 2020, công ty đã đưa ra dự đoán về cấu trúc của một số ít protein SARS-CoV-2 chưa được xác định bằng thực nghiệm. Stephen Brohawn, nhà sinh học thần kinh phân tử tại Đại học California, Berkeley, người đã phát hành cấu trúc này vào tháng 6, cho biết những dự đoán của DeepMind về một protein có tên Orf3a rất giống với một protein được xác định sau đó thông qua cryo-EM. “Những gì họ đã làm được là rất ấn tượng,” ông nói thêm.