Mô hình bộ gen lớn: Trí tuệ nhân tạo mã nguồn mở được huấn luyện trên hàng nghìn tỷ base

Tác giả dangkhoa 13/03/2026 26 phút đọc

Mô hình bộ gen lớn: Trí tuệ nhân tạo mã nguồn mở được huấn luyện trên hàng nghìn tỷ base

Hệ thống có thể xác định gen, trình tự điều hòa, vị trí nối gen, và nhiều hơn nữa.

Cuối năm 2025, chúng tôi đã đưa tin về sự phát triển của một hệ thống trí tuệ nhân tạo có tên Evo , được huấn luyện trên một lượng lớn bộ gen vi khuẩn. Số lượng bộ gen nhiều đến mức, khi được cung cấp các trình tự từ một nhóm gen liên quan, nó có thể xác định chính xác gen tiếp theo hoặc đề xuất một loại protein hoàn toàn mới.

Hệ thống đó hoạt động vì vi khuẩn có xu hướng nhóm các gen liên quan lại với nhau — điều này không đúng với các sinh vật có tế bào phức tạp, vốn có cấu trúc bộ gen phức tạp tương đương. Do đó, bài báo của chúng tôi lưu ý rằng, “Không rõ liệu phương pháp này có hiệu quả với các bộ gen phức tạp hơn hay không.”

Rõ ràng, nhóm phát triển Evo coi đó là một thách thức, bởi vì ngày nay họ đang mô tả Evo 2, một trí tuệ nhân tạo mã nguồn mở được huấn luyện trên bộ gen từ cả ba lĩnh vực của sự sống (vi khuẩn, vi khuẩn cổ và sinh vật nhân chuẩn). Sau khi được huấn luyện trên hàng nghìn tỷ cặp bazơ DNA, Evo 2 đã phát triển các mô hình nội bộ về các đặc điểm chính trong cả những bộ gen phức tạp như của chúng ta, bao gồm cả những thứ như DNA điều hòa và vị trí nối gen, những thứ mà con người khó có thể phát hiện ra.

Đặc điểm bộ gen

Bộ gen của vi khuẩn được tổ chức theo những nguyên tắc tương đối đơn giản. Bất kỳ gen nào mã hóa protein hoặc RNA đều nằm liền kề nhau, không có sự gián đoạn trong trình tự mã hóa. Các gen thực hiện các chức năng liên quan, chẳng hạn như chuyển hóa đường hoặc sản xuất axit amin, có xu hướng được nhóm lại với nhau, cho phép chúng được kiểm soát bởi một hệ thống điều chỉnh duy nhất, nhỏ gọn. Tất cả đều đơn giản và hiệu quả.

Sinh vật nhân chuẩn không giống như vậy. Các đoạn mã hóa của gen bị gián đoạn bởi các intron, vốn không mã hóa bất cứ thứ gì. Chúng được điều chỉnh bởi một chuỗi có thể trải rộng trên hàng trăm nghìn cặp bazơ. Các chuỗi xác định ranh giới của intron hoặc các vị trí liên kết của protein điều hòa đều được xác định một cách yếu ớt—trong khi chúng có một vài bazơ là hoàn toàn cần thiết, thì rất nhiều bazơ chỉ có xu hướng xuất hiện với tần suất cao hơn mức trung bình đối với một bazơ cụ thể (kiểu như "45% thời gian là T"). Bao quanh tất cả những điều này trong hầu hết các bộ gen của sinh vật nhân chuẩn là một lượng lớn DNA được gọi là DNA rác: virus không hoạt động, gen bị hư hại nghiêm trọng, v.v.

Sự phức tạp đó đã khiến việc giải mã bộ gen của sinh vật nhân chuẩn trở nên khó khăn hơn. Và, mặc dù nhiều công cụ chuyên dụng đã được phát triển để xác định những thứ như vị trí nối gen, nhưng tất cả chúng đều dễ mắc lỗi đến mức trở thành vấn đề khi bạn phân tích một bộ gen lớn như bộ gen dài 3 tỷ base. Chúng ta có thể học hỏi được nhiều hơn bằng cách so sánh quá trình tiến hóa và tìm kiếm các trình tự được bảo tồn, nhưng điều đó cũng có những hạn chế, và chúng ta thường quan tâm đến sự khác biệt giữa các loài.

Tuy nhiên, những loại xác suất thống kê này rất phù hợp với mạng nơ-ron, vốn rất giỏi trong việc nhận diện các mẫu tinh tế mà mắt thường không thể nhận ra. Nhưng bạn sẽ cần một lượng dữ liệu và thời gian tính toán khổng lồ để xử lý chúng nhằm nhận diện được một số đặc điểm tinh tế này.

Hiện chúng ta đã có dữ liệu bộ gen thô mà quy trình cần. Tuy nhiên, việc xây dựng một hệ thống để đưa dữ liệu đó vào một chương trình huấn luyện AI hiệu quả vẫn là một thách thức. Đó chính là thách thức mà nhóm nghiên cứu đứng sau Evo đã đảm nhận.

Huấn luyện mô hình bộ gen lớn

Hệ thống Evo 2 được xây dựng dựa trên mạng nơ-ron tích chập có tên là StripedHyena 2. Quá trình huấn luyện diễn ra trong hai giai đoạn. Giai đoạn đầu tập trung vào việc dạy hệ thống nhận diện các đặc điểm quan trọng của bộ gen bằng cách cung cấp cho nó các chuỗi giàu các đặc điểm đó, mỗi chuỗi dài khoảng 8.000 base. Sau đó, giai đoạn thứ hai được thực hiện, trong đó các chuỗi được cung cấp một triệu base mỗi lần để tạo cơ hội cho hệ thống nhận diện các đặc điểm của bộ gen trên quy mô lớn.

Các nhà nghiên cứu đã huấn luyện hai phiên bản hệ thống của họ bằng cách sử dụng tập dữ liệu có tên OpenGenome2, chứa 8,8 nghìn tỷ base từ cả ba lĩnh vực sự sống, cũng như các virus lây nhiễm vi khuẩn. Họ không bao gồm các virus tấn công sinh vật nhân chuẩn, vì lo ngại rằng hệ thống có thể bị lạm dụng để tạo ra các mối đe dọa cho con người. Hai phiên bản đã được huấn luyện: một phiên bản có 7 tỷ tham số được tinh chỉnh bằng cách sử dụng 2,4 nghìn tỷ base, và phiên bản đầy đủ với 40 tỷ tham số được huấn luyện trên toàn bộ tập dữ liệu OpenGenome.

Nguyên tắc đằng sau quá trình huấn luyện khá đơn giản: Nếu một điều gì đó đủ quan trọng để được bảo tồn về mặt tiến hóa ở nhiều loài, nó sẽ xuất hiện trong nhiều ngữ cảnh khác nhau, và hệ thống sẽ thấy nó lặp đi lặp lại trong quá trình huấn luyện. “Bằng cách học xác suất của các chuỗi trên các tập dữ liệu tiến hóa khổng lồ, các mô hình chuỗi sinh học nắm bắt được các mẫu chuỗi được bảo tồn thường phản ánh tầm quan trọng về chức năng,” các nhà nghiên cứu đứng sau công trình này viết. “Những ràng buộc này cho phép các mô hình thực hiện dự đoán không cần huấn luyện mà không cần bất kỳ sự tinh chỉnh hoặc giám sát cụ thể nào cho từng nhiệm vụ.”

Khía cạnh cuối cùng đó rất quan trọng. Ví dụ, chúng ta có thể cho nó biết các vị trí nối gen đã biết trông như thế nào, điều này có thể giúp nó nhận ra thêm các vị trí nối gen khác. Nhưng điều đó có thể khiến nó khó nhận ra bất kỳ vị trí nối gen bất thường nào mà chúng ta chưa nhận ra. Việc bỏ qua bước tinh chỉnh cũng có thể giúp nó xác định các đặc điểm của bộ gen mà chúng ta hiện chưa biết đến, nhưng có thể trở nên rõ ràng hơn thông qua các nghiên cứu trong tương lai.

Tất cả những điều này hiện đã được công khai. "Chúng tôi đã công khai hoàn toàn Evo 2, bao gồm các tham số mô hình, mã huấn luyện, mã suy luận và bộ dữ liệu OpenGenome2", bài báo thông báo.

Các nhà nghiên cứu cũng sử dụng một hệ thống có thể xác định các đặc điểm bên trong mạng lưới thần kinh để tìm hiểu sâu hơn về Evo 2 và khám phá những gì nó đã học được để nhận biết. Họ đã huấn luyện một mạng lưới thần kinh riêng biệt để nhận biết các mô hình hoạt động trong Evo 2 và xác định các đặc điểm cấp cao trong đó. Nó đã nhận biết rõ ràng các vùng mã hóa protein và ranh giới của các intron nằm cạnh chúng. Nó cũng có thể nhận biết một số đặc điểm cấu trúc của protein trong các vùng mã hóa (xoắn alpha và tấm beta), cũng như các đột biến làm gián đoạn trình tự mã hóa của chúng. Thậm chí cả những thứ như các yếu tố di truyền di động (mà bạn có thể coi là ký sinh trùng ở cấp độ DNA) cũng có một đặc điểm trong Evo 2.

Cái này dùng để làm gì?

Để kiểm tra hệ thống, các nhà nghiên cứu bắt đầu tạo ra các đột biến đơn base và đưa chúng vào Evo 2 để xem phản ứng của nó. Evo 2 có thể phát hiện các vấn đề khi các đột biến ảnh hưởng đến các vị trí trong DNA nơi quá trình phiên mã thành RNA bắt đầu, hoặc các vị trí nơi quá trình dịch mã RNA đó thành protein bắt đầu. Nó cũng nhận biết được mức độ nghiêm trọng của các đột biến. Những đột biến làm gián đoạn quá trình dịch mã protein, chẳng hạn như việc đưa vào các tín hiệu dừng, được xác định là những thay đổi nghiêm trọng hơn so với những đột biến không làm ảnh hưởng đến quá trình dịch mã.

Nó cũng nhận biết được khi các trình tự không được dịch mã. Nhiều chức năng tế bào quan trọng được thực hiện trực tiếp bởi RNA, và Evo 2 cũng có khả năng nhận biết khi các đột biến làm gián đoạn những chức năng đó.

Điều ấn tượng là khả năng nhận diện các đặc điểm trong bộ gen của sinh vật nhân chuẩn diễn ra mà không làm mất đi khả năng nhận diện chúng ở vi khuẩn và vi sinh vật cổ. Trên thực tế, hệ thống dường như có thể xác định được nó đang làm việc với loài nào. Một số nhóm tiến hóa sử dụng mã di truyền với một tập hợp tín hiệu khác nhau để dừng quá trình dịch mã protein. Evo 2 đã có thể nhận ra khi nó đang xem xét một trình tự từ một trong những loài đó và sử dụng mã di truyền chính xác cho chúng.

Nó cũng rất giỏi trong việc nhận diện các đặc điểm có khả năng chịu đựng nhiều biến đổi, chẳng hạn như các vị trí báo hiệu nơi cần cắt nối RNA để loại bỏ intron khỏi trình tự mã hóa của protein. Theo một số tiêu chí, nó còn tốt hơn cả phần mềm chuyên dụng cho nhiệm vụ đó. Điều tương tự cũng đúng khi đánh giá các đột biến trong gen BRCA2 , nơi nhiều đột biến có liên quan đến ung thư. Sau khi được huấn luyện thêm về các đột biến BRCA2 đã biết , hiệu suất của nó còn được cải thiện hơn nữa.

Nhìn chung, Evo 2 có vẻ rất tốt để đánh giá bộ gen và xác định các đặc điểm chính. Các nhà nghiên cứu đã tạo ra nó cho rằng nó có thể đóng vai trò là một công cụ tự động tốt cho việc chú thích bộ gen sơ bộ.

Nhưng điều đáng chú ý ở phiên bản đầu tiên của Evo là, khi được cung cấp một đoạn trình tự bao gồm các gen vi khuẩn đã biết, một số phản hồi của nó bao gồm các protein hoàn toàn mới có chức năng liên quan. Giờ đây, khi đã được huấn luyện trên các gen sinh vật nhân chuẩn phức tạp hơn, liệu nó có thể làm được điều tương tự?

Chúng ta không hoàn toàn biết. Nếu được cung cấp một lượng lớn DNA từ nấm men (một sinh vật nhân chuẩn), nó sẽ phản hồi bằng một chuỗi bao gồm các RNA chức năng, và các chuỗi giống gen với thông tin điều hòa và các vị trí nối. Nhưng các nhà nghiên cứu đã không kiểm tra xem bất kỳ protein nào có chức năng cụ thể nào hay không. Và thật khó để hình dung họ thậm chí có thể thực hiện thử nghiệm đó như thế nào. Với gen vi khuẩn, họ có thể an toàn giả định rằng gen do AI tạo ra sẽ thực hiện một chức năng nào đó liên quan đến các gen lân cận. Nhưng điều đó thường không đúng với sinh vật nhân chuẩn, vì vậy rất khó để đoán xem họ nên kiểm tra chức năng nào.

Trong một thử nghiệm mang tính thông tin hơn, các nhà nghiên cứu đã yêu cầu Evo 2 tạo ra một số DNA điều hòa hoạt động trong một loại tế bào nhất định nhưng không hoạt động trong loại tế bào khác, sau khi cung cấp cho nó thông tin về các trình tự hoạt động trong cả hai loại tế bào đó. Các trình tự được tạo ra sau đó được đưa vào các tế bào này và thử nghiệm, nhưng kết quả khá yếu, chỉ có 17% có hoạt động khác nhau gấp đôi hoặc hơn giữa hai loại tế bào. Đó là một thành tựu đáng kể, nhưng nó không thể so sánh với việc thiết kế các protein hoàn toàn mới.

Tiếp theo là gì?

Nhìn chung, vì công nghệ này ra mắt chưa đầy bốn tháng sau bài báo mô tả Evo ban đầu, nên việc không có nhiều nghiên cứu được thực hiện để kiểm tra khả năng của Evo 2 trong việc thiết kế các chuỗi DNA có ý nghĩa sinh học là điều không hề đáng ngạc nhiên. Các thí nghiệm sinh học rất khó khăn và tốn thời gian, và không phải lúc nào cũng dễ dàng đánh giá trước được thí nghiệm nào sẽ cung cấp thông tin thuyết phục nhất. Vì vậy, có lẽ chúng ta sẽ phải chờ đợi từ vài tháng đến vài năm để tìm hiểu xem cộng đồng có tìm ra những ứng dụng thú vị nào của Evo 2 hay không, và liệu nó có hiệu quả trong việc giải quyết bất kỳ vấn đề thiết kế protein hữu ích nào hay không.

Ngoài ra còn có câu hỏi liệu việc đào tạo và chuyên môn hóa sâu hơn có thể tạo ra những cá thể Evo 2 đặc biệt giỏi trong các nhiệm vụ cụ thể, chẳng hạn như đánh giá bộ gen từ tế bào ung thư hoặc chú thích các bộ gen mới được giải trình tự. Ở một mức độ nào đó, dường như nhóm nghiên cứu muốn công bố kết quả này để những người khác có thể bắt đầu khám phá cách thức ứng dụng nó; điều này phù hợp với việc toàn bộ phần mềm đã được cung cấp miễn phí.

Câu hỏi lớn đặt ra là liệu hệ thống này đã xác định được bất cứ điều gì mà chúng ta chưa biết cách kiểm tra hay chưa. Những thứ như ranh giới intron/exon và DNA điều hòa đã được nghiên cứu trong nhiều thập kỷ, vì vậy chúng ta đã biết cách tìm kiếm chúng và có thể nhận ra khi Evo 2 phát hiện ra chúng. Nhưng chúng ta đã liên tục phát hiện ra các đặc điểm mới trong bộ gen—các đoạn lặp CRISPR, microRNA, và nhiều hơn nữa—trong những thập kỷ qua. Về mặt kỹ thuật, vẫn có khả năng tồn tại những đặc điểm trong bộ gen mà chúng ta chưa biết đến, và Evo 2 đã phát hiện ra chúng.

Hoàn toàn có thể hình dung ra những cách sử dụng các công cụ được mô tả ở đây để truy vấn Evo 2 nhằm tìm ra các đặc điểm bộ gen mới. Vì vậy, tôi rất mong chờ xem kết quả cuối cùng của loại công việc này sẽ như thế nào.