Sự phức tạp đó đã khiến việc giải mã bộ gen của sinh vật nhân chuẩn trở nên khó khăn hơn. Và, mặc dù nhiều công cụ chuyên dụng đã được phát triển để xác định những thứ như vị trí nối gen, nhưng tất cả chúng đều dễ mắc lỗi đến mức trở thành vấn đề khi bạn phân tích một bộ gen lớn như bộ gen dài 3 tỷ base. Chúng ta có thể học hỏi được nhiều hơn bằng cách so sánh quá trình tiến hóa và tìm kiếm các trình tự được bảo tồn, nhưng điều đó cũng có những hạn chế, và chúng ta thường quan tâm đến sự khác biệt giữa các loài.
Tuy nhiên, những loại xác suất thống kê này rất phù hợp với mạng nơ-ron, vốn rất giỏi trong việc nhận diện các mẫu tinh tế mà mắt thường không thể nhận ra. Nhưng bạn sẽ cần một lượng dữ liệu và thời gian tính toán khổng lồ để xử lý chúng nhằm nhận diện được một số đặc điểm tinh tế này.
Hiện chúng ta đã có dữ liệu bộ gen thô mà quy trình cần. Tuy nhiên, việc xây dựng một hệ thống để đưa dữ liệu đó vào một chương trình huấn luyện AI hiệu quả vẫn là một thách thức. Đó chính là thách thức mà nhóm nghiên cứu đứng sau Evo đã đảm nhận.
Huấn luyện mô hình bộ gen lớn
Hệ thống Evo 2 được xây dựng dựa trên mạng nơ-ron tích chập có tên là StripedHyena 2. Quá trình huấn luyện diễn ra trong hai giai đoạn. Giai đoạn đầu tập trung vào việc dạy hệ thống nhận diện các đặc điểm quan trọng của bộ gen bằng cách cung cấp cho nó các chuỗi giàu các đặc điểm đó, mỗi chuỗi dài khoảng 8.000 base. Sau đó, giai đoạn thứ hai được thực hiện, trong đó các chuỗi được cung cấp một triệu base mỗi lần để tạo cơ hội cho hệ thống nhận diện các đặc điểm của bộ gen trên quy mô lớn.
Các nhà nghiên cứu đã huấn luyện hai phiên bản hệ thống của họ bằng cách sử dụng tập dữ liệu có tên OpenGenome2, chứa 8,8 nghìn tỷ base từ cả ba lĩnh vực sự sống, cũng như các virus lây nhiễm vi khuẩn. Họ không bao gồm các virus tấn công sinh vật nhân chuẩn, vì lo ngại rằng hệ thống có thể bị lạm dụng để tạo ra các mối đe dọa cho con người. Hai phiên bản đã được huấn luyện: một phiên bản có 7 tỷ tham số được tinh chỉnh bằng cách sử dụng 2,4 nghìn tỷ base, và phiên bản đầy đủ với 40 tỷ tham số được huấn luyện trên toàn bộ tập dữ liệu OpenGenome.
