Lũ quét là một trong những hiện tượng thời tiết nguy hiểm nhất trên thế giới, giết chết hơn 5.000 người mỗi năm. Đồng thời, đây cũng là một trong những hiện tượng khó dự đoán nhất.

Google tin rằng họ đã tìm ra một cách tiếp cận mới để giải quyết vấn đề này — bằng cách sử dụng AI để đọc các bài báo tin tức.
Mặc dù con người đã thu thập rất nhiều dữ liệu thời tiết, lũ quét lại xảy ra quá nhanh và quá cục bộ để có thể đo lường đầy đủ, giống như cách nhiệt độ hay lưu lượng sông được theo dõi theo thời gian.
Khoảng trống dữ liệu đó khiến các mô hình học sâu — vốn ngày càng giỏi trong việc dự báo thời tiết — không thể dự đoán lũ quét một cách hiệu quả.
Sử dụng AI để khai thác dữ liệu từ tin tức
Để giải quyết vấn đề thiếu dữ liệu, các nhà nghiên cứu của Google đã sử dụng Gemini, mô hình ngôn ngữ lớn của công ty.
Họ dùng Gemini để phân tích 5 triệu bài báo từ khắp nơi trên thế giới.
Sau quá trình xử lý, hệ thống:
xác định 2,6 triệu sự kiện lũ lụt khác nhau
trích xuất thông tin liên quan
chuyển dữ liệu thành chuỗi thời gian có gắn vị trí địa lý
Bộ dữ liệu mới này được đặt tên là Groundsource.
Theo Gila Loike, giám đốc sản phẩm tại Google Research, đây là lần đầu tiên Google sử dụng mô hình ngôn ngữ lớn để xây dựng một tập dữ liệu định lượng từ các nguồn văn bản.
Nghiên cứu và bộ dữ liệu Groundsource đã được công bố công khai.
Mô hình dự đoán lũ quét
Sau khi xây dựng Groundsource, các nhà nghiên cứu đã huấn luyện một mô hình dự báo.
Mô hình này dựa trên mạng nơ-ron LSTM (Long Short-Term Memory).
Hệ thống hoạt động bằng cách:
thu thập dữ liệu dự báo thời tiết toàn cầu
phân tích thông tin lịch sử lũ lụt từ Groundsource
tính toán xác suất lũ quét cho từng khu vực
Hiện nay, mô hình này đang được sử dụng trong nền tảng Flood Hub của Google.
Hệ thống hiển thị rủi ro lũ quét cho các khu vực đô thị ở hơn 150 quốc gia.
Ngoài ra, Google cũng chia sẻ dữ liệu với các cơ quan ứng phó khẩn cấp trên toàn thế giới.
Hỗ trợ phản ứng với thiên tai
António José Beleza, một quan chức ứng phó khẩn cấp tại Cộng đồng Phát triển Nam Phi, đã thử nghiệm hệ thống dự báo của Google.
Ông cho biết mô hình này đã giúp tổ chức của ông phản ứng với lũ lụt nhanh hơn.
Việc có thể dự đoán rủi ro lũ quét sớm giúp các cơ quan:
chuẩn bị kế hoạch sơ tán
cảnh báo người dân
triển khai lực lượng cứu hộ
Những hạn chế của hệ thống
Mặc dù có tiềm năng lớn, mô hình của Google vẫn có một số hạn chế.
Thứ nhất, độ phân giải dự báo còn khá thấp.
Hệ thống chỉ xác định rủi ro trên các khu vực khoảng 20 km².
Thứ hai, mô hình không chính xác bằng hệ thống cảnh báo lũ của Cơ quan Thời tiết Quốc gia Hoa Kỳ.
Một lý do quan trọng là hệ thống của Google không sử dụng dữ liệu radar địa phương, vốn cho phép theo dõi lượng mưa theo thời gian thực.
Giải pháp cho những khu vực thiếu dữ liệu
Tuy nhiên, mục tiêu của dự án không phải là thay thế các hệ thống dự báo tiên tiến.
Thay vào đó, hệ thống được thiết kế để hoạt động ở những nơi thiếu cơ sở hạ tầng khí tượng.
Ở nhiều quốc gia, chính quyền địa phương:
không có mạng lưới cảm biến thời tiết
không có dữ liệu lịch sử đầy đủ
Trong những khu vực này, việc sử dụng dữ liệu từ tin tức và báo cáo thực địa có thể giúp cải thiện khả năng dự báo.
Theo Juliet Rothenberg, giám đốc chương trình của nhóm Resilience tại Google:
“Vì chúng tôi tổng hợp hàng triệu báo cáo, tập dữ liệu Groundsource giúp cân bằng lại bản đồ dữ liệu.”
Điều này cho phép hệ thống ước tính rủi ro cho những khu vực trước đây gần như không có dữ liệu.
Tiềm năng cho các hiện tượng thiên nhiên khác
Nhóm nghiên cứu của Google hy vọng rằng phương pháp này có thể được áp dụng cho các hiện tượng khác khó theo dõi.
Ví dụ:
sóng nhiệt
lở đất
các thảm họa thiên nhiên ngắn hạn
Bằng cách sử dụng mô hình ngôn ngữ lớn để biến văn bản thành dữ liệu định lượng, các nhà nghiên cứu có thể xây dựng các bộ dữ liệu mới cho các mô hình dự báo.
Giải quyết vấn đề thiếu dữ liệu trong khoa học Trái đất
Marshall Moutenot, CEO của công ty Upstream Tech, cho rằng sáng kiến của Google là một phần của xu hướng lớn hơn trong lĩnh vực dự báo thời tiết bằng AI.
Công ty của ông cũng sử dụng mô hình học sâu để dự báo lưu lượng sông cho các khách hàng như các công ty thủy điện.
Theo Moutenot, thiếu dữ liệu là một trong những thách thức lớn nhất trong khoa học địa vật lý.
Trên thực tế, có rất nhiều dữ liệu về Trái đất, nhưng khi cần dữ liệu xác thực để huấn luyện mô hình, lại thường không đủ.
Ông nhận xét:
“Đây là một cách tiếp cận thực sự sáng tạo để thu thập dữ liệu cần thiết.”