Châu Phi nỗ lực thu hẹp khoảng cách ngôn ngữ trong trí tuệ nhân tạo
Châu Phi nỗ lực thu hẹp khoảng cách ngôn ngữ trong trí tuệ nhân tạo
Châu Phi là nơi sinh sống của hơn một phần tư tổng số ngôn ngữ trên thế giới, nhưng phần lớn các ngôn ngữ này lại vắng bóng trong quá trình phát triển công nghệ trí tuệ nhân tạo (AI). Vấn đề nằm ở việc thiếu đầu tư và dữ liệu sẵn có để huấn luyện các mô hình AI.

Phần lớn các công cụ AI hiện nay, như ChatGPT, được huấn luyện chủ yếu bằng tiếng Anh, cùng với một số ngôn ngữ châu Âu và tiếng Trung. Những ngôn ngữ này có lượng văn bản khổng lồ trên mạng để làm nguồn dữ liệu. Trong khi đó, nhiều ngôn ngữ châu Phi chủ yếu được truyền miệng, khiến cho việc thu thập dữ liệu văn bản phục vụ huấn luyện trở nên khó khăn. Hệ quả là hàng triệu người trên lục địa này bị bỏ lại phía sau trong làn sóng công nghệ mới.
Giáo sư Vukosi Marivate – Trường Đại học Pretoria – nhận định:
“Chúng ta suy nghĩ, mơ mộng và cảm nhận thế giới qua ngôn ngữ của mình. Nếu công nghệ không phản ánh điều đó, rất nhiều người sẽ bị gạt ra ngoài cuộc cách mạng số này.”
Nhằm giải quyết vấn đề này, nhóm các nhà nghiên cứu và ngôn ngữ học đã ra mắt dự án African Next Voices, công bố bộ dữ liệu được xem là lớn nhất từ trước đến nay về ngôn ngữ châu Phi.

Dự án tập trung vào 18 ngôn ngữ, bao gồm Kikuyu và Dholuo (Kenya), Hausa và Yoruba (Nigeria), isiZulu và Tshivenda (Nam Phi). Trong hai năm, nhóm nghiên cứu đã ghi lại 9.000 giờ hội thoại thực tế, xoay quanh các chủ đề như nông nghiệp, y tế và giáo dục.
Theo Giáo sư Marivate, đây là bước khởi đầu để tạo nền tảng cho các nhà phát triển khác xây dựng thêm những công nghệ mới phục vụ cộng đồng. Nhà ngôn ngữ học Lilian Wanzare – phụ trách nhóm nghiên cứu tại Kenya – chia sẻ rằng nhóm đã ghi âm từ nhiều vùng miền, lứa tuổi và tầng lớp khác nhau để đảm bảo tính bao quát, điều mà các công ty công nghệ lớn thường khó thực hiện.
Dự án được Quỹ Gates Foundation tài trợ với khoản đầu tư 2,2 triệu USD và cam kết chia sẻ dữ liệu mở để các lập trình viên có thể phát triển công cụ dịch, ghi âm và phản hồi bằng ngôn ngữ châu Phi.
Những ứng dụng đầu tiên của việc đưa ngôn ngữ bản địa vào AI đã cho thấy tiềm năng to lớn. Nữ nông dân Kelebogile Mosime tại Rustenburg (Nam Phi) sử dụng ứng dụng AI-Farmer, hỗ trợ nhiều ngôn ngữ địa phương như Sesotho, isiZulu và Afrikaans để giải quyết các vấn đề trong canh tác. Bà cho biết việc có thể đặt câu hỏi bằng tiếng mẹ đẻ Setswana giúp bà học hỏi nhanh hơn và khắc phục kịp thời các vấn đề về sâu bệnh và trồng trọt.
Trong khi đó, công ty Lelapa AI tại Nam Phi đang phát triển công cụ AI phục vụ cho ngân hàng và viễn thông bằng ngôn ngữ địa phương. Giám đốc điều hành Pelonomi Moiloa nhận định:
“Tiếng Anh hiện là ngôn ngữ của cơ hội, nhưng với nhiều người Nam Phi không nói được tiếng Anh, điều này không chỉ là bất tiện mà còn khiến họ mất quyền tiếp cận các dịch vụ thiết yếu như y tế, tài chính và hỗ trợ chính phủ.”
Giáo sư Marivate nhấn mạnh rằng nếu không có các sáng kiến như vậy, châu Phi có thể đánh mất nhiều hơn cả dữ liệu:
“Ngôn ngữ là cửa ngõ của trí tưởng tượng, là cầu nối của văn hóa và tri thức. Khi một ngôn ngữ biến mất khỏi không gian số, chúng ta mất đi một cách nhìn và hiểu thế giới.”