Trong những năm gần đây, các mô hình ngôn ngữ lớn (LLM) được phát triển và huấn luyện bởi các kỹ sư Việt Nam như KiLM và ViGPT đang chứng tỏ khả năng xử lý ngôn ngữ tiếng Việt không hề thua kém so với các tên tuổi lớn như GPT-4 và Llama. Những tiến bộ này đã đánh dấu bước tiến vượt bậc trong ngành AI tại Việt Nam.
Báo Cáo Tình Hình Phát Triển Mô Hình Ngôn Ngữ Lớn Tiếng Việt
Theo báo cáo mới nhất về tình hình phát triển mô hình ngôn ngữ lớn tiếng Việt, đến cuối năm 2024, đã có ít nhất 45 mô hình ngôn ngữ lớn tiếng Việt được xây dựng từ các tổ chức, doanh nghiệp trong và ngoài nước. Để đánh giá năng lực của các mô hình này, bộ tiêu chuẩn VMLU (Vietnamese Multitask Language Understanding Benchmark Suite for Large Language Models) đã được xây dựng bởi Viện Khoa học và Công nghệ Tiên tiến Nhật Bản (JAIST) cùng Zalo AI từ tháng 11/2023.
Bộ tiêu chuẩn VMLU gồm 10.880 câu hỏi thuộc 58 chủ đề và 4 lĩnh vực: tổng quát, STEM, Khoa học xã hội, và Khoa học nhân văn. Đây là công cụ quan trọng để đánh giá năng lực và tiềm năng của các mô hình ngôn ngữ lớn tiếng Việt.
Top Các Mô Hình Ngôn Ngữ Lớn Tiếng Việt
Trong bảng xếp hạng dành cho các mô hình ngôn ngữ lớn huấn luyện từ đầu (From-scratch models), Llama-3-70B của Meta dẫn đầu với 66,44 điểm, trong khi GPT-4 của OpenAI đứng thứ ba với 65,53 điểm. Đặc biệt, các sản phẩm nội địa như KiLM-13b-v24.7.1 do Zalo AI phát triển đã đạt vị trí thứ hai, và ViGPT-1.6B-v1 của VinBigData xếp thứ tám. Các mô hình khác trong top 10 còn có sự góp mặt của những tên tuổi lớn như GPT-4o-mini, Gemma, và Phi-3-128k từ OpenAI, Google, và Microsoft.
Ngoài ra, Llama-3 của Meta dẫn đầu về năng lực xử lý tiếng Việt trong lĩnh vực Khoa học Xã hội, trong khi GPT-4 của OpenAI đạt điểm cao nhất ở lĩnh vực STEM. Đặc biệt, sản phẩm của Zalo AI đã giành vị trí số một trong hạng mục Khoa học Nhân văn.
Sự Phát Triển Cộng Đồng AI Tiếng Việt
Mô hình ngôn ngữ lớn không chỉ là nền tảng cho các ứng dụng AI về ngôn ngữ mà còn tạo ra những bước đột phá trong việc phát triển công nghệ AI tại Việt Nam. Một số mô hình đáng chú ý được huấn luyện tại các trường đại học như ML4U của Đại học Bách Khoa TP.HCM và FPT AI của Trường Đại học FPT. Cùng với đó, nhiều tổ chức quốc tế cũng đã và đang tối ưu hóa các mô hình ngôn ngữ lớn cho tiếng Việt, như UONLP của Đại học Oregon, DAMO Academy của Alibaba và SDSRV teams của Samsung.
Mặc dù số lượng mô hình ngôn ngữ lớn tại Việt Nam hiện nay vẫn còn khiêm tốn so với các quốc gia khác, nhưng những kết quả đạt được đã chứng minh nỗ lực mạnh mẽ của các đơn vị trong việc tiếp cận công nghệ tiên tiến toàn cầu. Theo các chuyên gia, xu hướng phát triển LLM tại Việt Nam trong tương lai sẽ hướng tới việc tận dụng các mô hình mở như Llama, từ đó điều chỉnh và tối ưu hóa để phục vụ cho các bài toán và dữ liệu chuyên ngành.
Triển Vọng và Tương Lai Của Mô Hình Ngôn Ngữ Lớn Tiếng Việt
Những thành tựu này không chỉ giúp củng cố nền tảng công nghệ AI trong nước mà còn mở ra cơ hội ứng dụng thực tiễn cho người Việt. Giáo sư Nguyễn Lê Minh, Giám đốc Trung tâm Nghiên cứu Interpretable AI – Viện Khoa học và Công nghệ Tiên tiến Nhật Bản (JAIST), nhận định: “Sự gia tăng số lượng mô hình ngôn ngữ lớn tại Việt Nam phản ánh sự quan tâm sâu sắc của cộng đồng đối với việc phát triển GenAI. Trong tương lai, việc phát triển các mô hình LLM sẽ giúp thúc đẩy tính ứng dụng của AI tại Việt Nam.”
Để hỗ trợ quá trình huấn luyện mô hình ngôn ngữ chất lượng cao, JAIST và Zalo AI sẽ tiếp tục cải tiến bộ tiêu chuẩn VMLU, tạo ra nền tảng vững chắc cho cộng đồng AI tại Việt Nam. Tiến sĩ Đặng Trần Thái, Trưởng phòng Xử lý Ngôn ngữ Tự Nhiên tại VinBigData, nhấn mạnh: “Chúng ta cần các bộ benchmark chuẩn xác để đảm bảo huấn luyện mô hình AI đạt chất lượng cao và đáp ứng yêu cầu thực tiễn.”
Lời kết
Sự phát triển mạnh mẽ của các mô hình ngôn ngữ lớn tiếng Việt là minh chứng rõ ràng cho tiềm năng và tương lai sáng lạn của AI tại Việt Nam. Việc nâng cao chất lượng và tối ưu hóa các mô hình này sẽ giúp Việt Nam gia nhập vào dòng chảy công nghệ toàn cầu, đóng góp cho sự phát triển của nền tảng GenAI và các ứng dụng AI tiên tiến phục vụ cộng đồng. Hy vọng bài viết này của Ario sẽ cung cấp cho bạn nhiều thông tin hữu ích.