Nghiên cứu của 2 sinh viên ĐH Bách khoa lên hẳn hội nghị AI hàng đầu thế giới, tự hào quá đi!

96e033b6984731cc5a70.webp


Wow, flex nhẹ thôi mà đỉnh ghê! Hai bạn sinh viên Phạm Khánh Trình và Lê Minh Khôi từ trường ĐH Bách khoa (ĐHQG TP. HCM) vừa có nghiên cứu được đăng tải tại Hội nghị AAAI - hội nghị về AI hàng đầu thế giới luôn đó các bạn ơi! Sướng tay quá đi mất thôi

Cụ thể thì nghiên cứu về mô hình đa ngôn ngữ huấn luyện AI tạo câu đồng nghĩa này là phần tiếp nối từ đồ án tốt nghiệp của Minh Khôi và Khánh Trình. Hai bạn đã mất tận 8 tháng trời để hoàn thiện nghiên cứu này. Nghe có vẻ dễ nhưng thật ra gian nan lắm luôn!

Khó nhất là phải giải quyết bài toán sao cho áp dụng được trong thực tế. Hướng nghiên cứu của hai bạn tập trung vào những ngôn ngữ ít tài nguyên - tức là những thứ tiếng mà ngay cả các mô hình ngôn ngữ lớn như ChatGPT cũng... "toang" Ví dụ như tiếng Indonesia, tiếng Kazakhstan... Nhìn thấy vấn đề này, nhóm quyết định phát triển phương pháp mới để không phụ thuộc quá nhiều vào tài nguyên ngôn ngữ mà vẫn sinh ra được câu tự nhiên như người bản xứ nói.

Giải thích thêm về nghiên cứu, Khánh Trình cho biết thông thường mọi người hay dùng từ đồng nghĩa để tạo câu mới. Ví dụ tiếng Anh có "soccer" thay "football" chẳng hạn. Nhưng để đa dạng hơn, Trình và Khôi đã sử dụng phương pháp đào tạo đối nghịch cho chất lượng đầu ra xịn xò hơn. "Có thể câu đồng nghĩa sinh ra chưa sát vì nó bị thay đổi nhiều, vì vậy, trong quá trình huấn luyện, chúng mình có thực hiện một số kỹ thuật bên AI về huấn luyện đối nghịch và thêm các biến số chặn trên và chặn dưới của sự ngẫu nhiên để câu sinh ra không vượt qua khỏi phạm vi đã đề ra", Trình giải thích.

e50e0d63d04dea6e987d.jpg


Mỗi thứ tiếng trên thế giới đều có đặc điểm riêng, độ khó cũng khác nhau. Với tiếng Việt, nhóm cho biết cái khó nhất là... dấu câu đó! Tất cả từ ngữ tiếng Việt đều có một âm tiết, lúc tiền xử lý dữ liệu khó hơn các thứ tiếng khác nhiều.

Ví dụ từ "nhà hàng" tiếng Việt cần hai từ "nhà" và "hàng" thì tiếng Anh chỉ cần một từ "restaurant" thôi. Vì thế, thông thường tiếng Việt có số lượng từ nhiều hơn tiếng Anh. Tiếng Việt khó ở chỗ có dấu, nếu không gõ dấu thì nó cũng chỉ như chuỗi ký tự Latin bình thường thôi. Khi có dấu, sẽ khó tiến hành các bước tiền xử lý để mô hình học tốt hơn. Nhưng may quá, nhóm đã tìm được hướng giải quyết thông qua huấn luyện đối nghịch, và kết quả cho ra xịn hơn các phương pháp trước đó rất nhiều!

Để kiểm tra chất lượng đầu ra của nghiên cứu, nhóm đã liên hệ với các chuyên gia ngôn ngữ để nhận đánh giá cụ thể dựa trên ba tiêu chí: tính trôi chảy, ngữ nghĩa và đa dạng từ vựng. Kết quả đánh giá đạt 4,2 - 4,7 trên thang điểm 5 luôn á! Đỉnh cao là đây! ✨

4ec86cfff5f39d409f4d.jpg


Chia sẻ về cảm xúc khi nghiên cứu được công bố tại hội nghị AAAI, Trình và Khôi không khỏi bất ngờ và xúc động khi đạt được thành tựu to lớn này. Ai mà không vui chứ nhỉ!

Về những ấp ủ trong tương lai với nghiên cứu, hai nam sinh Bách khoa cho biết nhóm đang tiến hành tổng hợp thêm một số ngôn ngữ khác, hướng tới bộ dữ liệu khổng lồ là Wikipedia. Nhưng vì đây là dự án mở, ai cũng có thể đóng góp nội dung nên chất lượng là điều đáng lo ngại. Nguồn thứ hai mà nhóm quan tâm là các bài báo, bởi hầu hết các quốc gia đều có tòa soạn báo và chất lượng kiểm duyệt sẽ tốt hơn.

Khôi chia sẻ: "Sau khi nghiên cứu được ra mắt, nhiều công trình nghiên cứu khác ra đời bổ sung nhiều thứ tiếng thuộc khu vực miền nam châu Mỹ, nhóm nhận thấy những thứ tiếng này có mức độ ảnh hưởng nhất định nên trong tương lai có thể sẽ thêm vào để có thể mở rộng tập ngôn ngữ".

Hiện tại, Khánh Trình và Minh Khôi đang làm việc tại các công ty lớn và công việc hằng ngày là nghiên cứu trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên. Được biết cả hai đều dự định sẽ học lên cao, tiếp tục con đường nghiên cứu về trí tuệ nhân tạo để mang lại những công trình nghiên cứu chất lượng hơn nữa. Chúc hai bạn tiếp tục bay cao bay xa nhé!

c8e1f829935991f3651d.jpg


148189c023c7e834c114.jpg


82f4210bb4d6ba481e2f.jpg


53b47b88247923a25f4f.jpg


c803780d998ca26da268.jpg


Nguồn: svvn.tienphong.vn
 
Back
Top