Mới đây, 2 đề tài nghiên cứu liên quan công nghệ xử lý tiếng nói của nhóm kỹ sư Zalo AI được công nhận tại Hội nghị châu Á – Thái Bình Dương về trí tuệ nhân tạo quốc tế.
Hội nghị châu Á – Thái Bình Dương về trí tuệ nhân tạo quốc tế (PRICAI) tập trung nghiên cứu về AI và ứng dụng trong lĩnh vực kinh tế – xã hội, trong phạm vi châu Á – Thái Bình Dương, được tổ chức lần đầu vào năm 1990. PRICAI là một trong số ít hội nghị về công nghệ thông tin có thứ hạng cao trên thế giới. Đây là nơi quy tụ nhiều chuyên gia xuất sắc trong lĩnh vực tuệ nhân tạo nói riêng và công nghệ thông tin nói chung. Năm nay, PRICAI được tổ chức tại Hà Nội (Việt Nam).
Việc các đề tài nghiên cứu của kỹ sư Việt Nam được công nhận ở hội nghị quốc tế là tín hiệu vui, phản ánh khoảng cách được rút ngắn giữa Việt Nam và thế giới trong lĩnh vực trí tuệ nhân tạo.
Từ nghiên cứu của nhóm kỹ sư chưa đến 30 tuổi
Thực hiện đề tài là các nhà nghiên cứu trẻ tuổi từ Zalo AI. Thành viên kỳ cựu nhất nhóm là Trang Trương chỉ mới 27 tuổi. Các thành viên còn lại là Việt Lâm (26 tuổi), Cúc Bùi (24 tuổi) và Mạnh Cường (22 tuổi).
Đội ngũ mất khoảng 6 tháng để nghiên cứu, thử nghiệm và 2 tháng để hoàn thành phần bài báo khoa học. Các đề tài đều xuất phát từ nhu cầu thực tiễn trong quá trình xây dựng các sản phẩm AI để phục vụ người dùng.
Các công trình nghiên cứu được công nhận của nhóm kỹ sư Việt Nam đều liên quan công nghệ xử lý giọng nói (Speech Processing), gồm nghiên cứu về việc chuẩn hóa văn bản đa tác vụ cho hệ thống thống tổng hợp giọng nói (Multi-task Text Normalization Approach for Speech Synthesis) và nghiên cứu các giải pháp để xây dựng hệ thống tổng hợp giọng nói đa ngôn ngữ (Learning Vietnamese-English Code-Switching Speech Synthesis Model Under Limited Code-Switched Data Scenario).
Nghiên cứu về việc chuẩn hóa văn bản đa tác vụ cho hệ thống tổng hợp giọng nói. |
Cúc Bùi cho biết: “Module chuẩn hóa văn bản để tổng hợp giọng nói có nhiều hạn chế về từ viết tắt, từ mới, từ sai chính tả và vấn đề ngắt nghỉ. Điều này có thể ảnh hưởng mức độ tự nhiên của giọng nói AI. Vì thế, chúng tôi xây dựng mô hình nhằm cải thiện vấn đề này”.
Để nghiên cứu được công bố tại hội nghị quốc tế, ngoài việc chỉn chu trong bố cục và câu chữ, mỗi kỹ sư còn có những bí kíp riêng. Với Việt Lâm, ý tưởng tốt và kết quả rõ ràng là điều quan trọng hàng đầu trong bài báo khoa học. Trong khi đó, Cúc Bùi cho rằng đọc nhiều bài báo khoa học và học cách giải quyết vấn đề trong AI là chìa khóa để nâng cao báo cáo khoa học của mình.
Đến ứng dụng AI vào sản phẩm công nghệ cho người Việt
Hiện tại, cả hai nghiên cứu của nhóm kỹ sư Zalo AI đều đang được ứng dụng vào hệ thống tổng hợp giọng nói nhằm hỗ trợ sản phẩm thực tế chạy trên trang Báo Mới và loa thông minh Kiki.
Sau khi tham dự PRICAI 2021, nhóm kỹ sư tiếp tục các nghiên cứu dang dở nhằm cải thiện sản phẩm họ phụ trách tại Zalo. Nếu có cơ hội hay ý tưởng tốt, nhóm sẵn sàng thực hiện các bài báo khoa học để chia sẻ tri thức đến cộng đồng AI.
Chia sẻ về mong muốn mang giải pháp AI của Việt Nam ra đấu trường quốc tế, kỹ sư Mạnh Cường cho biết: “Đây là mong muốn của nhiều kỹ sư AI. Tôi cảm thấy tự hào khi được góp phần nhỏ trong hành trình ấy”.
Nghiên cứu các giải pháp để xây dựng hệ thống tổng hợp giọng nói đa ngôn ngữ. |
Zalo AI hiện là một trong những đơn vị dẫn đầu về nghiên cứu và ứng dụng AI trong nước, tập trung vào 4 mảng chính của trí tuệ nhân tạo là thị giác máy tính (Computer Vision), xử lý tiếng nói (Speech processing), xử lý ngôn ngữ tự nhiên (NLP) và dữ liệu lớn – máy học (Big Data -Machine Learning)
Đây không phải lần đầu tiên Zalo có thành tích tốt về mặt học thuật tại đấu trường quốc tế. Đầu năm nay, 2 kỹ sư trẻ của Zalo đạt quán quân cuộc thi AI trên Kaggle – một trong những sân chơi trí tuệ lớn nhất thế giới. Zalo AI cũng nhiều lần đạt giải cao về xử lý tiếng nói và ngôn ngữ tự nhiên ở Việt Nam.
Thành tựu nghiên cứu từ AI của Zalo được ứng dụng trên nhiều sản phẩm hiện có của hệ sinh thái, nhằm mang đến trải nghiệm tốt nhất cho người Việt. Ngoài ra, Zalo cũng cung cấp các công cụ phát hiện đường lưỡi bò phi pháp, chuyển đổi văn bản thành giọng nói, phân loại hình ảnh, kiểm duyệt nội dung miễn phí cho cộng đồng.
Đặc biệt, sản phẩm trợ lý tiếng nói Kiki của Zalo dựa trên công nghệ tổng hợp tiếng nói và xử lý ngôn ngữ tự nhiên được ứng dụng phổ biến trên xe hơi điều khiển bằng giọng nói, app nghe nhạc Zing MP3, sắp tới sẽ xuất hiện trên hệ thống nhà thông minh.
Hội nghị PRICAI lần thứ 18 được tổ chức online trong bối cảnh dịch bệnh diễn biến phức tạp tại Việt Nam. Điều này khiến các kỹ sư Zalo AI không khỏi tiếc nuối khi không được trực tiếp gặp gỡ, giao lưu các tác giả khác tại hội nghị. Tuy nhiên, họ vẫn học được nhiều điều từ các nghiên cứu của bạn bè quốc tế tham gia PRICAI 2021. Nhận xét về chất lượng các bài báo khoa học năm nay, nhóm kỹ sư Zalo AI cho rằng tất cả bài báo đều có giá trị thực tiễn cao, phản ánh được tâm huyết và sự đầu tư kỹ lưỡng của tác giả.