KhoaiCandy
New member
Chào các bạn! Hôm nay mình phải kể cho các bạn nghe về một thứ AI mà nghe xong mình rợn cả người luôn á!
Microsoft vừa cho ra mắt một công cụ AI mà khả năng nó... sợ vãi! Chỉ cần vài giây nghe giọng của bạn, nó có thể copy paste giọng nói y chang không trượt phát nào. Nghe xong kiểu "chị ơi em sợ quá" luôn!
Sản phẩm này "xịn" đến mức nào mà ngay cả ông lớn Microsoft cũng không dám tung ra thị trường luôn á! Nghe đã thấy sus chưa? Lý do thì đơn giản thôi - sợ bị dùng vào việc xấu quá trời! Tưởng tượng nếu nó rơi vào tay kẻ xấu thì toang chứ không phải đùa đâu các bạn ơi.
Công cụ này có tên VALL-E 2, vốn là bản nâng cấp từ VALL-E đời đầu được công bố hồi tháng 1-2023. Nó có khả năng chuyển chữ thành giọng nói hoặc bắt chước giọng ai đó chỉ với vài giây âm thanh mẫu thôi là đủ. Đỉnh chưa các bạn?
"VALL-E 2 là robot đầu tiên đạt được "sự tương đương với con người", nghĩa là nó đáp ứng hoặc vượt qua các tiêu chuẩn về độ giống con người" - Microsoft tự hào tuyên bố luôn!
Theo team dev bên Microsoft Research thì VALL-E 2 "có thể tạo ra giọng nói chính xác, tự nhiên theo đúng giọng của người nói gốc" và còn xử lý được cả những câu siêu phức tạp nữa á!
Vậy sao nó lại "hack não" đến thế?
Bí quyết nằm ở hai tính năng cực xịn này nè:
Thứ nhất là tính năng lấy mẫu có nhận thức về sự lặp lại - nghe fancy nhỉ? Nó giúp xử lý những lần lặp lại của từ ngữ và ngăn luôn tình trạng AI "bị đơ" lặp đi lặp lại một âm thanh hoặc cụm từ mãi không dứt (kiểu đĩa hát bị trầy ấy).
Thứ hai là mô hình mã hóa theo nhóm, giúp AI xử lý nhanh hơn bằng cách rút gọn chuỗi dữ liệu. Nhờ đó mà nó có thể tạo giọng nói dài mà vẫn mượt mà, không bị lag!
Các thí nghiệm trên bộ dữ liệu LibriSpeech và VCTK đã cho thấy VALL-E 2 vượt trội so với các hệ thống TTS zero-shot cũ kỹ trước đây về độ chắc chắn của giọng, độ tự nhiên và cả độ giống của người nói nữa!
Tất nhiên là chất lượng đầu ra vẫn phụ thuộc vào độ dài và chất lượng của mẫu giọng ban đầu, cộng thêm môi trường quay (có ồn hay không, tiếng động xung quanh ra sao...).
Vậy nó có ích gì không?
Các nhà nghiên cứu cho biết trong tương lai, VALL-E 2 có thể được ứng dụng vào rất nhiều lĩnh vực như:
• Học tập và giáo dục
• Giải trí
• Báo chì và tạo nội dung
• Tính năng trợ năng cho người khuyết tật
• Hệ thống phản hồi bằng giọng nói
• Dịch thuật
• Chatbot thông minh hơn
Nhưng đó là nói về mặt tích cực thôi nhé! Còn mặt tiêu cực thì... các bạn tự tưởng tượng đi, sợ lắm! Đó là lý do Microsoft quyết định không phát hành công cụ này ra công chúng, dù nó xịn đến mấy đi nữa.
Nguồn: soha.vn
Microsoft vừa cho ra mắt một công cụ AI mà khả năng nó... sợ vãi! Chỉ cần vài giây nghe giọng của bạn, nó có thể copy paste giọng nói y chang không trượt phát nào. Nghe xong kiểu "chị ơi em sợ quá" luôn!
Sản phẩm này "xịn" đến mức nào mà ngay cả ông lớn Microsoft cũng không dám tung ra thị trường luôn á! Nghe đã thấy sus chưa? Lý do thì đơn giản thôi - sợ bị dùng vào việc xấu quá trời! Tưởng tượng nếu nó rơi vào tay kẻ xấu thì toang chứ không phải đùa đâu các bạn ơi.
Công cụ này có tên VALL-E 2, vốn là bản nâng cấp từ VALL-E đời đầu được công bố hồi tháng 1-2023. Nó có khả năng chuyển chữ thành giọng nói hoặc bắt chước giọng ai đó chỉ với vài giây âm thanh mẫu thôi là đủ. Đỉnh chưa các bạn?
"VALL-E 2 là robot đầu tiên đạt được "sự tương đương với con người", nghĩa là nó đáp ứng hoặc vượt qua các tiêu chuẩn về độ giống con người" - Microsoft tự hào tuyên bố luôn!
Theo team dev bên Microsoft Research thì VALL-E 2 "có thể tạo ra giọng nói chính xác, tự nhiên theo đúng giọng của người nói gốc" và còn xử lý được cả những câu siêu phức tạp nữa á!
Vậy sao nó lại "hack não" đến thế?
Bí quyết nằm ở hai tính năng cực xịn này nè:
Thứ nhất là tính năng lấy mẫu có nhận thức về sự lặp lại - nghe fancy nhỉ? Nó giúp xử lý những lần lặp lại của từ ngữ và ngăn luôn tình trạng AI "bị đơ" lặp đi lặp lại một âm thanh hoặc cụm từ mãi không dứt (kiểu đĩa hát bị trầy ấy).
Thứ hai là mô hình mã hóa theo nhóm, giúp AI xử lý nhanh hơn bằng cách rút gọn chuỗi dữ liệu. Nhờ đó mà nó có thể tạo giọng nói dài mà vẫn mượt mà, không bị lag!
Các thí nghiệm trên bộ dữ liệu LibriSpeech và VCTK đã cho thấy VALL-E 2 vượt trội so với các hệ thống TTS zero-shot cũ kỹ trước đây về độ chắc chắn của giọng, độ tự nhiên và cả độ giống của người nói nữa!
Tất nhiên là chất lượng đầu ra vẫn phụ thuộc vào độ dài và chất lượng của mẫu giọng ban đầu, cộng thêm môi trường quay (có ồn hay không, tiếng động xung quanh ra sao...).
Vậy nó có ích gì không?
Các nhà nghiên cứu cho biết trong tương lai, VALL-E 2 có thể được ứng dụng vào rất nhiều lĩnh vực như:
• Học tập và giáo dục
• Giải trí
• Báo chì và tạo nội dung
• Tính năng trợ năng cho người khuyết tật
• Hệ thống phản hồi bằng giọng nói
• Dịch thuật
• Chatbot thông minh hơn
Nhưng đó là nói về mặt tích cực thôi nhé! Còn mặt tiêu cực thì... các bạn tự tưởng tượng đi, sợ lắm! Đó là lý do Microsoft quyết định không phát hành công cụ này ra công chúng, dù nó xịn đến mấy đi nữa.
Nguồn: soha.vn