Meta giới thiệu Voicebox, công cụ AI chuyển văn bản thành giọng nói
Gần đây, Meta đã tiết lộ một công cụ AI mới được đặt tên là 'Voicebox'. Công ty tuyên bố đây là một bước đột phá trong việc chuyển văn bản thành giọng nói do AI cung cấp. Tuy nhiên, công ty sẽ chưa phát hành công cụ này ra công chúng, bởi vì làm như vậy có thể gây ra một thảm họa…

Voicebox (Hộp thoại) hiện có thể tạo các đoạn âm thanh lời nói bằng sáu ngôn ngữ (tất cả đều có nguồn gốc từ Châu Âu). Theo một bài đăng trên blog từ Meta đây là mô hình AI đầu tiên thuộc loại này có khả năng hoàn thành các nhiệm vụ vượt xa những gì nó đã từng. Meta tuyên bố rằng Voicebox vượt trội hơn hẳn các AI tạo giọng nói cạnh tranh ở hầu hết mọi lĩnh vực.
Voicebox có thể tạo ra các bản sao chuyển văn bản thành giọng nói chính xác hợp lý của một người bằng cách sử dụng tệp âm thanh mẫu trong vòng hai giây, một khả năng dường như vô hại nhưng lại chứa một lượng lớn tiềm năng hủy diệt trong tay kẻ xấu.
SỨC MẠNH ĐÁNG NGỜ CỦA AI
Meta cho biết: “Mặc dù chúng tôi tin rằng điều quan trọng là phải cởi mở với cộng đồng AI và chia sẻ nghiên cứu của chúng tôi để nâng cao trình độ, nhưng chúng tôi cũng cần đạt được sự cân bằng hợp lý giữa tính cởi mở và trách nhiệm”.
Meta có thể lo ngại rằng Hộp thoại có thể cho phép tạo các đoạn âm thanh “deepfake” đáng tin cậy về những người nổi tiếng hoặc những người có ảnh hưởng nói những điều họ chưa bao giờ nói.
Hầu hết các nhân vật lớn của công chúng, bao gồm cả các chính trị gia, đều có rất nhiều bản ghi âm trôi nổi trên internet. Sẽ không khó để đối chiếu một số đoạn phát biểu của một nhà lãnh đạo chính trị đương nhiệm và sử dụng Voicebox để tạo bản sao giọng nói chân thực đến kinh ngạc của họ – thứ mà sau đó có thể được sử dụng cho mục đích bất chính.
Tất nhiên, những công cụ như vậy đã tồn tại trước đây, nhưng chúng kém thuyết phục và phổ biến. Người dùng mạng xã hội có thể đã xem các video thú vị có những người như Joe Biden, Donald Trump và Barack Obama được cho là chơi Fortnite cùng nhau. Video được dùng để gây cười và “câu view”, nhưng âm thanh của video thì khó thuyết phục. Những âm thanh ấy bắt chước phong cách giọng nói của các tổng thống, tuy nhiên người xem vẫn đủ tỉnh táo để nhận ra đó là những video giả mạo âm thanh giọng nói.
Tuy nhiên, Meta rõ ràng tin rằng công cụ mới của mình đủ tốt để đánh lừa phần lớn mọi người. Công ty không phát hành Voicebox ra công chúng mà thay vào đó xuất bản một bài báo nghiên cứu và trình bày chi tiết một công cụ phân loại có thể xác định lời nói do Voicebox tạo ra từ thực tế.
CÔNG CỤ MÁY NÓI
Tất nhiên, trong khi Meta rất muốn nhấn mạnh rằng công ty nhận ra “tiềm năng sử dụng sai và tác hại ngoài ý muốn” xung quanh các công cụ như Voicebox, những điều quan trọng là công ty không được đánh mất những lợi ích tiềm năng mà việc tạo giọng nói AI có thể mang lại trong tương lai.
Voicebox có thể cung cấp lời nói tự nhiên hơn nhiều cho những người bị câm hoặc không thể giao tiếp, loại bỏ một số rào cản đối với sự tương tác do 'giọng nói rô-bốt' chuyển văn bản thành giọng nói hiện có do nhà vật lý Stephen Hawking nổi tiếng phát minh.
Mặt khác, công cụ này cũng có thể thực hiện dịch thời gian thực, đưa chúng ta tiến một bước gần hơn đến loại thiết bị 'phiên dịch toàn cầu' hiện chỉ tồn tại trong khoa học viễn tưởng.
Ngoài ra còn có các ứng dụng khác, nhưng không kém phần hữu ích. Meta giải thích trong bài đăng trên blog của mình rằng Voicebox có thể được sử dụng để chỉnh sửa và cải thiện giọng nói đã ghi. Nếu người dùng đã ghi một số âm thanh nhưng họ phát âm sai một từ hoặc bị gián đoạn bởi tiếng ồn xung quanh, Voicebox có thể cô lập đoạn vi phạm và 'ghi âm lại' một đoạn lời nói bằng giọng nói của người dùng ấy. Ví dụ: người dùng có thể xác định một đoạn âm thanh bị gián đoạn bởi tiếng chó sủa và sử dụng Voicebox tạo lại đoạn âm thanh đó mà không có tiếng chó sủa.
Trong mọi trường hợp, thật tốt khi thấy Meta thực hiện một cách tiếp cận nghiêm túc với công cụ này. Tuy nhiên, do việc Microsoft đưa công cụ Bing AI vào ứng dụng tìm kiếm của tập đoàn đã hơn một lần khiến Meta gặp khó khăn và việc OpenAI tung ra ChatGPT trên toàn thế giới đã dẫn đến đủ loại điều kỳ lạ trong năm qua. Chúng ta đang trong cơn sốt tìm vàng AI và những công cụ này đang xâm nhập vào mọi lĩnh vực trong cuộc sống của chúng ta.
Một chút thận trọng, kiên nhẫn và tôn trọng tầm quan trọng của công nghệ này là một điều đáng hoan nghênh, mặc dù nhiều người nghi ngờ rằng thời gian Meta cân nhắc để ra mắt Voicebox sẽ rất lâu.