10:52 27/08/2024

Startup Ấn Độ đặt cược vào các chatbot AI bằng giọng nói

Hoàng Hà

Thế giới đã chuyển từ kỹ thuật số sang di động rồi đến AI, nhưng giọng nói là cách trực quan nhất để sử dụng công nghệ. Vì thế, các startup AI Ấn Độ đang đặt cược vào chatbot giọng nói…

Vivek Raghavan, trái, và Pratyush Kumar của Sarvam. Nguồn: Sarvam
Vivek Raghavan, trái, và Pratyush Kumar của Sarvam. Nguồn: Sarvam

Đầu tháng này, các giám đốc điều hành của Alphabet, Microsoft và Meta đã tham gia cùng các nhà sáng lập công nghệ tại Bangalore, theo dõi một trong những công ty khởi nghiệp AI hàng đầu của Ấn Độ ra mắt sản phẩm mới có thể thay đổi cách quốc gia đông dân nhất thế giới sử dụng công nghệ này.

 TẠO RA "CUỘC CÁCH MẠNG" TẠI QUỐC GIA ĐÔNG DÂN NHẤT THẾ GIỚI

Sarvam AI, thường được mô tả là “OpenAI của Ấn Độ”, đã giới thiệu phần mềm cho các doanh nghiệp có thể tương tác với khách hàng bằng giọng nói thay vì chỉ có text (văn bản). Công nghệ này được phát triển với dữ liệu từ 10 ngôn ngữ bản địa của Ấn Độ và được định giá là một rupee một phút.

Trong một video tại sự kiện, Vinod Khosla, một nhà đầu tư mạo hiểm và nhà đầu tư tỷ phú tại Sarvam AI, cho biết: "Những bot giọng nói này có tiềm năng tiếp cận một tỷ người dùng".

Ấn Độ đã cố gắng bắt kịp cơn sốt trí tuệ nhân tạo toàn cầu trong gần hai năm kể từ khi ChatGPT ra mắt, nhưng các chatbot thường bị hạn chế do thiếu dữ liệu về nhiều ngôn ngữ của quốc gia này. Nhiều người sống ở các thành phố lớn có thể nhập lời nhắc cho chatbot bằng tiếng Anh, nhưng hầu hết người dân Ấn Độ không có đủ kỹ năng ngôn ngữ để làm như vậy. 

Hiện nay, ngày càng nhiều công ty khởi nghiệp đặt cược rằng các bot giọng nói được xây dựng bằng dữ liệu ngôn ngữ địa phương có thể tiếp cận được nhiều vùng rộng lớn hơn của Ấn Độ và thậm chí có thể thu hút người dùng ở các quốc gia khác.

Trong quá trình này, các công ty khởi nghiệp này có thể biến Ấn Độ thành nơi thử nghiệm cho những gì có thể là “biên giới tiếp theo” của các sản phẩm AI tạo ra. Bằng cách kết hợp các tính năng giọng nói AI, các công ty công nghệ hy vọng sẽ tạo ra các dịch vụ đàm thoại năng động hơn, có thể phản hồi người dùng bằng lời nói theo thời gian thực và tự động hóa một số tác vụ nhất định. Tại Ấn Độ, điều đó đã diễn ra trên nhiều ứng dụng dành cho người tiêu dùng và doanh nghiệp.

Gnani AI được Samsung hậu thuẫn đã thực hiện hàng triệu cuộc trò chuyện bằng giọng nói mỗi ngày cho các ngân hàng, công ty bảo hiểm và công ty ô tô lớn nhất của Ấn Độ. Trong khi đó startup CoRover AI cung cấp bot giọng nói bằng 14 ngôn ngữ Ấn Độ cho tập đoàn đường sắt nhà nước và lực lượng cảnh sát khu vực. Và bot giọng nói của Haloocom Technologies có thể nói bằng năm ngôn ngữ Ấn Độ để xử lý các tác vụ dịch vụ khách hàng và giúp sàng lọc ứng viên xin việc.

“Thế giới đã chuyển từ kỹ thuật số sang di động rồi đến AI, nhưng giọng nói là cách trực quan nhất để sử dụng công nghệ”, Ankush Sabharwal, đồng sáng lập kiêm giám đốc điều hành của CoRover cho biết.

Bot giọng nói Ask Disha của CoRover đã ra mắt vào tháng này cho công ty đặt vé tàu hỏa của Ấn Độ, IRCTC. Bot có thể đặt vé tàu hỏa và hoàn tất thanh toán thay mặt cho khách hàng chỉ thông qua giọng nói. Sabharwal cho biết đất nước này cần các tác nhân AI có thể thực hiện các nhiệm vụ, chứ không chỉ cung cấp thông tin.

Startup Gnani cung cấp một bot để giúp các bên cho vay trò chuyện với khách hàng tiềm năng tìm hiểu nhu cầu tài chính của họ, thu thập thông tin cá nhân và xác định xem họ có đủ điều kiện vay hay không. Công ty khởi nghiệp này cũng hợp tác với một trong những nhà sản xuất ô tô lớn nhất Ấn Độ, Tata Motors Ltd., để nhận phản hồi về các mẫu xe mới nhất và bán gói bảo hành mở rộng cùng các phụ kiện.

MỤC TIÊU VƯƠN RA THỊ TRƯỜNG QUỐC TẾ

Các bot giọng nói của Sarvam có thể xử lý các cuộc trò chuyện bằng nhiều ngôn ngữ và thực hiện các hành động cho khách hàng, chẳng hạn như thiết lập cuộc hẹn và tạo điều kiện thanh toán. Công ty có khoảng 50 khách hàng, bao gồm Sri Mandir, một ứng dụng sùng đạo có hơn 10 triệu lượt tải xuống trên Cửa hàng Play Android.

Sử dụng phần mềm giọng nói của Sarvam, ứng dụng của Sri Mandir có thể hướng dẫn mọi người đến các nghi lễ cụ thể tại các ngôi đền khác nhau và cách cầu xin nhiều loại phước lành khác nhau.

"Hãy thử đưa GPT-4 hoặc Claude vào Sri Mandir. Tôi đảm bảo rằng nó sẽ không hiệu quả", Vivek Raghavan, đồng sáng lập của Sarvam, ám chỉ đến các mô hình AI tiên tiến từ OpenAI và Anthropic. Ông cho biết các công ty Hoa Kỳ không có quyền truy cập vào đủ dữ liệu ngôn ngữ Ấn Độ, bao gồm cả các giọng khác nhau tùy theo từng vùng.

Ganesh Gopalan, trái và Ananth Nagaraj. Nguồn: Gnani
Ganesh Gopalan, trái và Ananth Nagaraj. Nguồn: Gnani

Một số công ty AI hàng đầu tại Hoa Kỳ, bao gồm OpenAI, đã phát triển công nghệ có thể tạo ra giọng nói thuyết phục nhưng đã chậm trễ trong việc đưa công nghệ này ra thị trường. OpenAI gần đây đã cảnh báo rằng người dùng có thể trở nên phụ thuộc về mặt cảm xúc vào sản phẩm giọng nói của mình và cũng cho biết họ đã thực hiện các bước để ngăn chặn tình trạng mạo danh và tạo ra âm thanh có bản quyền. Công ty khởi nghiệp đã bắt đầu triển khai các tính năng giọng nói mới cho một số lượng người dùng hạn chế sau một thời gian trì hoãn.

Theo hãng tin Bloomberg, bất chấp những lo ngại, các công ty khởi nghiệp AI của Ấn Độ vẫn lạc quan về công nghệ này. “AI được tạo ra cho các trường hợp sử dụng, ngôn ngữ và đối tượng cụ thể chính xác hơn, ít tốn kém hơn khi vận hành và giảm đáng kể ảo giác”, Ganesh Gopalan, đồng sáng lập kiêm giám đốc điều hành của Gnani, cho biết, sử dụng thuật ngữ ám chỉ hệ thống AI bịa đặt sự thật.

Mặc dù các công ty khởi nghiệp này tập trung vào Ấn Độ, một số cũng đang để mắt đến các thị trường quốc tế, bao gồm Trung Đông và Nhật Bản. Trên thực tế, các bot giọng nói của Gnani đã được triển khai tại “sân sau của Thung lũng Silicon”, giúp một công ty cho thuê xe Harley-Davidson lớn có trụ sở tại California tiếp cận được với khách hàng nói tiếng Tây Ban Nha.