Những thách thức vận hành phát triển mô hình dữ liệu lớn như ChatGPT

Nhĩ Anh

16/02/2023, 14:01

Một “trợ lý biết tuốt” như ChatGPT có thể trả lời câu hỏi tự nhiên, logic ở các lĩnh vực, có thể lập trình, viết code, viết đoạn văn, đoạn báo, làm thơ, truyện cười, dịch thuật, tóm tắt văn bản... ChatGPT hay mô hình ngôn ngữ lớn là hướng phát triển, theo đuổi của không chỉ OpenAI mà nhiều BigTech hiện nay. Nhưng theo một số chuyên gia, để phát triển, duy trì, vận hành dữ liệu, huấn luyện mô hình này rất tốn kém...

Ảnh minh họa

ChatGPT là một ứng dụng, mô hình ngôn ngữ lớn được phát triển và huấn luyện bởi OpenAI. Đây là một AI có thể hiểu cả ngôn ngữ tự nhiên và tạo ngôn ngữ tự nhiên.

Chia sẻ về mô hình ngôn ngữ lớn (LLMs)- thuật toán đằng sau ChatGPT, đồng sáng lập kiêm CEO Hekate Nguyễn Văn Minh Đức, cho biết ChatGPT sử dụng một loại hình học tăng cường cụ thể "học tăng cường từ phản hồi của con người (RLHF)", nhưng ở cấp độ cao.

Trước đó, năm 2015, Hekate đã triển khai nghiên cứu về mô hình ngôn ngữ lớn trên 1 sản phẩm Chatbot Sumi- một người bạn của GenZ nhưng vì thời điểm đó chi phí về server quá cao cho 11 triệu người dùng (GenZ) nên đã tạm dừng dự án. Được biết, cuối năm 2017, Hekate đã phát triển thêm ứng dụng Chatbot Danang Fantasticity, được triển khai trong lĩnh vực du lịch.

Từ thực tế của startup cho thấy sự thành công quan trọng nhất của ChatGPT ngoài model đó chính là sự kết hợp nền tảng cloud và công nghệ phần cứng (máy tính lượng tử).

Theo startup này, mô hình LLM là một tập hợp con của AI đã được đào tạo trên một lượng lớn dữ liệu văn bản để tạo ra các phản hồi giống như con người đối với cuộc đối thoại hoặc các đầu vào ngôn ngữ tự nhiên khác. Để tạo ra các phản hồi ngôn ngữ tự nhiên này, các LLM sử dụng các mô hình học sâu, sử dụng các mạng thần kinh nhiều lớp để xử lý, phân tích và đưa ra dự đoán với dữ liệu phức tạp. Điều này phụ thuộc rất nhiều vào cơ sở hạ tầng lưu trữ và khả năng xử lý của máy tính.

Các LLM có khả năng tạo ra văn bản chất lượng, mạch lạc, thường không thể phân biệt được với văn bản của con người. Hiệu suất hiện đại này đạt được bằng cách đào tạo LLM trên một kho văn bản khổng lồ, ít nhất vài tỷ từ, cho phép nó học các sắc thái của ngôn ngữ con người.

Và một trong những LLM nổi tiếng nhất là GPT-3 (Generative Pretraining Transformer 3), được phát triển bởi OpenAI. Với 175 tỷ tham số, GPT-3 là một trong những LLM lớn nhất và mạnh nhất cho đến nay, có khả năng xử lý nhiều tác vụ ngôn ngữ tự nhiên. ChatGPT là một phần mở rộng của GPT-3, ChatGPT được tinh chỉnh từ một mô hình trong sê-ri GPT-3.5, mô hình này đã hoàn thành quá trình đào tạo vào đầu năm 2022.

TỐN KÉM ĐẦU TƯ CHI PHÍ VẬN HÀNH, HUẤN LUYỆN

Tuy nhiên, theo chuyên gia này, “hạn chế lớn nhất của mô hình LLMs là tính dễ bị sai lệch. Các LLM được đào tạo trên một lượng lớn dữ liệu văn bản, với khả năng học tăng cường từ phản hồi của con người (RLHF) nên chúng ta phải có khả năng kiểm soát, lọc các dữ liệu đầu vào. Ví dụ, khi lượng lớn người dùng đều nhận định sai một vấn đề thì AI sẽ hiểu và nhận định vấn đề theo hướng đó”.

Thực tế này cũng đã được các chuyên gia chỉ ra khi công cụ này có thể học rất nhanh từ quá trình giao tiếp, dựa trên những phản hồi của người dùng nên đồng nghĩa ChatGPT có thể học cả các thông tin sai lệch, không được kiểm chứng.

Mô hình ngôn ngữ lớn LLM và rộng hơn là công nghệ Deep Learning yêu cầu lượng dữ liệu và tài nguyên tính toán khổng lồ, khiến việc phát triển và duy trì chúng khá tốn kém. Cùng với đó là việc vận hành dữ liệu trả lời, gán nhãn phân loại dữ liệu cho ChatGPT...

Hạn chế thứ hai của LLMs là thiếu khả năng giải thích. LLM là các thuật toán khá phức tạp và công nghệ máy học Deep Learning nói chung thường được gọi là "hộp đen", gây khó khăn cho việc biết chính xác cách thức và lý do mô hình đạt được một đầu ra cụ thể.

Điều này có thể khiến đầu ra của các LLM khó tin cậy và đặt ra câu hỏi về việc sử dụng chúng trong các tình huống ra quyết định có tính rủi ro cao.

Cuối cùng, theo ông Đức, kích thước tuyệt đối và sức mạnh tính toán cần thiết để đào tạo và chạy LLM có thể là một hạn chế đáng kể (máy tính lượng tử, nền tảng cloud, đường truyền). LLM và rộng hơn là công nghệ Deep Learning yêu cầu lượng dữ liệu và tài nguyên tính toán khổng lồ, khiến việc phát triển và duy trì chúng khá tốn kém, chưa kể khả năng gây hại cho môi trường.

Chia sẻ quan điểm này với VnEconomy, một chuyên gia công nghệ cho rằng, việc đưa ứng dụng này chạy trong thực tế vẫn là một thách thức lớn. Cùng với đó là vấn đề vận hành dữ liệu trả lời cho ChatGPT. OpenAI vẫn phải thuê nhân công giá rẻ để gán nhãn phân loại dữ liệu cho ChatGPT, để phân loại các nội dung xấu độc, loại bỏ những thông tin sai lệch, ngôn từ kích động bạo lực, hận thù, phân biệt giới tính, quấy rối tình dục... Ngoài ra với các nội dung bị trả lời sai vẫn phải có đội vận hành để dạy lại cho ChatGPT.

Cũng theo chuyên gia này, thách thức lớn nhất đặt ra là hiệu quả kinh tế và rất tốn kém để huấn luyện ChatGPT trên mô hình ngôn ngữ lớn. Ước tính, để chạy ChatGPT tốn khoảng 100.000 USD/ngày và sẽ còn tăng lên, chưa kể chi phí huấn luyện lại mô hình cũng mất 5 triệu USD/lần. Dự án này ban đầu đã được rót 1 tỷ USD và tiếp tục được “bơm” thêm hàng tỷ USD.

ChatGPT hay mô hình ngôn ngữ lớn là hướng phát triển của không chỉ OpenAI mà nhiều BigTech hiện nay. Cơn sốt ChatGPT đã và đang thu hút sự vào cuộc các ông lớn công nghệ toàn cầu. Mới đây, Google ra chatbot AI có tên Bard cạnh tranh với ChatGPT. Người dùng có thể hỏi để Bard trả lời gợi ý nấu món gì cho bữa trưa, lên kế hoạch cho buổi đi chơi.

Trong khi đó, hãng tìm kiếm Baidu (Trung Quốc) sẽ hoàn thành thử nghiệm nội bộ công cụ Ernie Bot trong tháng 3. Đây là chatbot AI hoạt động tương tự ChatGPT và Bard. Baidu dự kiến triển khai AI này dưới dạng ứng dụng độc lập, sau đó dần hợp nhất vào dịch vụ tìm kiếm của mình.

Gần đây, Alibaba cho biết công ty đã tập trung vào các mô hình ngôn ngữ lớn và AI tổng quát từ năm 2017 và đang trong quá trình thử nghiệm nội bộ. Hoặc trước đó, Meta cũng đầu tư mạnh cho AI và tiết lộ về một chatbot của riêng mình...

LLM là một bước phát triển đột phát trong AI, nhưng chúng cũng có những hạn chế cần được xem xét. "Khi các LLM tiếp tục đóng vai trò ngày càng quan trọng trong cuộc sống hàng ngày, những nhà nghiên cứu và phát triển sẽ phải giải quyết những hạn chế để khai thác hết tiềm năng của chúng", ông Đức chia sẻ.

Cộng đồng mạng đang nói gì về ChatGPT?

12:04, 15/02/2023

Alibaba tham gia cuộc đua tạo ChatGPT riêng của mình

08:28, 15/02/2023

“Ra lệnh” cho ChatGPT như thế nào để có thể kiếm bộn tiền?

16:10, 14/02/2023

Chủ đề:

Phát triển kinh tế dữ liệu

Đọc thêm

Hà Tĩnh triển khai E-learning hỗ trợ pháp lý cho doanh nghiệp ở xa

Thông qua các khóa học trực tuyến và nền tảng số, Hà Tĩnh hướng tới nâng cao năng lực tiếp cận pháp luật cho doanh nghiệp ở vùng xa, góp phần hình thành thói quen tuân thủ pháp luật trong hoạt động đầu tư, kinh doanh.

Doanh số smartphone toàn cầu 2026 có thể giảm 12,9% do thiếu hụt bộ nhớ

Tình trạng khan hiếm bộ nhớ đang thực sự tác động đến ngành công nghiệp điện tử và sự thiếu hụt này có thể kéo dài đến hết năm 2027...

"Nhân tài AI" là nhóm nhân sự khó tìm, khó tuyển dụng nhất

Phát triển mô hình và ứng dụng, sử dụng thành thạo AI đứng đầu danh sách các kỹ năng chuyên môn mà doanh nghiệp cần nhất từ ứng viên, đồng thời đây cũng là những nhân sự khó tìm, khó tuyển dụng nhất, sau đó mới đến bán hàng, marketing, kỹ thuật, sản xuất và chế tạo...

Tin tặc đánh cắp 150 GB dữ liệu từ Chính phủ Mexico nhờ AI

Tin tặc được cho là đã âm thầm xâm nhập vào hệ thống của Chính phủ Mexico từ tháng 12...

Tiến sĩ Trần Hồng Thái điều hành Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Ông Trần Hồng Thái, Ủy viên Ban Chấp hành Trung ương Đảng, Phó Chủ tịch Thường trực Viện Hàn lâm Khoa học và Công nghệ Việt Nam, được Thủ tướng giao nhiệm vụ điều hành hoạt động của Viện này...

Đảng Cộng sản Việt Nam - Đại hội XIV

Với phương châm Đoàn kết - Dân chủ - Kỷ cương - Đột phá - Phát triển, Đại hội đại biểu toàn quốc lần thứ XIV của Đảng xác định tư duy, tầm nhìn, những quyết sách chiến lược để chúng ta vững bước tiến mạnh trong kỷ nguyên mới, thực hiện thắng lợi các mục tiêu phát triển đất nước đến năm 2030 khi Đảng ta tròn 100 năm thành lập (1930 - 2030); hiện thực hoá tầm nhìn phát triển đến năm 2045, kỷ niệm 100 năm thành lập nước Cộng hoà xã hội chủ nghĩa Việt Nam (1945 - 2045).

Bài viết mới nhất

Tổng Bí thư Tô Lâm: Phát huy trí tuệ tập thể, sớm đưa tinh thần Đại hội XIV vào cuộc sống

Bầu cử đại biểu Quốc hội khóa XVI và đại biểu HĐND các cấp nhiệm kỳ 2026-2031

Tổng số đơn vị bầu cử đại biểu Quốc hội khóa XVI trong cả nước là 182. Số đơn vị bầu cử, danh sách các đơn vị bầu cử và số lượng đại biểu Quốc hội được bầu ở mỗi đơn vị bầu cử của các tỉnh, thành phố được ấn định gồm: Hà Nội có 11 đơn vị bầu cử, số đại biểu Quốc hội được bầu là 32; Thành phố Hồ Chí Minh có 13 đơn vị bầu cử, số đại biểu Quốc hội được bầu là 38; Hải Phòng có 7 đơn vị bầu cử, số đại biểu Quốc hội được bầu là 19...

Bài viết mới nhất

Tổng Bí thư Tô Lâm trao đổi với cử tri Thủ đô về các trụ cột phát triển

Giá vàng trong nước và thế giới

VnEconomy cập nhật giá vàng trong nước & thế giới hôm nay: SJC, 9999, giá vàng USD/oz, biến động giá vàng tăng, giảm - phân tích, dự báo & dữ liệu lịch sử.

Bài viết mới nhất

Giá vàng nhảy lên gần 5.300 USD/oz, SPDR Gold Trust không ngừng mua ròng

VnEconomy Interactive

Interactive là một sản phẩm báo chí mới của VnEconomy vừa được ra mắt bạn đọc từ đầu tháng 3/2023 đã gây ấn tượng mạnh với độc giả bởi sự mới lạ, độc đáo. Đây cũng là sản phẩm độc quyền chỉ có trên VnEconomy.

Bài viết mới nhất

[Interactive]: Toàn cảnh kinh tế Việt Nam quý 4/2025

Trợ lý thông tin kinh tế Askonomy - Asko Platform

Trong kỷ nguyên trí tuệ nhân tạo, đặc biệt là generative AI, phát triển mạnh mẽ, Tạp chí Kinh tế Việt Nam/VnEconomy đã tiên phong ứng dụng công nghê để mang đến trải nghiệm thông tin đột phá với chatbot AI Askonomy...