Thiếu dữ liệu do con người tạo ra sẽ hạn chế tiến trình phát triển AI

Q Quỳnh Anh

11:18, 27/07/2024

Chọn cỡ chữ

Việc sử dụng những dữ liệu tổng hợp do máy tính tạo ra để đào tạo các mô hình trí tuệ nhân tạo (AI) có nguy cơ đi đến những kết quả vô nghĩa…

Dữ liệu đầu vào đang trở thành thách thức với các công ty AI bởi chúng tiềm ẩn rủi ro tạo ra những thông tin sai lệch - Ảnh minh họa.

Một nghiên cứu mới từ Đại học Oxford đã nhấn mạnh những thách thức sắp xảy ra đối với các công nghệ mới nổi, đáng chú ý việc sử dụng dữ liệu do máy tính tạo ra để đào tạo các mô hình trí tuệ nhân tạo (AI) có nguy cơ khiến chúng tạo ra những kết quả vô nghĩa.

Các công ty AI hàng đầu bao gồm OpenAI và Microsoft đã thử nghiệm việc sử dụng dữ liệu tổng hợp - những thông tin do hệ thống AI tạo ra để sau đó đào tạo các mô hình ngôn ngữ lớn (LLM) khi những dữ liệu do con người tạo ra ngày một cạn kiệt.

Nghiên cứu được công bố trên tạp chí Nature ngày 24/7 cho thấy việc sử dụng dữ liệu như vậy có thể dẫn đến sự xuống cấp nhanh chóng của các mô hình AI. Một thử nghiệm sử dụng văn bản đầu vào về kiến trúc thời Trung cổ đã dẫn đến những thông tin về thỏ rừng sau chưa đầy 10 thế hệ đầu ra.

Bằng chứng này đã nhấn mạnh lý do vì sao các nhà phát triển AI lại vội vã mua rất nhiều những dữ liệu do con người tạo ra để đào tạo, đồng thời đặt ra câu hỏi rằng điều gì sẽ xảy ra khi những nguồn hữu hạn này cạn kiệt.

Ilia Shumailov, tác giả chính của nghiên cứu cho biết: “Dữ liệu tổng hợp thật tuyệt vời nếu chúng tôi có thể làm cho nó hoạt động được. Tuy nhiên điều chúng tôi đang nói là dữ liệu tổng hợp hiện tại có thể sai ở một số khía cạnh. Điều đáng ngạc nhiên nhất là chuyện này diễn ra nhanh đến mức nào".

Nghiên cứu tìm hiểu ra xu hướng sụp đổ của các mô hình AI theo thời gian do sự tích tụ và những sai lệch không thể tránh khỏi từ các thế hệ đào tạo kế tiếp. Tốc độ suy giảm có liên quan đến mức độ nghiêm trọng của những thiếu sót trong thiết kế mô hình, quá trình học tập và chất lượng dữ liệu được sử dụng. Các giai đoạn đầu của sự sụp đổ thường liên quan đến việc sai lệch từ những thông tin nhỏ, thiểu số và dần dần dẫn đến sai lệch trong đa số thông tin. Trong giai đoạn cuối của sự sụp đổ, tất cả các phần của dữ liệu có thể trở nên vô nghĩa.

Shumailov, người thực hiện công việc tại trường đại học Oxford cùng các đồng nghiệp từ Cambridge, Imperial College London, Edinburgh, cho biết: “Các mô hình mất đi tính hữu ích vì chúng tràn ngập tất cả các lỗi và quan niệm sai lầm do các thế hệ thông tin trước đưa ra".

Các nhà nghiên cứu nhận thấy vấn đề thường trở nên trầm trọng hơn do sử dụng dữ liệu tổng hợp được đào tạo dựa trên thông tin do các thế hệ trước tạo ra. Hầu như tất cả các mô hình ngôn ngữ được đào tạo mà họ kiểm tra đều bắt đầu tạo ra các cụm từ lặp lại.

Trong trường hợp thỏ rừng nêu trên, văn bản đầu vào đầu tiên khảo sát việc xây dựng tháp nhà thờ ở Anh trong thế kỷ 14 và 15. Ở giai đoạn đào tạo thứ nhất, đầu ra cung cấp thông tin về các vương cung thánh đường ở Rome và Buenos Aires. Thế hệ thứ năm chuyển sang dịch ngôn ngữ, trong khi thế hệ thứ chín liệt kê các loài thuộc họ Lagomorph với các màu đuôi khác nhau.

Một ví dụ khác là cách một mô hình AI được đào tạo dựa trên thông tin đầu ra của chính nó để xử lý một tập dữ liệu về hình ảnh giống chó, theo một bài viết trên tạp chí Nature của Emily Wenger thuộc Đại học Duke ở Mỹ.

Ban đầu, những loại phổ biến như chó tha mồi vàng sẽ chiếm ưu thế trong khi những giống ít phổ biến hơn như chó đốm biến mất. Cuối cùng, hình ảnh của những chú chó tha mồi vàng sẽ trở thành một mớ hỗn độn về mặt giải phẫu, với các bộ phận cơ thể ở sai vị trí.

Wenger cho biết, việc giảm thiểu vấn đề cho đến nay không hề đơn giản. Một kỹ thuật đã được các công ty công nghệ hàng đầu triển khai là nhúng hình mờ gắn cờ nội dung do AI tạo ra để loại trừ khỏi tập dữ liệu đào tạo. Khó khăn là điều này đòi hỏi sự phối hợp giữa các công ty công nghệ có thể không thực tế hoặc không khả thi về mặt thương mại.

Đọc bài theo từ khoá

Chủ đề

Phát triển kinh tế dữ liệu

Phía sau hành trình 6 năm kiến tạo hệ sinh thái công nghệ & AI tự chủ của VnEconomy

Mỗi dự án, công trình xây dựng sẽ phải gắn với một mã định danh duy nhất

“Chúng ta chưa thể biến dữ liệu thành dòng chảy giá trị kinh tế”

Xem thêm

Mới nhất trên VnEconomy

Bất động sản 09:49, 28/07/2026

M Riverside Danang: Giải bài toán dòng vốn và tối ưu hiệu suất đầu tư cho thuê bên sông Hàn

Đọc ngay

Chứng khoán 09:28, 28/07/2026

Đã có 574 doanh nghiệp công bố lợi nhuận quý 2/2026, tăng trưởng tiếp tục giảm tốc

Đọc ngay

Thế giới 09:15, 28/07/2026

Apple vượt Nvidia về vốn hóa, trở thành công ty đắt giá nhất thế giới

Đọc ngay

Thế giới 09:13, 28/07/2026

Tổng thống Trump: Mỹ đã thu về hơn 13 tỷ USD từ dầu Venezuela

Đọc ngay

Đọc tiếp

CXMT trở thành công ty giá trị nhất Trung Quốc sau màn chào sàn bùng nổ nhờ cơn sốt AI

Nhu cầu bùng nổ từ trí tuệ nhân tạo (AI) đang tạo động lực tăng trưởng mạnh cho ngành chip nhớ toàn cầu. Hưởng lợi từ xu hướng này, hãng sản xuất chip nhớ Trung Quốc ChangXin Memory Technologies (CXMT) đã tăng hơn 500% ngay trong phiên chào sàn, vượt ICBC để trở thành doanh nghiệp có giá trị vốn hóa lớn nhất Trung Quốc đại lục…

Apple vượt Nvidia về vốn hóa, trở thành công ty đắt giá nhất thế giới

Kết thúc phiên giao dịch ngày thứ Hai (27/7), Apple vượt qua Nvidia để giành lấy vị trí công ty niêm yết đắt giá nhất thế giới...

Niềm tin số: Nền tảng còn thiếu trong chuyển đổi ngành sản xuất Việt Nam

Trên khắp Việt Nam, các doanh nghiệp sản xuất đang đẩy mạnh chuyển đổi số nhằm nâng cao vị thế trong chuỗi giá trị toàn cầu. Từ ngành điện tử, ô tô đến bán dẫn và công nghệ cao, các công cụ như mô phỏng, cộng tác trên nền tảng đám mây và thiết kế dựa trên dữ liệu đang trở thành nền tảng nâng cao năng lực cạnh tranh và đáp ứng các tiêu chuẩn quốc tế.

Nhật Bản ra mắt "tủ lạnh cho người" giá 241 triệu đồng

Một doanh nghiệp Nhật Bản vừa giới thiệu buồng làm mát cá nhân được ví như "tủ lạnh cho người", giúp hạ thân nhiệt người ngồi bên trong chỉ sau vài phút…

GS. TS. Thái Thị Thanh Mai: Đổi mới sáng tạo bắt đầu từ việc dám đặt câu hỏi, dám thử nghiệm và dám chấp nhận điều chỉnh

Đổi mới sáng tạo không chỉ được đánh giá qua số startup hay bằng sáng chế, mà còn ở khả năng chuyển hóa tri thức thành giá trị kinh tế và tác động tích cực đối với xã hội, thông qua sự kết nối chặt chẽ giữa nghiên cứu, doanh nghiệp và thị trường…

Xem thêm

Sản phẩm - Thị trường Tài sản số Dịch vụ số Start-up Quản trị số

Đừng bỏ lỡ

Kinh tế số

Lợi nhuận ngành sản xuất chip Trung Quốc tăng hơn 2.500%

Đọc ngay

Kinh tế số

Lợi nhuận ngành sản xuất chip Trung Quốc tăng hơn 2.500%

Đọc ngay

Kinh tế số

Nhật Bản ra mắt "tủ lạnh cho người" giá 241 triệu đồng

Đọc ngay

Kinh tế số

CXMT trở thành công ty giá trị nhất Trung Quốc sau màn chào sàn bùng nổ nhờ cơn sốt AI

Đọc ngay

Thế giới

Apple vượt Nvidia về vốn hóa, trở thành công ty đắt giá nhất thế giới

Đọc ngay

Kinh tế số

Niềm tin số: Nền tảng còn thiếu trong chuyển đổi ngành sản xuất Việt Nam

Đọc ngay

Đón đọc Tạp chí Kinh tế Việt Nam số 30-2026

Mời quý độc giả đón đọc Tạp chí Kinh tế Việt Nam số 30-2026 phát hành ngày 27/07/2025 với nhiều chuyên mục hấp dẫn...

Công nghệ viễn thám nền tảng của cơ sở hạ tầng toàn cầu

Lâm nghiệp hiện là ngành sản xuất duy nhất có phát thải ròng âm. Ảnh: Hạnh Vân

Thiếu hạ tầng kỹ thuật, khó giao dịch carbon với thị trường quốc tế

Các cam kết trong Nghị định thư Montreal nhằm quản lý, loại trừ các chất làm suy giảm tầng ôzôn.

Lộ trình chuyển đổi cho doanh nghiệp theo Nghị định thư Montreal

Những cam kết trong Nghị định thư Montreal đặt ra bài toán phải chuyển đổi công nghệ cho các doanh nghiệp lĩnh vực điều hòa không khí di động, không khí gia dụng; lĩnh vực thiết bị lạnh công nghiệp, lạnh thương mại. Dự án "Quản lý bền vững các chất được kiểm soát theo Nghị định thư Montreal" vừa chính thức được khởi động nhằm hỗ trợ doanh nghiệp chuyển đổi, đáp ứng các cam kết quốc tế.

Chọn cỡ chữ

Việc sử dụng những dữ liệu tổng hợp do máy tính tạo ra để đào tạo các mô hình trí tuệ nhân tạo (AI) có nguy cơ đi đến những kết quả vô nghĩa…

Đọc bài theo từ khoá

Chủ đề

Vietnam Economic Times

Tạp chí Kinh tế Việt Nam

Askonomy