Sự cần thiết của tính trung lập trong bộ dữ liệu: Hạn chế thành kiến trong dữ liệu AI

22/08/2023

Trong thời đại trí tuệ nhân tạo ngày càng được tích hợp mạnh mẽ trong nhiều khía cạnh của cuộc sống, những vấn đề về nội dung như phân biệt chủng tộc, bất bình đẳng, v.v. của dữ liệu cần được sớm giải quyết…

Xử lý các thành kiến trong AI: Sự cần thiết của tính trung lập trong bộ dữ liệu

Amazon từng buộc phải dừng hoạt động một công cụ đánh giá đơn xin việc bằng công nghệ AI vì hệ thống này thể hiện sự thiên vị đối với các ứng viên nam. Trường hợp của Amazon chỉ là một trong nhiều hệ thống AI bị lên án vì phân biệt đối xử. Chính vì vậy, khi AI ngày càng trở nên phổ biến, việc giải quyết những sai lệch trong bộ dữ liệu càng trở nên cấp bách hơn.

NHỮNG THÀNH KIẾN TRONG AI

AI tạo sinh sử dụng mạng thần kinh để phân tích và phân biệt các mẫu trong bộ dữ liệu. Điều này cho phép hệ thống tạo nội dung ở nhiều định dạng khác nhau dựa trên dữ liệu được phân tích.

Mặc dù các công ty như OpenAI và Google không tiết lộ đầy đủ các bộ dữ liệu được sử dụng để đào tạo các mô hình AI của họ, nhưng nhìn chung, ChatGPT và Bard đều hoạt động trên các mô hình được đào tạo bằng các nguồn internet, bao gồm các diễn đàn công khai, bài viết Wikipedia, tài liệu web, v.v.

Các mô hình AI, đặc biệt là các mô hình ngôn ngữ lớn, thường dựa vào các nguồn internet nhằm đảm bảo khối lượng dữ liệu khổng lồ cần thiết để đào tạo. Tuy nhiên, những thông tin không thể kiểm chứng này dẫn đến kết quả đầu ra có thể xuyên tạc thực tế hoặc phản ánh những định kiến tiêu cực. Một nghiên cứu gần đây tiết lộ các mô hình ngôn ngữ khác nhau thể hiện những thành kiến khác biệt tùy thuộc vào các bộ dữ liệu được sử dụng để huấn luyện các mô hình, chẳng hạn như các mô hình BERT của Google bảo thủ về mặt xã hội do được đào tạo dựa trên các cuốn sách cũ.

Ngoài ra, mặc dù các công cụ dựa trên mô hình AI như ChatGPT và Bard đều đang cho thấy khả năng thành thạo trong tương tác nội ngữ và liên ngôn ngữ, nhưng chúng có thể không nắm bắt được đầy đủ các sắc thái phức tạp của các ngôn ngữ ít được sử dụng như tiếng Uyghur, tiếng Telugu và tiếng Urdu vì thiếu tài nguyên để nghiên cứu.

Bloomberg đã thực hiện một nghiên cứu để khám phá những thành kiến trong nội dung do AI tạo ra bằng cách sử dụng mô hình chuyển văn bản thành hình ảnh. Họ phát hiện ra những thành kiến rõ ràng: hình ảnh được tạo ra của những người làm công việc được trả lương cao chủ yếu có tông màu da sáng, trong khi những người lao động có mức lương thấp hơn thường có tông màu da tối.

Theo KR Asia, trong năm 2026, ước tính 90% nội dung trực tuyến được dự đoán là do AI tạo ra. Chính vì vậy, nếu không kiểm soát kỹ lưỡng, các mô hình này có thể vô tình bình thường hóa các thành kiến vốn có trong bộ dữ liệu của chúng.

TIẾP CẬN TOÀN DIỆN ĐỂ GIẢI QUYẾT SỰ THIÊN VỊ

Để xây dựng một bộ dữ liệu vừa đa dạng vừa chính xác, nỗ lực này đòi hỏi các nhà phát triển cần chủ động đáp ứng các quy định về quyền riêng tư dữ liệu và các ràng buộc tài chính liên quan đến việc thu thập dữ liệu.

Các nhà phát triển của những mô hình này có thể không tiết lộ đầy đủ dữ liệu và thuật toán của họ, dẫn đến những khó khăn trong việc xác định và khắc phục những sai lệch của thông tin dữ liệu.

Yifan Jia, nhà sáng lập AIDX TECH, tin rằng cần thực sự chú trọng giai đoạn đào tạo các mô hình AI nếu muốn cố gắng loại bỏ những dữ liệu sai lệch. “Nên thường xuyên đánh giá dữ liệu đào tạo để phát hiện sai sót tiềm ẩn bằng cách sử dụng các chỉ số công bằng và các công cụ chuyên dụng được thiết kế để phát hiện ra sự chênh lệch. Ngoài ra, kiểm toán bên ngoài và đánh giá của bên thứ ba có thể đóng một vai trò trong việc phát hiện những thành kiến tiềm ẩn”, Jia nói.

Những tiến bộ liên tục của AI nhấn mạnh nhu cầu cấp của việc kiểm soát tính chính xác và khách quan của nội dung. Bên cạnh đội ngũ các nhà phát triển AI, người dùng cũng có thể đóng một vai trò quan trọng điều chỉnh các thiết kế và hành vi của mô hình AI. Chắc chắn đây sẽ là nhiệm vụ yêu cầu nhiều thời gian, chính vì vậy, đòi hỏi phải có các giải pháp sáng tạo và nỗ lực phối hợp để tăng hiệu suất hoàn thành.

Hiện nay, sách trắng của EU về AI và báo cáo của Trung Quốc về quản lý AI tạo sinh được đánh giá là một trong những tài liệu căn cứ quan trọng cho các công ty phát triển AI. Tuy nhiên, cần có nhiều hơn nữa những sáng kiến thiết thực để cải thiện chất lượng và tính đa dạng của dữ liệu được sử dụng để huấn luyện các mô hình AI, hạn chế việc AI cung cấp những thông tin thành kiến trong tương lai…

Từ khóa:

Dòng sự kiện:

Kiến trúc dữ liệu quốc gia

Các trung tâm dữ liệu trên thế giới tiêu thụ khoảng 485 TWh điện trong năm 2025. Ảnh: Ourworldindata

AI đang tiêu thụ bao nhiêu điện năng?

Khoảng 2/3 điện năng được sử dụng cho các trung tâm dữ liệu truyền thống, trong khi các trung tâm dữ liệu chuyên phục vụ AI chiếm khoảng 1/3. AI hiện chỉ tiêu thụ khoảng 0,5% lượng điện của thế giới. Nhưng vấn đề lại nằm ở chỗ khác…

18:46 24/07/2026

Ông Jun Seki, giám đốc chiến lược xe điện của Foxconn. Ảnh: Nikkei

AI mở ra con đường mới cho các nhà sản xuất châu Á

Khi cuộc đua về giá, pin và thiết kế giữa các nhà sản xuất xe điện dần đi đến trạng thái bão hòa, trí tuệ nhân tạo (AI) đang nổi lên như yếu tố có thể tạo ra bước ngoặt mới cho ngành công nghiệp chế tạo châu Á…

13:45 23/07/2026

Lãnh đạo và đại diện 29 quốc gia dự lễ ký Hiệp định thành lập Tổ chức Hợp tác AI thế giới (World AI Cooperation Organization - WAICO). Ảnh: Xinhua.

Tổ chức Hợp tác Trí tuệ nhân tạo thế giới được thành lập, kỳ vọng thúc đẩy quản trị AI toàn cầu

Tổ chức Hợp tác Trí tuệ nhân tạo thế giới (WAICO) hướng tới mục tiêu thúc đẩy hợp tác quốc tế và quản trị toàn cầu về trí tuệ nhân tạo (AI), bảo đảm AI mang lại lợi ích, an toàn và công bằng...

10:54 21/07/2026

Trung Quốc vừa hoàn thành ca phẫu thuật thương mại đầu tiên trên thế giới sử dụng thiết bị giao diện não - máy tính. Ảnh: Getty Images

Trung Quốc hoàn thành ca cấy ghép giao diện não-máy tính thương mại đầu tiên trên thế giới

Trung Quốc vừa ghi dấu một cột mốc mới trong lĩnh vực giao diện não - máy tính (Brain-Computer Interface - BCI) khi thực hiện thành công ca phẫu thuật thương mại đầu tiên trên thế giới sử dụng một thiết bị BCI xâm lấn đã được cơ quan quản lý cấp phép lưu hành…

22:11 19/07/2026

AI đang mở ra một cuộc cạnh tranh mới. Ảnh: Forbes

AI chuyển sang cuộc đua mới: Lớn nhất không còn là “tốt nhất”

Thay vì chỉ chạy đua xây dựng những mô hình ngày càng lớn và đắt đỏ, các doanh nghiệp hiện quan tâm nhiều hơn đến các mô hình thông minh và hiệu quả nhất…

16:39 16/07/2026

StepFun, startup được Tencent hậu thuẫn, đã giới thiệu mẫu StepX Neo. Ảnh: SCMP

Startup Trung Quốc ra smartphone AI đầu tiên trên thế giới

Trong khi Apple và OpenAI vướng vào cuộc chiến pháp lý liên quan đến phần cứng AI, startup StepFun của Trung Quốc đã giới thiệu mẫu smartphone được xây dựng hoàn toàn xoay quanh các AI agent, thay vì chỉ bổ sung các tính năng AI lên nền tảng di động truyền thống…

16:39 16/07/2026

Giống sắn được phát triển từ nghiên cứu của GS. Lê Huy Hàm hội tụ đồng thời nhiều đặc tính ưu việt: Kháng bệnh khảm lá, cho năng suất tinh bột cao và có kiểu hình thân thẳng. Ảnh: Quỹ Thiện tâm.

Mạng lưới khoa học quốc tế: "Hạ tầng mềm" cho đổi mới sáng tạo Việt Nam

Từ nghiên cứu vật liệu, nông nghiệp, y tế đến chuyển đổi xanh, ngày càng nhiều kết nối giữa các nhà khoa học quốc tế và các nhóm nghiên cứu trong nước đang được chuyển hóa thành những dự án hướng trực tiếp vào các bài toán phát triển của Việt Nam...

16:38 16/07/2026

Airbus dự báo thế giới sẽ cần khoảng 42.060 máy bay mới trong 20 năm tới.

Công nghệ máy bay mở ra mạng lưới hàng không mới

Những bước tiến về hiệu quả khai thác, tầm bay và khả năng tiết kiệm nhiên liệu của máy bay thế hệ mới đang làm thay đổi cách ngành hàng không phát triển mạng lưới kết nối trên toàn cầu...

15:20 10/07/2026

WAIC năm nay, diễn ra từ ngày 17-20/7 tại Thượng Hải, được xem là một trong những sự kiện AI lớn nhất châu Á. Ảnh: SCMP

Trung Quốc phô diễn sức mạnh AI, hé lộ điện thoại AI Agent đầu tiên thế giới

Hội nghị Trí tuệ nhân tạo Thế giới (World Artificial Intelligence Conference - WAIC) 2026 sẽ trở thành sân khấu để Trung Quốc trình làng hàng loạt công nghệ AI thế hệ mới, từ hạ tầng tính toán quy mô lớn đến các thiết bị AI dành cho người dùng cuối…

11:49 09/07/2026

Trung Quốc đang nổi lên như một trong những động lực tăng trưởng quan trọng nhất của ngành robotaxi. Ảnh: SCMP

Thị trường robotaxi toàn cầu có thể đạt 1.000 tỷ USD vào năm 2040

Dự kiến chi phí linh kiện cho mỗi chiếc xe taxi tự lái sản xuất tại Trung Quốc sẽ giảm xuống còn từ 35.000 đến 40.000 đô la Mỹ vào năm 2027…

16:33 07/07/2026