image Thứ Bảy, 11/04/2026

Sự cần thiết của tính trung lập trong bộ dữ liệu: Hạn chế thành kiến trong dữ liệu AI

22/08/2023

Chia sẻ

Trong thời đại trí tuệ nhân tạo ngày càng được tích hợp mạnh mẽ trong nhiều khía cạnh của cuộc sống, những vấn đề về nội dung như phân biệt chủng tộc, bất bình đẳng, v.v. của dữ liệu cần được sớm giải quyết…

Xử lý các thành kiến trong AI: Sự cần thiết của tính trung lập trong bộ dữ liệu
Xử lý các thành kiến trong AI: Sự cần thiết của tính trung lập trong bộ dữ liệu

Amazon từng buộc phải dừng hoạt động một công cụ đánh giá đơn xin việc bằng công nghệ AI vì hệ thống này thể hiện sự thiên vị đối với các ứng viên nam. Trường hợp của Amazon chỉ là một trong nhiều hệ thống AI bị lên án vì phân biệt đối xử. Chính vì vậy, khi AI ngày càng trở nên phổ biến, việc giải quyết những sai lệch trong bộ dữ liệu càng trở nên cấp bách hơn.

NHỮNG THÀNH KIẾN TRONG AI 

AI tạo sinh sử dụng mạng thần kinh để phân tích và phân biệt các mẫu trong bộ dữ liệu. Điều này cho phép hệ thống tạo nội dung ở nhiều định dạng khác nhau dựa trên dữ liệu được phân tích.

Mặc dù các công ty như OpenAI và Google không tiết lộ đầy đủ các bộ dữ liệu được sử dụng để đào tạo các mô hình AI của họ, nhưng nhìn chung, ChatGPT và Bard đều hoạt động trên các mô hình được đào tạo bằng các nguồn internet, bao gồm các diễn đàn công khai, bài viết Wikipedia, tài liệu web, v.v.

Các mô hình AI, đặc biệt là các mô hình ngôn ngữ lớn, thường dựa vào các nguồn internet nhằm đảm bảo khối lượng dữ liệu khổng lồ cần thiết để đào tạo. Tuy nhiên, những thông tin không thể kiểm chứng này dẫn đến kết quả đầu ra có thể xuyên tạc thực tế hoặc phản ánh những định kiến tiêu cực. Một nghiên cứu gần đây tiết lộ các mô hình ngôn ngữ khác nhau thể hiện những thành kiến khác biệt tùy thuộc vào các bộ dữ liệu được sử dụng để huấn luyện các mô hình, chẳng hạn như các mô hình BERT của Google bảo thủ về mặt xã hội do được đào tạo dựa trên các cuốn sách cũ.

Ngoài ra, mặc dù các công cụ dựa trên mô hình AI như ChatGPT và Bard đều đang cho thấy khả năng thành thạo trong tương tác nội ngữ và liên ngôn ngữ, nhưng chúng có thể không nắm bắt được đầy đủ các sắc thái phức tạp của các ngôn ngữ ít được sử dụng như tiếng Uyghur, tiếng Telugu và tiếng Urdu vì thiếu tài nguyên để nghiên cứu. 

Bloomberg đã thực hiện một nghiên cứu để khám phá những thành kiến trong nội dung do AI tạo ra bằng cách sử dụng mô hình chuyển văn bản thành hình ảnh. Họ phát hiện ra những thành kiến rõ ràng: hình ảnh được tạo ra của những người làm công việc được trả lương cao chủ yếu có tông màu da sáng, trong khi những người lao động có mức lương thấp hơn thường có tông màu da tối. 

Theo KR Asia, trong năm 2026, ước tính 90% nội dung trực tuyến được dự đoán là do AI tạo ra. Chính vì vậy, nếu không kiểm soát kỹ lưỡng, các mô hình này có thể vô tình bình thường hóa các thành kiến vốn có trong bộ dữ liệu của chúng.

TIẾP CẬN TOÀN DIỆN ĐỂ GIẢI QUYẾT SỰ THIÊN VỊ 

Để xây dựng một bộ dữ liệu vừa đa dạng vừa chính xác, nỗ lực này đòi hỏi các nhà phát triển cần chủ động đáp ứng các quy định về quyền riêng tư dữ liệu và các ràng buộc tài chính liên quan đến việc thu thập dữ liệu.

Các nhà phát triển của những mô hình này có thể không tiết lộ đầy đủ dữ liệu và thuật toán của họ, dẫn đến những khó khăn trong việc xác định và khắc phục những sai lệch của thông tin dữ liệu. 

Yifan Jia, nhà sáng lập AIDX TECH, tin rằng cần thực sự chú trọng giai đoạn đào tạo các mô hình AI nếu muốn cố gắng loại bỏ những dữ liệu sai lệch. “Nên thường xuyên đánh giá dữ liệu đào tạo để phát hiện sai sót tiềm ẩn bằng cách sử dụng các chỉ số công bằng và các công cụ chuyên dụng được thiết kế để phát hiện ra sự chênh lệch. Ngoài ra, kiểm toán bên ngoài và đánh giá của bên thứ ba có thể đóng một vai trò trong việc phát hiện những thành kiến tiềm ẩn”, Jia nói.

Những tiến bộ liên tục của AI nhấn mạnh nhu cầu cấp của việc kiểm soát tính chính xác và khách quan của nội dung. Bên cạnh đội ngũ các nhà phát triển AI, người dùng cũng có thể đóng một vai trò quan trọng điều chỉnh các thiết kế và hành vi của mô hình AI. Chắc chắn đây sẽ là nhiệm vụ yêu cầu nhiều thời gian, chính vì vậy, đòi hỏi phải có các giải pháp sáng tạo và nỗ lực phối hợp để tăng hiệu suất hoàn thành. 

Hiện nay, sách trắng của EU về AI và báo cáo của Trung Quốc về quản lý AI tạo sinh được đánh giá là một trong những tài liệu căn cứ quan trọng cho các công ty phát triển AI. Tuy nhiên, cần có nhiều hơn nữa những sáng kiến thiết thực để cải thiện chất lượng và tính đa dạng của dữ liệu được sử dụng để huấn luyện các mô hình AI, hạn chế việc AI cung cấp những thông tin thành kiến trong tương lai… 


Trải nghiệm nhân viên: "Chìa khoá" giữ chân nhân tài trong kỷ nguyên số

Trong bối cảnh cạnh tranh nhân tài ngày càng gay gắt, trải nghiệm nhân viên (EX – Employee Experience) được đánh giá không chỉ là một xu hướng, mà đang trở thành yếu tố cốt lõi quyết định sự gắn bó, giữ chân nhân tài và hiệu suất của đội ngũ…

10:26 10/04/2026
Canva đẩy mạnh AI Agent và tự động hóa marketing qua hàng loạt thương vụ thâu tóm

Các vụ mua lại được kỳ vọng giúp Canva gia tăng sức mạnh vượt trội về tác nhân AI (AI Agent), hạ tầng dữ liệu và khả năng tương tác khách hàng, từ đó giúp hãng tiến hóa mạnh mẽ từ một công cụ thiết kế đơn thuần trở thành một hệ thống toàn diện...

10:25 10/04/2026
Trung Quốc chính thức vận hành trung tâm dữ liệu dưới nước, giải "cơn khát năng lượng" cho AI

Công trình được đặt ở độ sâu 10 mét dưới mặt nước. Tổng vốn đầu tư lên tới 1,6 tỷ nhân dân tệ (khoảng 232 triệu USD), với công suất thiết kế đạt 24 MW...

10:25 10/04/2026
Việt Nam là thị trường trung tâm dữ liệu mới nổi của châu Á - Thái Bình Dương

Việt Nam đang thu hút sự quan tâm như một thị trường hạ tầng số mới nổi, được hỗ trợ bởi chi phí xây dựng cạnh tranh và tiềm năng tăng trưởng dài hạn…

10:49 07/04/2026
Công ty Nhật Bản theo đuổi giấc mơ sản xuất chip trên Mặt Trăng

Không chỉ đặt mục tiêu chen chân vào nhóm dẫn đầu ngành bán dẫn toàn cầu, Rapidus, công ty được Chính phủ Nhật Bản hậu thuẫn, còn theo đuổi một giấc mơ táo bạo hơn: xây dựng nhà máy sản xuất chip trên Mặt Trăng...

10:49 07/04/2026
Giải mã những điểm khác biệt trong vòng gọi vốn mới nhất của OpenAI

OpenAI lần đầu tiên mở rộng sự tham gia cho nhà đầu tư thông qua các kênh ngân hàng trong vòng gọi vốn kỷ lục mới đây…

16:07 04/04/2026
Nhà sản xuất robot hình người lớn nhất thế giới chuẩn bị IPO

Dù robot hình người vẫn còn cách khá xa việc phổ cập đại trà, nhưng doanh nghiệp dẫn đầu trong lĩnh vực này đã sẵn sàng bước lên sàn chứng khoán...

16:44 03/04/2026
Năm tài chính 2026: CMC đặt mục tiêu tăng trưởng doanh thu trên 20% mỗi năm

Với định vị là công ty số toàn cầu, tập đoàn công nghệ này phát triển trên ba trụ cột công nghệ chiến lược gồm hạ tầng AI, an ninh bảo mật và giải pháp AI...

17:20 02/04/2026
Máy tính lượng tử có thể phá vỡ lớp mã hóa bảo vệ crypto

Các nhà nghiên cứu của Google vừa đưa ra cảnh báo đáng chú ý: trong tương lai, máy tính lượng tử có thể phá vỡ các lớp mã hóa đang bảo vệ Bitcoin và nhiều tài sản số khác...

17:20 02/04/2026
Từ sân chơi robot và STEM: Học sinh Việt ra đấu trường công nghệ toàn cầu

Cuộc thi robot FIRST® LEGO® League Vietnam Championship 2026 đang phản ánh rõ nét sự chuyển động của giáo dục STEM tại Việt Nam – nơi học sinh ngày càng tiếp cận sớm với công nghệ, tư duy kỹ thuật và các chuẩn mực đổi mới sáng tạo toàn cầu...

15:32 02/04/2026