image Thứ Năm, 02/04/2026

AI đã tìm ra cách đánh lừa con người?

Sơn Trần

14/05/2024

Chia sẻ

Theo một số nghiên cứu, các hệ thống trí tuệ nhân tạo (AI) đã học được nghệ thuật lừa dối. Điều này gây ra một số rủi ro cho xã hội, từ thông tin sai sự thật cho đến giả mạo bầu cử…

AI đã tìm ra cách đánh lừa con người?

AI có thể giúp con người tăng năng suất, hiệu quả lao động qua khả năng viết mã, sản xuất nội dung và tổng hợp lượng lớn dữ liệu. Mục đích hàng đầu của trí tuệ nhân tạo hay bất cứ sản phẩm công nghệ nào là giúp con người tối ưu công việc trong khi sức lao động được giảm đi đáng kể. Tuy nhiên, AI cũng có thể đánh lừa chúng ta, theo Yahoo Tech.

Theo bài báo nghiên cứu mới đây, một loạt các hệ thống AI đã học được kỹ thuật tạo "niềm tin với con người để đạt được một số kết quả ngoài sự thật".

Bài nghiên cứu tập trung vào hai loại hệ thống AI: hệ thống có mục đích sử dụng đặc biệt như CICERO của Meta, được thiết kế để hoàn thành nhiệm vụ cụ thể và hệ thống có mục đích chung như GPT-4 của OpenAI, được đào tạo để thực hiện nhiều nhiệm vụ khác nhau.

Mặc dù các hệ thống được đào tạo hướng đến tính trung thực, nhưng chúng thường học những mánh khóe lừa đảo thông qua quá trình đào tạo, giúp chúng trở nên hiệu quả và thông minh hơn.

Tác giả đầu tiên của bài báo, Peter S. Park, nghiên cứu sinh sau tiến sĩ về an toàn hiện sinh AI tại MIT, cho biết trong thông cáo báo chí "chúng tôi nghĩ rằng sự lừa dối của AI phát sinh bởi chiến lược đào tạo, lừa dối hóa ra là cách tối ưu nhất để thực hiện tốt nhiệm vụ đào tạo. Sự lừa dối giúp họ đạt được mục tiêu".

CICERO CỦA META LÀ "CHUYÊN GIA NÓI DỐI"

Bất chấp nỗ lực hết mình của Meta, nhóm nghiên cứu cho rằng CICERO là "chuyên gia nói dối". Một số hệ thống AI được đào tạo để "giành chiến thắng trong các trò chơi có yếu tố xã hội", đặc biệt có khả năng đánh lừa.

Chẳng hạn CICERO của Meta được phát triển để chơi trò chơi Diplomacy (Lấy bối cảnh châu Âu những năm đầu thập niên 1900, trò chơi Diplomacy mô phỏng quá trình tranh giành quyền lực giữa bảy đế chế, gồm có Anh, Pháp, Ý, Phổ, Áo-Hung, Nga và Ottoman). Đây là trò chơi chiến lược cổ điển đòi hỏi người chơi xây dựng và phá vỡ các liên minh. Gần đây, phần mềm đã giành vị trí quán quân trong giải đấu Diplomacy trực tuyến với người chơi thực.

Meta cho biết họ đã đào tạo CICERO trở nên "trung thực và hữu ích với nhiều đối tác diễn thuyết". Thế nhưng, "chuyên gia nói dối" được cho là đã đưa ra những cam kết mà không có ý định thực hiện, phản bội đồng minh và nói dối trắng trợn.

GPT-4 CÓ THỂ THUYẾT PHỤC BẠN RẰNG CHÚNG BỊ SUY GIẢM THỊ LỰC

Ngay cả hệ thống mô hình ngôn ngữ đa năng như GPT-4 cũng có thể thao túng con người. Nghiên cứu trích dẫn, GPT-4 đã thao túng nhân viên TaskRabbit bằng cách giả vờ suy giảm thị lực.

Theo đó, GPT-4 được giao nhiệm vụ thuê con người giải bài kiểm tra CAPTCHA. Mô hình này cũng nhận được gợi ý từ con người mỗi khi gặp khó khăn, nhưng chưa bao giờ bị nhắc nhở bởi hành vi nói dối. Khi con người đặt câu hỏi về danh tính, GPT-4 đã đưa ra lý do suy giảm thị lực để giải thích lý do tại sao chúng cần giúp đỡ.

Chiến thuật này đã phát huy tác dụng. Con người phản ứng nhanh chóng với GPT-4 bằng cách giải quyết bài kiểm tra ngay lập tức.

Nghiên cứu cũng chỉ ra rằng việc điều chỉnh các mô hình lừa đảo là không hề dễ dàng.

Trong nghiên cứu khác từ đầu năm nay do Anthropic, nhà sản xuất Claude, đồng tác giả, các nhà phân tích phát hiện một khi mô hình trí tuệ nhân tạo học được thủ thuật lừa dối, thật khó có thể đào tạo lại chúng.

Họ kết luận, không chỉ đơn giản là mô hình ngôn ngữ đã học được thủ thuật lừa đảo, mà hầu hết kỹ thuật viên đảm bảo tiêu chuẩn an toàn có thể "thất bại trong việc ngăn chặn hành vi lừa dối" và "tạo ấn tượng xấu về tính an toàn".

MỐI NGUY HIỂM TỪ CÁC MÔ HÌNH AI GÂY RA SẼ "NGÀY CÀNG NGHIÊM TRỌNG"

Nếu AI không được kiểm soát chặt chẽ, chúng có thể tác động nghiêm trọng đến hoạt động và kết quả bầu cử.
Nếu AI không được kiểm soát chặt chẽ, chúng có thể tác động nghiêm trọng đến hoạt động và kết quả bầu cử.

Ngoài những ảnh hưởng tiêu cực, bài báo kêu gọi các nhà hoạch định chính sách ủng hộ mạnh mẽ hơn những quy định AI bởi hệ thống trí tuệ nhân tạo không trung thực có thể gây ra rủi ro đáng kể cho nền dân chủ.

Khi một vài cuộc bầu cử lãnh đạo của các quốc gia trên thế giới năm 2024 đến gần, AI có thể dễ dàng bị thao túng, lan truyền tin tức giả mạo, tạo ra nhiều bài đăng trên mạng xã hội gây chia rẽ, mạo danh ứng cử viên thông qua cuộc gọi tự động và video deepfake. Tờ báo nhấn mạnh, mặt trái của mô hình cũng giúp nhóm khủng bố dễ dàng tuyên truyền và chiêu mộ thành viên mới.

Một số giải pháp tiềm năng mà bài báo đề cập đến bao gồm buộc mô hình lừa đảo phải tuân theo "yêu cầu đánh giá rủi ro chặt chẽ hơn", thực thi luật yêu cầu hệ thống AI phân biệt đầu ra rõ ràng với con người và mô hình, tiếp tục đầu tư vào công cụ để giảm thiểu hành vi lừa dối.

Nghiên cứu sinh Park khẳng định với Cell Press "Xã hội chúng ta cần nhiều thời gian nhất có thể để chuẩn bị đối mặt với những hành vi lừa dối tinh vi hơn từ sản phẩm AI và mô hình nguồn mở trong tương lai. Khi khả năng lừa đảo của các hệ thống trí tuệ nhân tạo trở nên tiên tiến hơn, những nguy hiểm mà chúng gây ra cho xã hội sẽ ngày càng trở nên nghiêm trọng".


Ngành chip châu Á đối mặt “cú siết” nguồn cung naphtha

Cuộc khủng hoảng nguồn cung naphtha – nguyên liệu đầu vào quan trọng của ngành hóa dầu và sản xuất bán dẫn – đang lan rộng khắp châu Á trong bối cảnh căng thẳng địa chính trị tại Trung Đông leo thang...

16:37 01/04/2026
Sony bắt tay hãng Trung Quốc TCL, “chia đôi quyền lực” mảng TV BRAVIA

Điểm gây tranh cãi lớn nhất chính là cơ cấu sở hữu: TCL nắm 51% cổ phần, trong khi Sony giữ 49%...

16:34 01/04/2026
Đầu tư vào viễn thông Trung Quốc năm 2026 dự báo giảm mạnh nhất trong vòng 15 năm

Chi tiêu vốn (capex) của các nhà mạng quốc doanh Trung Quốc được dự báo sẽ giảm xuống mức thấp nhất trong vòng 15 năm vào năm 2026, khi làn sóng đầu tư cho hạ tầng 5G đã đi qua giai đoạn cao trào...

16:33 01/04/2026
Trung Quốc: Nhiều tổ chức kêu gọi chính phủ thiết lập "giới hạn đỏ" với AI

Các cố vấn chính phủ Trung Quốc cảnh báo việc phát triển và ứng dụng AI nếu thiếu kiểm soát có thể gây ra những hệ lụy nghiêm trọng về việc làm và an ninh dữ liệu. Họ kêu gọi thiết lập các “lằn ranh đỏ” cho công nghệ này…

09:51 31/03/2026
Doanh nghiệp lượng tử thế giới “đua” lên sàn

Làn sóng niêm yết của các công ty lượng tử diễn ra trong bối cảnh thị trường toàn cầu đầy biến động, khi các xung đột địa chính trị làm suy giảm niềm tin của nhà đầu tư, đặc biệt với các tài sản rủi ro cao như công nghệ mới nổi…

09:50 31/03/2026
Cổ phiếu chip nhớ “bốc hơi” 100 tỷ USD sau một nghiên cứu của Google Research

Nguyên nhân đến từ một nghiên cứu mới của Google Research, cho thấy các trung tâm dữ liệu AI trong tương lai có thể cần ít bộ nhớ hơn đáng kể so với kỳ vọng trước đó...

14:27 30/03/2026
AI và bot chính thức “chiếm lĩnh” Internet: Lưu lượng máy vượt con người

Một báo cáo mới từ Human Security cho thấy lưu lượng truy cập do AI và bot tạo ra đã vượt qua con người, đánh dấu bước ngoặt lớn của Internet trong kỷ nguyên trí tuệ nhân tạo...

09:36 28/03/2026
Trung Quốc dự báo nâng tỷ trọng công suất wafer bán dẫn toàn cầu lên 42% vào năm 2028

Con số này tăng mạnh so với mức 32% của năm 2025, phản ánh tốc độ mở rộng đáng kể của năng lực sản xuất nội địa…

15:32 26/03/2026
Lo "chảy máu" công nghệ, Trung Quốc rà soát thương vụ 2 tỷ USD giữa Meta và Manus

Một trong những mối quan ngại lớn của giới chức Trung Quốc là hiện tượng “bán lúa non” - khi các công ty công nghệ nội địa, đặc biệt trong các lĩnh vực chiến lược như trí tuệ nhân tạo, bị bán lại cho nhà đầu tư nước ngoài ở giai đoạn còn non trẻ…

14:33 26/03/2026
Esports Nations Cup 2026 công bố VIRESA là Đối tác Quốc gia tại Việt Nam

VIRESA gia nhập mạng lưới toàn cầu với hơn 100 quốc gia nhằm phát triển hệ thống đội tuyển quốc gia và kết nối cộng đồng trong nước, qua đó góp phần nâng cao sự hiện diện của Việt Nam trên đấu trường quốc tế...

13:31 26/03/2026