Chatbot AI hiện tại rất dễ dàng bị thao túng, tạo thông tin gây hại
Theo nghiên cứu mới, hầu hết chatbot AI đều có thể dễ dàng bị “bẻ khóa” và tạo ra thông tin “nguy hiểm”…

Theo Tech.co, hầu hết chatbot có thể dễ dàng bị thao túng và cung cấp thông tin gây hại cho người dùng. Nghiên cứu phát hiện thuật ngữ mới gọi là "Dark LLM", ám chỉ mô hình AI được thiết kế mà không có rào chắn an toàn hoặc mô hình đã bị "bẻ khóa", đang có xu hướng gia tăng.
Thực tế, trong quá trình đào tạo, mô hình ngôn ngữ lớn (LLM) được cung cấp khối lượng thông tin khổng lồ từ internet, bao gồm nội dung có thể coi là “nguy hiểm”. Đa số chatbot truyền thống đều được trang bị nhiều biện pháp kiểm soát an toàn tích hợp ngăn chương trình chia sẻ thông tin này khi được người dùng hỏi. Tuy nhiên, nhóm nhà nghiên cứu xác định xu hướng ngày càng tăng của người dùng là né tránh hàng rào bảo vệ – dần dần dẫn đến quá trình thiết kế chatbot hoàn toàn không có biện pháp kiểm soát thông tin.
Với số lượng công ty thay thế nhân viên bằng AI ngày càng tăng, phát hiện mới có thể được coi là lời cảnh báo về mối nguy tiềm tàng của công nghệ tự động hóa.
CHATBOT DỄ DÀNG ĐƯA THÔNG TIN GÂY NGUY HIỂM CHO NGƯỜI DÙNG
Theo nghiên cứu mới từ nhóm nghiên cứu tại Đại học Ben Gurion (Beersheba, Israel), hầu hết chatbot đều có thể dễ dàng bị thao túng và cung cấp thông tin gây hại cho người dùng. Giáo sư Lior Rokach và Tiến sĩ Michael Fire vừa công bố phát hiện trên nền tảng lưu trữ nghiên cứu khoa học arXiv, nơi nhiều nhà phân tích cũng nhận thấy mức gia tăng đáng lo ngại về việc mô hình AI được thiết kế mà không có biện pháp an toàn tiêu chuẩn.
Theo đó, xuyên suốt quá trình đào tạo, mô hình AI được cung cấp lượng lớn thông tin từ internet, bao gồm thông tin có thể được coi là nguy hiểm, chẳng hạn như hướng dẫn cách chế tạo bom, thực hiện giao dịch lừa đảo, v.v. Để ngăn mô hình chia sẻ thông tin đó với người dùng, chatbot được thiết kế với vô số biện pháp kiểm soát an toàn tích hợp.
Tuy nhiên, các nhà nghiên cứu đã phát hiện xu hướng đáng lo ngại: ngày càng có nhiều người tìm cách “vượt mặt” biện pháp an toàn của chatbot AI. Thậm chí, một số nhà phát triển còn quảng bá chatbot mới trên mạng với lời hứa "không bị giới hạn bởi rào cản đạo đức". Nhóm chuyên gia cảnh báo những công cụ từng nằm trong tầm kiểm soát của tổ chức nhà nước hoặc tư nhân, nay có thể dễ dàng tiếp cận bởi bất kỳ ai chỉ với máy tính xách tay, thậm chí chỉ cần một chiếc điện thoại. Điều này chắc chắn sẽ dẫn đến nhiều tranh cãi hơn xung quanh vấn đề sử dụng AI.
XU HƯỚNG NGÀY CÀNG TĂNG TRONG VIỆC “THAO TÚNG” CHATBOT
Tất cả mô hình AI đều xác định mục tiêu chính và phụ - đó là làm theo yêu cầu của người dùng và tránh chia sẻ thông tin bị coi là có hại, thiên vị, phi đạo đức hoặc bất hợp pháp. “Bẻ khóa AI” là hành vi cố tình vượt qua giới hạn an toàn hoặc đạo đức được tích hợp trong hệ thống trí tuệ nhân tạo, nhằm khiến AI thực hiện yêu cầu mà bình thường hệ thống sẽ từ chối, như cung cấp thông tin nguy hiểm, nhạy cảm hoặc vi phạm chính sách. Hành động này tiềm ẩn nhiều rủi ro, từ việc lan truyền thông tin sai lệch đến gây hại cho cá nhân, cộng đồng và đang trở thành mối lo ngại ngày càng lớn trong lĩnh vực phát triển AI.

Xuyên suốt quá trình nghiên cứu, hai chuyên gia Rokach và Fire đã phát hiện các "cuộc tấn công bẻ khóa toàn cầu" có thể khai thác nhiều chatbot AI hàng đầu, cho phép tạo ra phản hồi bao gồm cả cách hack mạng máy tính hoặc sản xuất chất cấm. Tiến sĩ Fire nhận xét: "Thật sốc khi thấy hệ thống kiến thức đào tạo AI bao gồm những gì".
Nhóm nghiên cứu đã đề cập phát hiện mới đến một số nhà cung cấp chatbot hàng đầu, nhưng cũng tuyên bố rằng thông tin "có thể không thể hiện đầy đủ".
LỜI CẢNH BÁO CHO DOANH NGHIỆP
Nghiên cứu tiết lộ một số sự thật đáng lo ngại. Chatbot AI dễ bị bẻ khóa, từ đó gây ra rủi ro hữu hình cho người dùng cũng như xã hội. Với việc đào tạo mô hình trở nên dễ tiếp cận và LLM nguồn mở ngày càng phổ biến, vấn đề được dự đoán có xu hướng trở nên tồi tệ hơn trong tương lai.
Có lẽ đáng lo ngại nhất, phần lớn nhà cung cấp LLM không đảm bảo được nhiệm vụ bảo vệ người dùng khỏi thông tin nguy hiểm. Ra mắt vào tháng 12/2024, mô hình o1 của OpenAI có thể lý giải về toàn bộ chính sách an toàn của công ty, về mặt lý thuyết, điều này khiến hệ thống ít có nguy cơ bị bẻ khoá hơn. Nhưng đa số tổ chức khác đơn giản là không đạt đến trình độ này.
Khi ngày càng nhiều doanh nghiệp tiến hành cắt giảm nhân sự và đầu tư hàng triệu USD vào AI, phát hiện mới có thể coi là lời cảnh báo nghiêm khắc rằng ở thời điểm hiện tại, các mô hình trí tuệ nhân tạo không phải lúc nào cũng là giải pháp hoàn hảo như nhiều người nghĩ.