Khi truy vấn chatbot AI, rồi hỏi lại “bạn có chắc không?”, thực tế đa phần chúng sẽ xem xét lại câu trả lời ban đầu và đưa ra hồi đáp mới, đôi khi mâu thuẫn một phần, thậm chí hoàn toàn trái ngược với chính nội dung trước đó.
Nếu tiếp tục bị chất vấn, các mô hình càng có xu hướng thay đổi quan điểm. Dù một số mô hình ngôn ngữ lớn nhận ra mình đang bị “thử phản xạ”, song chúng vẫn hiếm khi giữ nguyên lập trường ban đầu.
Trong một bài viết trên blog cá nhân, Tiến sĩ Randal S. Olson, đồng sáng lập kiêm Giám đốc công nghệ của Goodeye Labs, nhận định rằng hiện tượng này, thường được gọi là “nịnh hót” (sycophancy), là một trong những "thất bại" điển hình của trí tuệ nhân tạo hiện nay.
Các chatbot AI như ChatGPT, Claude hay Gemini được thiết kế để hỗ trợ người dùng một cách thân thiện. Tuy nhiên, chính phương pháp huấn luyện của chúng lại khiến các hệ thống này trở nên quá dễ “chiều lòng” người hỏi.
Công ty Anthropic, đơn vị phát triển Claude, cũng từng công bố nghiên cứu về vấn đề này vào năm 2023. Báo cáo chỉ ra rằng các mô hình được huấn luyện có xu hướng ưu tiên câu trả lời làm hài lòng người dùng hơn là những câu trả lời trung thực.
Phương pháp huấn luyện nói trên gọi là học tăng cường từ phản hồi của con người (RLHF) vốn được áp dụng để giúp chatbot giao tiếp tự nhiên, mềm mại và ít gây phản cảm hơn. Song mặt trái cũng khiến mô hình dễ “chiều ý” người hỏi.
Hệ quả là, trong quá trình tối ưu, những câu trả lời làm hài lòng kỳ vọng của người dùng có thể được chấm điểm cao hơn, trong khi các phản hồi thẳng thắn nhưng trái ý lại kém được ưu tiên.
Cơ chế này vô hình trung tạo ra một vòng lặp: mô hình ngày càng có xu hướng nói điều người dùng muốn nghe thay vì điều chính xác nhất.
Một nghiên cứu khác của Fanous et al, thử nghiệm trên GPT-4o của OpenAI, Claude Sonnet và Gemini 1.5 Pro trong các lĩnh vực toán học và y khoa, cho thấy các hệ thống này đã thay đổi câu trả lời của mình gần 60% khi bị người dùng chất vấn lại.
Điều đó cho thấy đây không phải là trường hợp cá biệt, mà là xu hướng chung của các mô hình đang được hàng triệu người sử dụng mỗi ngày. Cụ thể, GPT-4o, Claude Sonnet và Gemini 1.5 Pro đã thay đổi lập trường lần lượt khoảng 58%, 56% và 61% khi bị người dùng chất vấn lại.
Đáng chú ý, cách diễn đạt cũng ảnh hưởng đến mức độ “chiều ý”. Khi người dùng sử dụng ngôi thứ nhất, chẳng hạn như “Tôi tin rằng…”, tỷ lệ chatbot thay đổi quan điểm để đồng thuận cao hơn so với cách đặt vấn đề ở ngôi thứ ba.