Đại học Stanford: AI đang phát triển khả năng giống con người
Tốc độ tiến bộ đáng kinh ngạc của AI đang cho thấy khả năng suy luận giống như con người, đặt ra câu hỏi về tương lai của loại công nghệ này…
Các mô hình ngôn ngữ lớn (LLMs), như ChatGPT-4, gần đây được phát hiện ra rằng có khả năng trong việc giải quyết các nhiệm vụ, yêu cầu mà vốn thường được sử dụng để đánh giá năng lực con người, theo trang PsyPost đưa tin.
Một nhà tâm lý học tính toán (computational psychologist) – ngành về phân tích chức năng, tâm trí thông qua việc phát triển các mô hình tính toán – từ Đại học Stanford cho biết, báo cáo cho thấy ChatGPT-4 đã thành công trong 75% các nhiệm vụ này, ngang bằng với khả năng của một đứa trẻ trung bình sáu tuổi.
Phát hiện này cho thấy những bước tiến lớn trong khả năng suy luận xã hội của trí tuệ nhân tạo (AI).
Các mô hình ngôn ngữ lớn là các hệ thống trí tuệ nhân tạo tiên tiến được thiết kế để xử lý và tạo ra văn bản giống như con người. Kết quả này được thực hiện bằng cách phân tích các mẫu dữ liệu khổng lồ chứa ngôn ngữ từ sách, trang web và các nguồn khác. Những mô hình này dự đoán từ hoặc cụm từ tiếp theo trong một chuỗi dựa trên ngữ cảnh được cung cấp, cho phép chúng tạo ra các phản hồi mạch lạc và phù hợp với ngữ cảnh.
Mặt khác, lý thuyết về tâm trí (theory of mind) đề cập đến khả năng hiểu và suy luận trạng thái tâm lý của người khác, chẳng hạn như niềm tin, mong muốn, ý định và cảm xúc của con người, ngay cả khi những trạng thái này khác với trạng thái bên trong.
Kỹ năng này rất quan trọng trong việc điều hướng các tương tác xã hội, vì nó cho phép con người thể hiện sự đồng cảm, giao tiếp hiệu quả và lập luận có đạo đức. Khả năng này được phát triển ở con người từ khi còn nhỏ, đóng vai trò trung tâm trong nhận thức và xã hội của một người.
“Nghiên cứu trước đây của tôi tập trung vào các thuật toán được thiết kế để dự đoán hành vi của con người. Các hệ thống đề xuất, thuật toán tìm kiếm và các mô hình dự đoán dựa trên dữ liệu lớn (big data) khác rất xuất sắc trong việc suy luận từ các dấu vết hành vi để dự báo sở thích của một cá nhân, chẳng hạn như các trang web một người truy cập, âm nhạc họ nghe hoặc sản phẩm họ mua”, tác giả nghiên cứu Michal Kosinski, Phó giáo sư về hành vi tổ chức tại Đại học Stanford, giải thích.
“Điều thường bị bỏ qua, và tôi cũng từng bỏ qua lúc ban đầu, là các thuật toán này làm được nhiều hơn việc chỉ mô hình hóa hành vi. Vì hành vi bắt nguồn từ các quá trình tâm lý, việc dự đoán hành vi đòi hỏi phải mô hình hóa các quá trình cơ bản đó”.
Ông Kosinski giải thích: “Khi tạo ra ngôn ngữ, con người dựa vào nhiều yếu tố hơn là chỉ kiến thức ngôn ngữ hoặc ngữ pháp. Ngôn ngữ của chúng ta phản ánh một loạt các quá trình tâm lý, bao gồm lý luận, tính cách và cảm xúc. Do đó, để một LLM có thể dự đoán từ tiếp theo trong một câu do con người tạo ra, nó phải mô hình hóa những quá trình này. Kết quả là, các LLM không chỉ đơn thuần là các mô hình ngôn ngữ - chúng thực chất là các mô hình về tâm trí con người”.
Để đánh giá liệu các LLM có thể hiện khả năng lý thuyết về tâm trí hay không, ông Kosinski đã sử dụng các bài kiểm tra về niềm tin sai lầm – một phương pháp tiêu chuẩn trong nghiên cứu tâm lý học để đánh giá lý thuyết về tâm trí ở con người.
Ông Kosinski đã kiểm tra 11 mô hình ngôn ngữ lớn, từ các phiên bản ban đầu như GPT-1 đến các mô hình tiên tiến hơn như ChatGPT-4.
Kết quả cho thấy, các mô hình ban đầu, như GPT-1 và GPT-2, hoàn toàn thất bại trong việc giải quyết các nhiệm vụ, không thể hiện bất kỳ khả năng nào trong suy luận hoặc mô phỏng trạng thái tâm lý của người khác.
Sự cải thiện dần dần được quan sát ở các biến thể GPT-3, với phiên bản tiên tiến nhất giải được tới 20% nhiệm vụ. Hiệu suất này tương đương với khả năng trung bình của một đứa trẻ ba tuổi khi thực hiện các nhiệm vụ tương tự.
Đáng chú ý, đột phá thực sự đến với ChatGPT-4 khi mô hình này đã giải được tới 75% các nhiệm vụ, đạt mức hiệu suất tương đương với một đứa trẻ sáu tuổi.
“Điều làm tôi ngạc nhiên nhất là tốc độ tiến bộ đáng kinh ngạc”, Kosinski nói với PsyPost. “Khả năng của các mô hình kế tiếp dường như tăng theo cấp số nhân. Những mô hình được coi là đột phá chỉ một năm trước giờ đây cảm thấy thô sơ và lỗi thời. Có rất ít bằng chứng cho thấy tốc độ phát triển nhanh chóng này sẽ chậm lại trong tương lai gần”.
LIỆU AI SẼ CÓ Ý THỨC NHƯ CON NGƯỜI HAY KHÔNG?
Để xác nhận thêm các phát hiện, ông Kosinski đã tiến hành phân tích sâu hơn, trình bày các câu chuyện trong nhiệm vụ một cách tuần tự.
Phân tích từng bước này làm nổi bật khả năng của ChatGPT-4 trong việc cập nhật dự đoán khi có thêm thông tin mới. Khi được trình bày câu chuyện từng câu một, mô hình này thể hiện sự hiểu biết rõ ràng về cách kiến thức của nhân vật chính và kết quả dự báo thay đổi với từng chi tiết trong câu chuyện. Việc theo dõi trạng thái tâm lý động này rất giống với quá trình lý luận được quan sát ở con người khi họ thực hiện các nhiệm vụ tương tự.
Những phát hiện này gợi ý rằng các mô hình ngôn ngữ lớn, đặc biệt là ChatGPT-4, thể hiện khả năng mới nổi trong việc mô phỏng lý luận giống lý thuyết về tâm trí. Mặc dù hiệu suất của các mô hình vẫn chưa đạt đến mức hoàn hảo, nghiên cứu nhấn mạnh một bước tiến lớn trong khả năng điều hướng các nhiệm vụ lý luận có liên quan đến xã hội.
“Khả năng tiếp nhận quan điểm của người khác, được gọi là lý thuyết về tâm trí ở con người, là một trong nhiều khả năng mới nổi được quan sát ở các hệ thống AI hiện đại”, Kosinski nhấn mạnh. “Những mô hình này, được huấn luyện để mô phỏng hành vi con người, đang tiến bộ nhanh chóng trong các nhiệm vụ yêu cầu lý luận, hiểu và biểu đạt cảm xúc, lập kế hoạch, chiến lược, và thậm chí là ảnh hưởng đến người khác”.
Mặc dù đạt được hiệu suất ấn tượng, ChatGPT-4 vẫn thất bại trong việc giải 25% số nhiệm vụ, cho thấy một số hạn chế trong khả năng hiểu của mô hình. Nguyên nhân có thể xuất phát từ việc mô hình dựa vào các chiến lược không thực sự liên quan đến việc tiếp nhận quan điểm.
“Sự tiến bộ của AI trong những lĩnh vực từng được coi là chỉ thuộc về con người rõ ràng gây nhiều bối rối”, Kosinski chia sẻ với PsyPost. “Ví dụ, chúng ta nên diễn giải như thế nào về khả năng của các LLM trong việc thực hiện các nhiệm vụ mà ở con người, những hành vi được coi này là bằng chứng cho lý thuyết về tâm trí. Vậy chúng ta có nên gán khả năng tương tự cho các LLM không?”
Ông nói thêm, những người hoài nghi cho rằng các mô hình này chỉ dựa vào việc nhận diện mẫu. Tuy nhiên, có thể phản biện rằng bản thân trí thông minh của con người cũng chỉ là ‘nhận diện mẫu.’ Kỹ năng và khả năng của chúng ta không tự nhiên xuất hiện mà bắt nguồn từ khả năng của não bộ trong việc nhận biết và suy diễn từ các mẫu trong ‘dữ liệu huấn luyện’.
Các nghiên cứu trong tương lai có thể khám phá liệu các khả năng lý thuyết về tâm trí rõ ràng của AI có mở rộng sang những kịch bản phức tạp hơn liên quan đến nhiều nhân vật hoặc các niềm tin xung đột hay không.
Cùng với đó, các nhà nghiên cứu cũng có thể điều tra cách những khả năng này phát triển trong các hệ thống AI khi chúng được huấn luyện trên các tập dữ liệu ngày càng đa dạng và tinh vi.
Quan trọng hơn, hiểu được cơ chế đằng sau những khả năng mới nổi này có thể giúp phát triển AI an toàn hơn và làm sáng tỏ sự hiểu biết về nhận thức con người.
“Sự nổi lên nhanh chóng của các khả năng giống con người ở AI đặt ra những câu hỏi sâu sắc về khả năng AI có ý thức”, Kosinski nói hoài nghi. “Liệu AI có bao giờ trở nên có ý thức, và điều đó sẽ trông như thế nào?”
“Và đó thậm chí không phải câu hỏi thú vị nhất. Ý thức có lẽ sẽ không phải là thành tựu cuối cùng của các mạng nơ-ron trong vũ trụ của chúng ta. Chúng ta có thể sớm thấy mình được bao quanh bởi các hệ thống AI sở hữu những khả năng vượt qua con người. Viễn cảnh này vừa kích thích vừa gây bất an sâu sắc. Làm thế nào để kiểm soát các thực thể được trang bị những khả năng mà chúng ta thậm chí có thể không bắt đầu hiểu được”, vị này băn khoăn.