Lý thuyết trò chơi và sự cứu rỗi của truyện cổ tích
Sự hợp tác luôn có lợi khi đối thủ cũng hợp tác. Đặc biệt, tử tế chính là đừng bao giờ bất hợp tác trước
Bài viết của TS. Đinh Thế Phong, Bộ Khoa học - Công nghệ.
Lòng tham, tính duy lý (rationality), sự ích kỷ là những điều kiện cần nhưng chưa đủ cho sự phồn thịnh bền vững của nền kinh tế thị trường. Để có nền kinh tế thị trường hoàn thiện còn cần cả sự tử tế, lòng khoan dung, thậm chí cả tính vị tha và sự quan tâm tới đồng loại như trong các truyện cổ tích.
Đây không phải là sự răn bảo của các nhà luân lý-đạo đức mà là kết quả tính toán mô phỏng các tình huống trong lý thuyết trò chơi (game theory).
Trò chơi “kẻ thắng, người thua”
Lý thuyết trò chơi nghiên cứu hành vi của hai hoặc nhiều người trong các tình huống khi quyền lợi của họ mâu thuẫn nhau. Ở đây, trò chơi gồm hai loại: loại “kẻ thắng, người thua” (hay “Tổng bằng không” - Zero-Sum-Game) và loại “Tổng không bằng không” - Non-Zero-Sum-Game).
Trong loại đầu, phần “được” của người này là phần “mất” của người khác; tức là, khi cái bánh phúc lợi của xã hội, thị trường có tổng không đổi và ai cũng muốn chiếm phần to nhất có thể. Trong loại sau, có thể các người chơi cùng có lợi khi họ hợp tác với nhau để cùng gia tăng tổng phúc lợi; tức là, cái bánh phúc lợi có thể to ra khi có sự hợp tác giữa các người chơi.
Tuy nhiên, người chơi không phải lúc nào cũng tiên lượng được nước đi của đối thủ.
Năm 1984, R. Axelrod đã nghiên cứu về cạnh tranh và hợp tác và các điều kiện của nó. Các phát hiện của ông giúp tìm ra cách hành xử tối ưu để tạo ra sự hợp tác trong thị trường, xã hội, làm cái bánh phúc lợi chung to ra. Giả thiết của ông là: các người chơi đều hành động vì quyền lợi cá nhân và không bị bắt buộc phải hợp tác.
Ông đã tiến hành các tính toán mô phỏng hai tình huống “Tiến thoái lưỡng nan của người tù” và “Bi kịch của đồng cỏ nhà chung” khi mà người chơi có hai lựa chọn: Hợp tác (Cooperation) và Bất hợp tác (Defection). Người chơi đưa ra quyết định mà không biết đến quyết định của đối thủ. Bất hợp tác luôn mang lại điểm số cao hơn hợp tác.
Sự “tiến thoái lưỡng nan” là ở chỗ: nếu cả hai cùng bất hợp tác thì kết quả chung sẽ thấp hơn khi cả hai hợp tác. Kết quả mô phỏng cho thấy: chiến lược “Ăn miếng, trả miếng” là tối ưu; trong đó, người chơi luôn hợp tác ở nước đi đầu tiên và sau đó, hành động đúng như đối thủ đã hành động ở nước đi trước.
Axelrod nêu ra bốn đặc tính nổi trội của chiến lược này là: 1) Tránh mâu thuẫn bằng cách luôn hợp tác khi đối thủ cũng hợp tác; 2) Khả năng khiêu khích khi có sự bất hợp tác không được báo trước của đối thủ; 3) Tha thứ đối với sự bất hợp tác; 4) Tính rõ ràng trong hành vi để đối thủ có thể thích ứng với cách thức hành động của mình.
Điều lý thú của các khám phá này là: Sự hợp tác thực sự có thể xuất hiện trong cuộc chơi giữa các người chơi ích kỷ mà không cần đến sự bắt buộc của nhà chức trách. Sự hợp tác đòi hỏi các người chơi có cơ hội đủ lớn để gặp lại nhau; vì vậy, họ sẽ phần nào hành động hướng tới tương lai thay vì chỉ cho quyền lợi trước mắt.
Tính duy lý thuần túy; Các “bài giảng luân lý”; Tiến hóa của sự hợp tác
Axelrod đưa ra một số nguyên tắc để đạt điểm tối ưu trong hai tình huống trên là:
1. “Đừng ghen tị”:
Người ta thường hành động theo trường hợp “Tổng bằng không”, tức là người khác “được” thì tức là mình “mất”. Nhưng trong cuộc sống, thị trường ngày nay lại chủ yếu là các mối tương tác theo trường hợp “Tổng không bằng không”, tức là có thể chúng ta cùng “được” (tuy nhiều ít có thể khác nhau).
Việc người so sánh thành công của mình với thành công của người khác dẫn đến tính ghen tị. Ghen tị làm người ta muốn giành lại các thành công mà người khác đã đạt được (vì cho rằng đó là phần “mất” của mình). Sự giành lại chỉ đạt được qua sự bất hợp tác. Anh bất hợp tác thì tôi cũng bất hợp tác và người ta rơi vào vòng luân hồi trừng phạt lẫn nhau.
Vì vậy, lòng ghen tị mang tính tự hủy diệt cho xã hội, thị trường. So sánh thành công của mình với thành công của người chỉ có lợi khi mục đích của chúng ta là hủy diệt nhau. Điều nên làm hơn là: so sánh thành công của mình với người khác nếu họ ở trong hoàn cảnh của mình.
Trong cuộc chơi “Tổng không bằng không”, người ta có thể tăng thành công của mình mà không nhất thiết phải “được” hơn người khác. Điều này càng đúng hơn trong các cuộc chơi với nhiều người tham gia, như trong một xã hội, một thị trường. Khi trò chơi được lặp lại nhiều lần, “được” của người khác thực ra cũng là điều kiện tiên quyết để bạn kiếm điểm cho chính mình.
2. “Hãy là người tử tế”:
Lý thuyết và kết quả tính toán đều cho thấy: Sự hợp tác luôn có lợi khi đối thủ cũng hợp tác. Đặc biệt, tử tế chính là đừng bao giờ bất hợp tác trước.
3. “Anh sao, tôi vậy”:
Sự thành công tuyệt đối của chiến lược “Ăn miếng, trả miếng” cho thấy phải luôn biết đáp trả. Sau khi hợp tác ở nước đi đầu tiên, ta làm đúng cái mà đối thủ vừa làm.
4. “Đừng quá khôn ngoan”:
Trong các tình huống trên, người chơi dễ trở nên “quá khôn ngoan” khi họ suy đoán các bước đi, hành vi của đối thủ. Vấn đề thứ nhất nảy sinh ở đây là: các suy đoán có thể sai. Ngoài ra, khi ta “khôn ngoan” thì hành vi của ta có thể làm đối thủ thay đổi hành vi của mình.
Sai lầm khi suy đoán là coi những hành động của người chơi khác là một đại lượng không đổi, như vậy, họ không xem xét các tác động qua lại khi các người chơi liên tục biến đổi để thích ứng với tình huống. Khi dùng chiến lược ăn miếng trả miếng phải thể hiện mình thật rõ ràng để các người chơi khác hiểu mình được chính xác.
Ngược lại, chiến lược ăn miếng trả miếng làm những người chơi khác hiểu chính xác các động thái và tiên đoán đúng hành vi của mình trong tương lai. Khi đó, họ sẽ hiểu rằng: chiến lược tốt nhất trong tình huống ăn miếng trả miếng là hợp tác với nó.
Nếu trò chơi còn tiếp diễn ít nhất một bước nữa, chiến lược tối ưu là hợp tác ngay từ bây giờ nhằm nhận lại được ngay sự hợp tác của đối thủ trong bước đi tiếp theo.
5. Muốn tăng sự hợp tác, hãy làm cho mọi người quan tâm đến phúc lợi của người khác:
Các tính toán mô phỏng đưa đến các suy luận có vẻ như không tưởng: Vì chính quyền lợi của mình, các cá nhân ích kỷ sẽ trở nên tử tế, tha thứ và không còn ghen tị. Và, kết luận quan trọng nhất là: những người tử tế sẽ là những người thắng lợi trước tiên.
Làm gì để tạo ra nhiều tình huống “Tổng không bằng không”?
Khi con người tạo ra những thị trường, “cuộc chơi” với ngày càng nhiều người tham gia, hợp tác với nhau và khi họ tạo ra, sử dụng càng nhiều công nghệ, thì tạo ra càng nhiều các cuộc chơi “Tổng không bằng không”.
Con người tạo ra công nghệ, các thể chế, các khế ước xã hội. Qua đó, làm cho họ tương tác, hợp tác với nhau trong các “trò chơi”, thị trường mới với quy mô ngày càng lớn và tạo ra càng nhiều phúc lợi cho càng nhiều người. Nền kinh tế toàn cầu với số người tham gia hơn hẳn so với nền kinh tế khu vực, quốc gia. Internet, thị trường chứng khoán... là công cụ tạo ra hoặc hỗ trợ những cuộc chơi, thị trường mới với ngày càng đông người tham gia.
Công nghệ ở đây bao gồm công nghệ truyền thống như máy móc, phần mềm... và các “hậu công nghệ” (metatechnologies) như khoa học, hiến pháp, ngân hàng... Cuộc chơi “Tổng không bằng không” có lợi cho xã hội, môi trường, giúp loài người vượt qua trở ngại. Các công nghệ và hậu công nghệ tạo ra sự chuyển dịch: tập trung hóa và/hoặc phi tập trung hóa của cải và quyền lực.
Đổi mới, sáng tạo, thương thuyết, chính trị giúp tạo ra, duy trì, phát triển các cuộc chơi “Tổng không bằng không”. Việc phát minh, hoàn thiện, nhân rộng các cuộc chơi này là thước đo sự tiến hóa của loài người ngày càng có ý thức và chủ động hơn.
Lòng tham, tính duy lý (rationality), sự ích kỷ là những điều kiện cần nhưng chưa đủ cho sự phồn thịnh bền vững của nền kinh tế thị trường. Để có nền kinh tế thị trường hoàn thiện còn cần cả sự tử tế, lòng khoan dung, thậm chí cả tính vị tha và sự quan tâm tới đồng loại như trong các truyện cổ tích.
Đây không phải là sự răn bảo của các nhà luân lý-đạo đức mà là kết quả tính toán mô phỏng các tình huống trong lý thuyết trò chơi (game theory).
Trò chơi “kẻ thắng, người thua”
Lý thuyết trò chơi nghiên cứu hành vi của hai hoặc nhiều người trong các tình huống khi quyền lợi của họ mâu thuẫn nhau. Ở đây, trò chơi gồm hai loại: loại “kẻ thắng, người thua” (hay “Tổng bằng không” - Zero-Sum-Game) và loại “Tổng không bằng không” - Non-Zero-Sum-Game).
Trong loại đầu, phần “được” của người này là phần “mất” của người khác; tức là, khi cái bánh phúc lợi của xã hội, thị trường có tổng không đổi và ai cũng muốn chiếm phần to nhất có thể. Trong loại sau, có thể các người chơi cùng có lợi khi họ hợp tác với nhau để cùng gia tăng tổng phúc lợi; tức là, cái bánh phúc lợi có thể to ra khi có sự hợp tác giữa các người chơi.
Tuy nhiên, người chơi không phải lúc nào cũng tiên lượng được nước đi của đối thủ.
Năm 1984, R. Axelrod đã nghiên cứu về cạnh tranh và hợp tác và các điều kiện của nó. Các phát hiện của ông giúp tìm ra cách hành xử tối ưu để tạo ra sự hợp tác trong thị trường, xã hội, làm cái bánh phúc lợi chung to ra. Giả thiết của ông là: các người chơi đều hành động vì quyền lợi cá nhân và không bị bắt buộc phải hợp tác.
Ông đã tiến hành các tính toán mô phỏng hai tình huống “Tiến thoái lưỡng nan của người tù” và “Bi kịch của đồng cỏ nhà chung” khi mà người chơi có hai lựa chọn: Hợp tác (Cooperation) và Bất hợp tác (Defection). Người chơi đưa ra quyết định mà không biết đến quyết định của đối thủ. Bất hợp tác luôn mang lại điểm số cao hơn hợp tác.
Sự “tiến thoái lưỡng nan” là ở chỗ: nếu cả hai cùng bất hợp tác thì kết quả chung sẽ thấp hơn khi cả hai hợp tác. Kết quả mô phỏng cho thấy: chiến lược “Ăn miếng, trả miếng” là tối ưu; trong đó, người chơi luôn hợp tác ở nước đi đầu tiên và sau đó, hành động đúng như đối thủ đã hành động ở nước đi trước.
Axelrod nêu ra bốn đặc tính nổi trội của chiến lược này là: 1) Tránh mâu thuẫn bằng cách luôn hợp tác khi đối thủ cũng hợp tác; 2) Khả năng khiêu khích khi có sự bất hợp tác không được báo trước của đối thủ; 3) Tha thứ đối với sự bất hợp tác; 4) Tính rõ ràng trong hành vi để đối thủ có thể thích ứng với cách thức hành động của mình.
Điều lý thú của các khám phá này là: Sự hợp tác thực sự có thể xuất hiện trong cuộc chơi giữa các người chơi ích kỷ mà không cần đến sự bắt buộc của nhà chức trách. Sự hợp tác đòi hỏi các người chơi có cơ hội đủ lớn để gặp lại nhau; vì vậy, họ sẽ phần nào hành động hướng tới tương lai thay vì chỉ cho quyền lợi trước mắt.
Tính duy lý thuần túy; Các “bài giảng luân lý”; Tiến hóa của sự hợp tác
Axelrod đưa ra một số nguyên tắc để đạt điểm tối ưu trong hai tình huống trên là:
1. “Đừng ghen tị”:
Người ta thường hành động theo trường hợp “Tổng bằng không”, tức là người khác “được” thì tức là mình “mất”. Nhưng trong cuộc sống, thị trường ngày nay lại chủ yếu là các mối tương tác theo trường hợp “Tổng không bằng không”, tức là có thể chúng ta cùng “được” (tuy nhiều ít có thể khác nhau).
Việc người so sánh thành công của mình với thành công của người khác dẫn đến tính ghen tị. Ghen tị làm người ta muốn giành lại các thành công mà người khác đã đạt được (vì cho rằng đó là phần “mất” của mình). Sự giành lại chỉ đạt được qua sự bất hợp tác. Anh bất hợp tác thì tôi cũng bất hợp tác và người ta rơi vào vòng luân hồi trừng phạt lẫn nhau.
Vì vậy, lòng ghen tị mang tính tự hủy diệt cho xã hội, thị trường. So sánh thành công của mình với thành công của người chỉ có lợi khi mục đích của chúng ta là hủy diệt nhau. Điều nên làm hơn là: so sánh thành công của mình với người khác nếu họ ở trong hoàn cảnh của mình.
Trong cuộc chơi “Tổng không bằng không”, người ta có thể tăng thành công của mình mà không nhất thiết phải “được” hơn người khác. Điều này càng đúng hơn trong các cuộc chơi với nhiều người tham gia, như trong một xã hội, một thị trường. Khi trò chơi được lặp lại nhiều lần, “được” của người khác thực ra cũng là điều kiện tiên quyết để bạn kiếm điểm cho chính mình.
2. “Hãy là người tử tế”:
Lý thuyết và kết quả tính toán đều cho thấy: Sự hợp tác luôn có lợi khi đối thủ cũng hợp tác. Đặc biệt, tử tế chính là đừng bao giờ bất hợp tác trước.
3. “Anh sao, tôi vậy”:
Sự thành công tuyệt đối của chiến lược “Ăn miếng, trả miếng” cho thấy phải luôn biết đáp trả. Sau khi hợp tác ở nước đi đầu tiên, ta làm đúng cái mà đối thủ vừa làm.
4. “Đừng quá khôn ngoan”:
Trong các tình huống trên, người chơi dễ trở nên “quá khôn ngoan” khi họ suy đoán các bước đi, hành vi của đối thủ. Vấn đề thứ nhất nảy sinh ở đây là: các suy đoán có thể sai. Ngoài ra, khi ta “khôn ngoan” thì hành vi của ta có thể làm đối thủ thay đổi hành vi của mình.
Sai lầm khi suy đoán là coi những hành động của người chơi khác là một đại lượng không đổi, như vậy, họ không xem xét các tác động qua lại khi các người chơi liên tục biến đổi để thích ứng với tình huống. Khi dùng chiến lược ăn miếng trả miếng phải thể hiện mình thật rõ ràng để các người chơi khác hiểu mình được chính xác.
Ngược lại, chiến lược ăn miếng trả miếng làm những người chơi khác hiểu chính xác các động thái và tiên đoán đúng hành vi của mình trong tương lai. Khi đó, họ sẽ hiểu rằng: chiến lược tốt nhất trong tình huống ăn miếng trả miếng là hợp tác với nó.
Nếu trò chơi còn tiếp diễn ít nhất một bước nữa, chiến lược tối ưu là hợp tác ngay từ bây giờ nhằm nhận lại được ngay sự hợp tác của đối thủ trong bước đi tiếp theo.
5. Muốn tăng sự hợp tác, hãy làm cho mọi người quan tâm đến phúc lợi của người khác:
Các tính toán mô phỏng đưa đến các suy luận có vẻ như không tưởng: Vì chính quyền lợi của mình, các cá nhân ích kỷ sẽ trở nên tử tế, tha thứ và không còn ghen tị. Và, kết luận quan trọng nhất là: những người tử tế sẽ là những người thắng lợi trước tiên.
Làm gì để tạo ra nhiều tình huống “Tổng không bằng không”?
Khi con người tạo ra những thị trường, “cuộc chơi” với ngày càng nhiều người tham gia, hợp tác với nhau và khi họ tạo ra, sử dụng càng nhiều công nghệ, thì tạo ra càng nhiều các cuộc chơi “Tổng không bằng không”.
Con người tạo ra công nghệ, các thể chế, các khế ước xã hội. Qua đó, làm cho họ tương tác, hợp tác với nhau trong các “trò chơi”, thị trường mới với quy mô ngày càng lớn và tạo ra càng nhiều phúc lợi cho càng nhiều người. Nền kinh tế toàn cầu với số người tham gia hơn hẳn so với nền kinh tế khu vực, quốc gia. Internet, thị trường chứng khoán... là công cụ tạo ra hoặc hỗ trợ những cuộc chơi, thị trường mới với ngày càng đông người tham gia.
Công nghệ ở đây bao gồm công nghệ truyền thống như máy móc, phần mềm... và các “hậu công nghệ” (metatechnologies) như khoa học, hiến pháp, ngân hàng... Cuộc chơi “Tổng không bằng không” có lợi cho xã hội, môi trường, giúp loài người vượt qua trở ngại. Các công nghệ và hậu công nghệ tạo ra sự chuyển dịch: tập trung hóa và/hoặc phi tập trung hóa của cải và quyền lực.
Đổi mới, sáng tạo, thương thuyết, chính trị giúp tạo ra, duy trì, phát triển các cuộc chơi “Tổng không bằng không”. Việc phát minh, hoàn thiện, nhân rộng các cuộc chơi này là thước đo sự tiến hóa của loài người ngày càng có ý thức và chủ động hơn.