Cân bằng Nash. Lý thuyết trò chơi cho các nhà kinh tế (John Nash)

Vào những năm 1930, John von Neumann và Oscar Morgenstern trở thành người sáng lập ra một lĩnh vực toán học thú vị mới, được gọi là "lý thuyết trò chơi". Vào những năm 1950, nhà toán học trẻ John Nash bắt đầu quan tâm đến lĩnh vực này. Lý thuyết về trạng thái cân bằng đã trở thành đề tài cho luận án của ông, mà ông đã viết khi ông 21 tuổi. Do đó, đã ra đời một chiến lược mới cho các trò chơi có tên Nash Cân bằng, đã giành được giải thưởng Nobel nhiều năm sau đó, vào năm 1994.

Khoảng cách dài giữa việc viết luận văn và chấp nhận phổ quát là một bài kiểm tra cho nhà toán học. Thiên tài mà không được công nhận dẫn đến vi phạm nghiêm trọng về tinh thần, nhưng John Nash đã có thể giải quyết vấn đề này nhờ vào đầu óc logic tuyệt vời của mình. Lý thuyết về "trạng thái cân bằng Nash" của ông đã được trao giải thưởng Nobel và bộ phim chuyển thể của ông trong bộ phim "Beautiful mind" ("Trò chơi trí tuệ").

Lý thuyết trò chơi ngắn gọn

Vì lý thuyết về trạng thái cân bằng Nash giải thích hành vi của mọi người về mặt tương tác, do đó, đáng để xem xét các khái niệm cơ bản của lý thuyết trò chơi.

Lý thuyết trò chơi nghiên cứu hành vi của người tham gia (tác nhân) trong các điều kiện tương tác với nhau theo loại trò chơi, khi kết quả phụ thuộc vào quyết định và hành vi của một số người. Người tham gia đưa ra quyết định, được hướng dẫn bởi các dự báo của mình liên quan đến hành vi của những người khác, được gọi là chiến lược trò chơi.

Ngoài ra còn có một chiến lược chi phối trong đó người tham gia có được kết quả tối ưu cho mọi hành vi của những người tham gia khác. Đây là chiến lược giành chiến thắng tốt nhất của người chơi.

Tiến thoái lưỡng nan và đột phá khoa học của tù nhân

Tình huống khó xử của tù nhân là một trường hợp với một trò chơi khi những người tham gia buộc phải đưa ra quyết định hợp lý, đạt được một mục tiêu chung trong bối cảnh xung đột của các lựa chọn thay thế. Câu hỏi đặt ra là anh ấy sẽ chọn phương án nào, nhận ra sở thích cá nhân và chung của mình, cũng như không có khả năng có được cả hai. Người chơi dường như bị bao vây trong điều kiện chơi game khắc nghiệt, điều này đôi khi khiến họ suy nghĩ rất năng suất.

Vấn đề nan giải này được khám phá bởi nhà toán học người Mỹ John Nash. Trạng thái cân bằng mà ông đưa ra đã trở thành một cuộc cách mạng thuộc loại này. Đặc biệt sinh động, suy nghĩ mới này ảnh hưởng đến ý kiến của các nhà kinh tế về cách người chơi thị trường đưa ra lựa chọn, có tính đến lợi ích của người khác, với sự tương tác chặt chẽ và giao thoa lợi ích.

Tốt nhất là nghiên cứu lý thuyết trò chơi với các ví dụ cụ thể, vì bản thân môn học toán học này không phải là một lý thuyết khô khan.

Ví dụ nan giải tù nhân

Ví dụ, hai người bị cướp, rơi vào tay cảnh sát và đang bị thẩm vấn trong các phòng giam riêng biệt. Đồng thời, các nhân viên cảnh sát cung cấp cho mỗi người tham gia những điều kiện thuận lợi, theo đó anh ta sẽ được thả ra nếu anh ta làm chứng chống lại đối tác của mình. Mỗi tên tội phạm có các chiến lược sau đây mà anh ta sẽ xem xét:

Cả hai đồng thời làm chứng và nhận 2, 5 năm tù.
Cả hai đều im lặng cùng một lúc và nhận được 1 năm mỗi lần, vì trong trường hợp này, cơ sở bằng chứng về tội lỗi của họ sẽ nhỏ.
Một người đưa ra bằng chứng và được tự do, trong khi người kia im lặng và nhận 5 năm tù.

Rõ ràng, kết quả của vụ án phụ thuộc vào quyết định của cả hai người tham gia, nhưng họ không thể đi đến thỏa thuận vì họ đang ngồi trong các phòng giam khác nhau. Xung đột lợi ích cá nhân của họ trong cuộc đấu tranh vì lợi ích chung cũng được thấy rõ. Mỗi tù nhân có hai lựa chọn cho hành động và 4 lựa chọn cho kết quả.

Chuỗi suy luận

Vì vậy, tội phạm A đang xem xét các lựa chọn sau:

Tôi im lặng và đối tác của tôi im lặng - cả hai chúng tôi sẽ nhận 1 năm tù.
Tôi đưa cho đối tác của mình và anh ta cho tôi - cả hai chúng tôi đều nhận 2, 5 năm tù.
Tôi im lặng, và đối tác của tôi đang trao trả cho tôi - tôi sẽ nhận 5 năm tù và anh ta sẽ được tự do.
Tôi thuê đối tác của mình và anh ta im lặng - tôi có được tự do, còn anh ta 5 năm tù.

Chúng tôi đưa ra một ma trận các giải pháp và kết quả có thể cho rõ ràng.

Bảng kết quả có thể xảy ra trong tình trạng khó xử của tù nhân.

Câu hỏi là mỗi người tham gia sẽ chọn cái gì?

"Im lặng, bạn không thể nói" hoặc "Im lặng bạn không thể nói"

Để hiểu được sự lựa chọn của người tham gia, bạn cần trải qua chuỗi suy nghĩ của anh ấy. Theo lý lẽ của tên tội phạm A: nếu tôi giữ im lặng và giữ im lặng đối tác của mình, chúng tôi sẽ có thời hạn tối thiểu (1 năm), nhưng tôi có thể tìm hiểu cách anh ta sẽ cư xử. Nếu anh ta làm chứng chống lại tôi, thì tôi cũng tốt hơn để làm chứng, nếu không tôi có thể ngồi xuống trong 5 năm. Tôi thà ngồi 2, 5 năm hơn 5 năm. Nếu anh ta không nói gì, thì tôi càng cần phải làm chứng, vì theo cách này tôi sẽ có được tự do. Thành viên B cũng lập luận theo cách tương tự.

Thật dễ hiểu khi chiến lược chi phối của mỗi tội phạm là làm chứng. Điểm tối ưu của trò chơi này xảy ra khi cả hai tội phạm đưa ra bằng chứng và nhận "giải thưởng" của họ - 2, 5 năm tù. Lý thuyết trò chơi của Nash gọi đó là trạng thái cân bằng.

Giải pháp tối ưu Nash tối ưu

Cuộc cách mạng của quan điểm Nashev là sự cân bằng như vậy là không tối ưu nếu chúng ta xem xét cá nhân người tham gia và lợi ích cá nhân của anh ta. Rốt cuộc, lựa chọn tốt nhất là giữ im lặng và tự do.

Cân bằng Nash là một điểm liên lạc, trong đó mỗi người tham gia chọn một tùy chọn tối ưu cho mình chỉ khi những người tham gia khác chọn một chiến lược cụ thể.

Xem xét tùy chọn khi cả hai tội phạm đều im lặng và chỉ nhận được mỗi năm 1 lần, chúng ta có thể gọi đó là tùy chọn tối ưu Pareto. Tuy nhiên, chỉ có thể nếu bọn tội phạm có thể đã đồng ý trước. Nhưng ngay cả điều này sẽ không đảm bảo kết quả này, vì sự cám dỗ để quay trở lại từ sự thuyết phục và tránh bị trừng phạt là rất lớn. Sự thiếu tin tưởng hoàn toàn vào nhau và nguy cơ 5 tuổi buộc người ta phải lựa chọn phương án với sự công nhận. Để phản ánh về thực tế rằng những người tham gia sẽ tuân thủ tùy chọn với sự im lặng, hành động trong buổi hòa nhạc, chỉ đơn giản là không hợp lý. Một kết luận như vậy có thể được đưa ra nếu chúng ta nghiên cứu trạng thái cân bằng Nash. Ví dụ chỉ chứng minh điều đó.

Ích kỷ hay lý trí

Lý thuyết về trạng thái cân bằng Nash đã mang lại kết luận tuyệt vời, bác bỏ các nguyên tắc tồn tại trước đó. Ví dụ, Adam Smith coi hành vi của mỗi người tham gia là hoàn toàn ích kỷ, điều này đã đưa hệ thống về trạng thái cân bằng. Giả thuyết này được gọi là "bàn tay vô hình của thị trường".

John Nash thấy rằng nếu tất cả những người tham gia hành động theo đuổi lợi ích riêng của họ, thì điều này sẽ không bao giờ dẫn đến một kết quả nhóm tối ưu. Xem xét rằng suy nghĩ hợp lý là cố hữu ở mỗi người tham gia, sự lựa chọn mà chiến lược cân bằng Nash đưa ra có nhiều khả năng.

Thí nghiệm thuần túy nam

Một ví dụ sinh động là trò chơi nghịch lý tóc vàng tóc vàng, mặc dù có vẻ không phù hợp nhưng là một minh họa sống động cho thấy lý thuyết trò chơi Nash hoạt động như thế nào.

Trong trò chơi này, bạn cần tưởng tượng rằng công ty của những kẻ tự do đã đến quán bar. Tiếp theo là một công ty của các cô gái, một trong số đó là thích hợp hơn những người khác, nói một cô gái tóc vàng. Làm thế nào để các chàng trai cư xử để có được bạn gái tốt nhất cho mình?

Vì vậy, các chàng trai lý luận: nếu mọi người bắt đầu làm quen với cô gái tóc vàng, thì rất có thể cô sẽ không quen ai, sau đó bạn bè của cô sẽ không muốn gặp. Không ai muốn trở thành người dự phòng thứ hai. Nhưng nếu các chàng trai chọn cách tránh cô gái tóc vàng, thì xác suất để mỗi chàng trai tìm được một người bạn gái tốt trong số các cô gái là rất cao.

Tình trạng cân bằng Nash không tối ưu đối với các chàng trai, bởi vì, chỉ theo đuổi sở thích ích kỷ của mình, mọi người sẽ chọn một cô gái tóc vàng. Rõ ràng là việc theo đuổi chỉ những lợi ích ích kỷ sẽ tương đương với sự sụp đổ của lợi ích nhóm. Cân bằng Nash sẽ có nghĩa là mỗi chàng trai hành động vì lợi ích cá nhân của riêng mình, tiếp xúc với lợi ích của cả nhóm. Đây không phải là một lựa chọn tối ưu cho cá nhân mọi người, nhưng tối ưu cho mọi người, dựa trên chiến lược thành công chung.

Toàn bộ cuộc sống của chúng tôi là một trò chơi

Đưa ra quyết định trong điều kiện thực tế rất giống với một trò chơi khi bạn mong đợi một hành vi hợp lý nhất định từ những người tham gia khác. Trong kinh doanh, trong công việc, trong một nhóm, trong một công ty và thậm chí là trong các mối quan hệ với người khác giới. Từ các giao dịch lớn đến các tình huống cuộc sống thông thường, mọi thứ đều tuân theo luật này hay luật khác.

Tất nhiên, các tình huống trò chơi được xem xét với tội phạm và quán bar chỉ là minh họa tuyệt vời thể hiện sự cân bằng của Nash. Ví dụ về những tình huống khó xử như vậy rất thường phát sinh trong thị trường thực và điều này đặc biệt hiệu quả trong trường hợp có hai nhà độc quyền kiểm soát thị trường.

Chiến lược hỗn hợp

Thông thường chúng tôi không tham gia vào một mà nhiều trò chơi cùng một lúc. Chọn một trong các tùy chọn cho một trò chơi, được hướng dẫn bởi một chiến lược hợp lý, nhưng bạn sẽ vào một trò chơi khác. Sau một vài quyết định hợp lý, bạn có thể thấy rằng kết quả của bạn không phù hợp với bạn. Phải làm sao

Xem xét hai loại chiến lược:

Chiến lược thuần túy là hành vi của người tham gia, xuất phát từ suy nghĩ về hành vi có thể có của những người tham gia khác.
Chiến lược hỗn hợp hoặc chiến lược ngẫu nhiên là sự xen kẽ của chiến lược thuần túy ngẫu nhiên hoặc lựa chọn chiến lược thuần túy với một xác suất nhất định. Chiến lược này cũng được gọi là ngẫu nhiên.

Xem xét hành vi này, chúng ta có một cái nhìn mới về trạng thái cân bằng Nash. Nếu trước đó người ta nói rằng người chơi chọn chiến lược một lần, thì có thể tưởng tượng một hành vi khác. Chúng tôi có thể thừa nhận tùy chọn mà người chơi chọn một chiến lược ngẫu nhiên với một xác suất nhất định. Các trò chơi trong đó cân bằng Nash không thể được tìm thấy trong các chiến lược thuần túy luôn có chúng trong các trò chơi hỗn hợp.

Cân bằng Nash trong các chiến lược hỗn hợp được gọi là cân bằng hỗn hợp. Đây là một sự cân bằng như vậy, trong đó mỗi người tham gia chọn tần suất tối ưu để chọn chiến lược của họ, miễn là những người tham gia khác chọn chiến lược của họ với tần suất nhất định.