纳什均衡+帕雷托最优-通俗解答

在知乎的纳什均衡回答里看到这么一个观点：

1. 三个火枪手中那句名言：All for one, one for all (人人为我，我为人人)，我的理解是，贵族武士之间，通过自利和利他的行为实现共同目的

2. 亚当斯密提出invisible hand理论时候的基本前提：当市场中每个人都进行自利行为的时候，在客观上说，市场（或社会）整体的福利会被提升

而纳什均衡恰好否定了前面的观点，我认为这也是这一理论如此著名的原因：

当市场中每个人都进行自利行为的时候，在客观上说，市场（或社会）整体的福利是无法达到最优的。

纳什均衡（Nash equilibrium），无一参与者可以通过独自行动而增加收益的策略组合。

其经典的例子就是囚徒困境（Prisoner's Dilemma）。囚徒困境是一个非零和博弈，反映个人最佳选择并非团体最佳选择。或者说在一个群体中，个人做出理性选择却往往导致集体的非理性。大意是：一个案子的两个嫌疑犯被分开审讯，警官分别告诉两个囚犯，如果你招供，而对方不招供，则你将被立即释放，而对方将被判刑十年；如果两人均招供，将均被判刑两年。如果两人均不招供，将最有利，只被判刑半年。于是，两人同时陷入招供还是不招供的两难处境。但两人无法沟通，于是从各自的利益角度出发，都依据各自的理性而选择了招供，这种情况就称为纳什均衡。这时，个体的理性利益选择是与整体的理性利益选择不一致的。

基于经济学中“理性经济人”的前提假设，两个囚犯符合自己利益的选择是坦白招供，原本对双方都有利的策略不招供从而均被判刑半年就不会出现。事实上，这样两人都选择坦白的策略以及因此被判两年的结局被称作是“纳什均衡”（也叫非合作均衡），换言之，在此情况下，无一参与者可以“独自行动”（即单方面改变决定）而增加收获。

目前经济学家们现在所谈的博弈论一般是指非合作博弈，由于合作博弈论比非合作博弈论复杂，。非合作博弈又分为：完全信息静态博弈，完全信息动态博弈，不完全信息静态博弈，不完全信息动态博弈。与上述四种博弈相对应的均衡概念为：纳什均衡、子博弈精炼纳什均衡（subgame perfect Nash equilibrium）、贝叶斯纳什均衡、精炼贝叶斯纳什均衡（perfect Bayesian Nash equilibrium）。

Nash equilibrium 和 Subgame perfect equilibruim区别

Nash equilibrium 包含Subgame perfect equilibruim，子博弈完备均衡一定是纳什均衡，但有一些纳什均衡不一定是子博弈完备均衡；其次，子博弈是基于动态博弈定义的均衡（当然纳什均衡也可以用于动态），一个子博弈完备均衡，在它的任何子博弈上也构成纳什均衡（这是对纳什均衡精练的一个条件），如果一个纳什均衡在其子博弈上不再是纳什均衡，那就不是子博弈完备的（所谓在子博弈上的策略组合，就是原博弈的一个策略组合留存在子博弈上的策略组合）。

从行为的时间序列性，博弈论进一步分为两类：

静态博弈：在博弈中，参与人同时选择；

动态博弈（Sequential game）：也叫序贯博弈，在博弈中，参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。常用逆向归纳法（Backward Induction）求解。

通俗的理解：“囚徒困境”就是同时决策的，属于静态博弈；而象棋、国际象棋、围棋等棋牌类游戏决策或行动有先后次序的，属于动态博弈。

囚徒困境的主旨为，囚徒们彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在无法沟通的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。

单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕雷托最优。帕累托最优可以是合作博弈，而纳什均衡只能是非合作博弈。

帕雷托最优（Pareto optimality），也称为帕雷托效率（Pareto efficiency），是指资源分配的一种理想状态。给定固有的一群人和可分配的资源，如果从一种分配状态到另一种状态的变化中，在没有使任何人境况变坏的前提下，使得至少一个人变得更好，这就是帕雷托改善。帕雷托最优的状态就是不可能再有更多的帕雷托改善的状态；换句话说，不可能再改善某些人的境况，而不使任何其他人受损。

需要指出的是，帕雷托最优只是各种理想态标准中的“最低标准”。也就是说，一种状态如果尚未达到帕雷托最优，那么它一定是不理想的，因为还存在改进的余地，可以在不损害任何人的前提下使某一些人的福利得到提高。但是一种达到了帕雷托最优的状态并不一定真的很“理想”。比如说，假设一个社会里只有一个百万富翁和一个快饿死的乞丐，如果这个百万富翁拿出自己财富的万分之一，就可以使后者免于死亡。但是因为这样无偿的财富转移损害了富翁的福利（假设这个乞丐没有什么可以用于回报富翁的资源或服务），所以进行这种财富转移并不是帕雷托改进，而这个只有一个百万富翁和一个饿死乞丐的社会可以被认为是帕雷托最优的。（这里可以与古典功利主义的标准做一比较。按功利主义的标准，理想的状态是使人们的福利的总和最大化的状态。如果一个富翁损失很少的福利，却能够极大地增加乞丐的福利，使其免于死亡，那么社会的福利总和就增加了，所以从功利主义的角度看，这样的财富转移是一种改善，而最初的极端不平等状态则是不理想的，因为它的福利总和较低。可以看到，帕雷托改进要求在提高某些人福利的时候不能减少任何一个人的福利，而功利主义则允许为了提高福利总和而减少一些人的福利。）

经济学理论认为，如果市场是完备的和充分竞争的，市场交换的结果一定是帕雷托最优的，并且会同时满足以下3个条件：

交换最优：即使再交易，个人也不能从中得到更大的利益。此时对任意两个消费者，任意两种商品的边际替代率是相同的，且两个消费者的效用同时得到最大化。

生产最优：这个经济体必须在自己的生产可能性边界上。此时对任意两个生产不同产品的生产者，需要投入的两种生产要素的边际技术替代率（MRTS）是相同的，且两个生产者的产量同时得到最大化。

产品混合最优：经济体产出产品的组合必须反映消费者的偏好。此时任意两种商品之间的边际替代率必须与任何生产者在这两种商品之间的边际产品转换率（MRT）相同。

如果一个经济体不是帕雷托最优，则存在一些人可以在不使其他人的境况变坏的情况下使自己的境况变好的情形。普遍认为这样低效的产出的情况是需要避免的，因此帕雷托最优是评价一个经济体和政治方针的非常重要的标准。

但是，如同上面指出的，一个帕雷托最优的经济系统只是在“最低”的意义上是“理想”的，并不能保证其中没有贫困或严重的贫富差距。

回到最开始的囚徒困境，这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高，结果也比两人背叛对方、判刑5年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判监均比合作为高，总体利益较合作为低。这就是“困境”所在。例子有效地证明了：非零和博弈中，帕累托最优和纳什均衡是互相冲突的。

现实中，无论是人类社会或大自然都可以找到类似囚徒困境的例子：

政治学例子：军备竞赛

在政治学中，两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择：增加军备（背叛）、或是达成削减武器协议（合作）。两国都无法肯定对方会遵守协议，因此两国最终会倾向增加军备。似乎自相矛盾的是，虽然增加军备会是两国的“理性”行为，但结果却显得“非理性”（例如会对经济造成损坏等）。这可视作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。

经济学例子：关税战

两个国家，在关税上可以有以两个选择:

提高关税，以保护自己的商品。（背叛）

与对方达成关税协定，降低关税以利各自商品流通。（合作）

当一国因某些因素不遵守关税协定，而独自提高关税（背叛）时，另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。然后二国又重新达成关税协定。（重复博弈的结果是将发现共同合作利益最大。）

商业例子：广告战

商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。

两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告，收入增加很少但成本增加。但若不提高广告质量，生意又会被对方夺走。

此二公司可以有二选择：

互相达成协议，减少广告的开支。（合作）

增加广告开支，设法提升广告的质量，压倒对方。（背叛）

若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。

纳什均衡：这是一个第一人称视角的状态。在这种状态下，首先分析我自己。因为无论使用什么策略我都不能使自己的效用更高，所以我不在意我使用各种策略时对别人的影响。因为我已经达到了我的最优，我也无意去伤害别人。如果每个人都达到了和我一样的状态，那么这种状态就叫纳什均衡。

帕累托最优：这是一个第三人称视角（上帝视角）的状态。假设我是上帝，我有能力让游戏里每个玩家都听从我的安排去选择策略。我的任务是使得每个玩家个人效用在给定条件下达到最大化，于是在我给每个人安排策略的过程中，免不了会出现一种状态，这种状态即是如果我想让一个人效用更加大一些，那么至少另外一个人的效用会降低。在我不同的策略安排下，会存在不同的帕累托最优状态。对于每个玩家来说，他没法去反抗我的安排，但他可能会有去伤害别人来提高自己效用的动机。

什么，还是听不懂？用通俗的语言来解释一下，纳什均衡是普通人生活的和谐社会，帕累托最优则是上帝构建的伊甸园。生活在纳什均衡里的人的都是“性善者”。而生活在帕累托最优里的都是“有反抗动机的服从者”。

更多精彩内容