博弈论笔记:重复博弈
1 序贯博弈与重复博弈
1.1 序贯博弈(sequential game)
参与人在前一个决策点的选择决定随后的子博弈的结构。因此, 从后一个决策点开始的子博弈不同于从前一个决策点开始的子博弈。或者说,同样结构的子博弈只出现一次。1.2 重复博弈(repeated game)
同样结构的博弈重复多次,其中的每次博弈被称为“阶段博弈” (stage game)。(重复博弈中的每一个子博弈:阶段博弈)1.2.1 重复博弈的特点
->阶段博弈之间没有物理上的联系(前一段博弈的结果不影响后一阶段博弈的结构)
->每一个参与人都可以观察到博弈过去的历史
->每个参与者最后得到的报酬=各个阶段博弈支付的贴现值之和
如果博弈不是一次的,而是重复进行的,参与人过去行动的历史是可以观察到的,参与人就可以将自己的选择依赖于其他人之前的行动。--->因而有了更多的战略可以选择,均衡结果可能与一次博弈大不相同。
重复博弈理论的最大贡献是对人们之间的合作行为提供了理性解释。在囚徒困境中,一次博弈的唯一均衡是不合作(即坦白)。但如果博弈无限重复,合作就可能出现。
2 战略空间
2.1 不依赖于过去行动历史的战略
·永远背叛战略:All-D——永远不合作
·永远合作战略:All-C——永远合作
2.2 依赖于过去行动历史的战略
2.2.1 针锋相对战略(tit-for-tat)
第一次采取合作,之后每一次的行动都建立在对手前一次行动的基础上。
如果你今天不和我合作,我明天也不和你合作;如果你今天和我合作了,那我明天也和你合作。
2.2.2 触发战略/冷酷战略(trigger strategies)
第一次采取合作
之后只要没有不合作,就一直合作下去;一旦有一次不合作,之后就都不合作。
3 合作的假值和耐心
本节需要用到的囚徒困境模型
同时就像 博弈论笔记1:囚徒困境与纳什均衡_刘文巾的博客-CSDN博客_博弈说的那样,R>T>P>S; (S+R)<T+T
我们引入贴现因子β(明天的一块钱=今天的β块钱)【β越大——越耐心,越重视未来】
维持长期合作的话,每个人的收益为, 从这里也能看出,β越大,也就是越耐心,长期合作的收益越大,也就越会合作。
当然,未来利益对人的重要程度还和很多因素有关:
->年龄:“59岁现象”(60岁退休的人,在他59岁的时候,可能会选择更加重视眼前利益的策略)
->家庭:有家庭的人更重视未来的收益
->宗教:因果轮回
4 无名氏定理
在一个无限期的重复博弈中,如果每个参与人对未来都足够重视(β足够大),那么任何程度的合作都可以作为一种精炼纳什均衡来出现(任何程度——整个博弈中合作的概率)。
5 合作与惩罚
5.1 针锋相对
如果双方都坚持针锋相对战略:
1)首次都选择合作,之后也都合作,双方的收益都是
2)如果对方针锋相对,一方总不合作
那么只有第一轮合作,第二轮开始都不合作。
双方的收益为:
只合作一次的那一方:S+Pβ/(1-β)
一直不合作的那一方R+Pβ/(1-β)
什么时候会合作呢?
合作的收益大于不合作的收益 ,即
合作的好处越大(T越大)/不合作和好处越小(P越小)/单方不合作的收益越小(R越小)
——β的范围越大,合作的可能性越大
5.2 行为的信息传递
假如我不合作两次,才会被发现我的行为。此时的收益为:
此时的合作条件:
经过化简,得到:
通过这个,我们可以得到结论:欺骗行为越晚被发现(越难被发现),欺骗发生的可能性就越大。合作就越困难。
5.3 针锋相对战略是一种纳什均衡,但不是一种精炼纳什均衡
t+1时刻,A知道B会合作,所以自己就不会不合作,反而会合作
——所以针锋相对就不是一个精炼纳什均衡
6 多重关系对于合作的影响
多重交易关系会对人们博弈中的行为产生 重要影响,使得人们之间更容易达成合作。
建立更多关系以达成合作
多重交易问题产生的惩罚的不可信问题:由于惩罚方和被惩罚方有关系,所以惩罚不仅惩罚了被惩罚者,惩罚者本人也在一定程度上被惩罚了
假设两人使用针锋相对战略,那么:
在交易关系1中,合作条件是
在交易关系2中,合作条件是
如果这种交易在同样的两个人之间进行,即这两个人同时进行这两种交易,那么此时的交易关系矩阵变为:
| 合作 | 不合作 | |
| 合作 | (3+5,3+5)=(8,8) | (-1+0,4+9)=(-1,13) |
| 不合作 | (4+9,-1+0)=(13,-1) | (0+4,0+4)=(4,4) |
此时的合作关系为
如果本来的β为0.6 那么如果两个交易分开进行的话,只会进行交易1。如果交易1和交易2同时进行,那么此时在这个β的条件下,交易和交易2 都可以进行。
市场交易常常镶嵌在复杂的社会关系中。这种关系可以提高交易的合作程度。这也是人们愿意发展社会关系的原因。(家庭血缘关系、朋友关系、同学关系、老乡关系。。。)
6.1 杀熟困境
如果惩罚对惩罚者本身的损害太大,惩罚就是不可信的。 这与投鼠忌器是一个道理,你讨厌老鼠,但是你没有办法,因为你心疼那个盘子,那个器皿。投鼠忌器在企业内部很多环节都会发生,导致惩罚不可信,所以对方就不会太注重信誉。家族成员有时候比非家族成员更不可信任,更不守规矩,就是这个道理。 朋友专门骗朋友,是“杀熟”。问题也与惩罚的不可信有关。
6.2 第三方实施惩罚
前面假定了固定的一对参与人进行重复博弈, 对不合作的惩罚是由“受害人”本人实施的, 称为“second-party enforcement”,或者 “personal enforcement”。 但更经常的情况是参与人不固定的情况。此时, 惩罚要由第三方实施(third-party enforcement)。6.2.1 集体抵制
规则: 每个人都应该诚实,都有责任惩罚骗过人的人;不参与惩罚的人应该受 到惩罚。 如:假定B在t期欺骗了A ,C在t+1期就不应该与B合作。否则,D在t+2 期就不应该与C合作; 如果C在t+1期与B合作,而D在t+2期又与C合作,E在t+3期就不应该与D合作,如此等等; 敌友规则:开始把所有的人当朋友;t期的朋友关系继续保持到t+1期,当只当他在t期不曾骗过任何人并不曾与你的敌人合作,t+1期才继续是朋友。
总结
以上是生活随笔为你收集整理的博弈论笔记:重复博弈的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: 将表中的数据自动生成INSERT、UPD
- 下一篇: 博弈论学习笔记(一)