Yin的笔记本

vuePress-theme-reco Howard Yin    2021 - 2025
Yin的笔记本 Yin的笔记本

Choose mode

  • dark
  • auto
  • light
Home
Category
  • CNCF
  • Docker
  • namespaces
  • Kubernetes
  • Kubernetes对象
  • Linux
  • MyIdeas
  • Revolution
  • WebRTC
  • 云计算
  • 人工智能
  • 分布式
  • 图像处理
  • 图形学
  • 微服务
  • 数学
  • OJ笔记
  • 博弈论
  • 形式语言与自动机
  • 数据库
  • 服务器运维
  • 编程语言
  • C
  • Git
  • Go
  • Java
  • JavaScript
  • Python
  • Nvidia
  • Rust
  • Tex
  • Shell
  • Vue
  • 视频编解码
  • 计算机网络
  • SDN
  • 论文笔记
  • 讨论
  • 边缘计算
  • 量子信息技术
Tag
TimeLine
About
查看源码
author-avatar

Howard Yin

303

Article

153

Tag

Home
Category
  • CNCF
  • Docker
  • namespaces
  • Kubernetes
  • Kubernetes对象
  • Linux
  • MyIdeas
  • Revolution
  • WebRTC
  • 云计算
  • 人工智能
  • 分布式
  • 图像处理
  • 图形学
  • 微服务
  • 数学
  • OJ笔记
  • 博弈论
  • 形式语言与自动机
  • 数据库
  • 服务器运维
  • 编程语言
  • C
  • Git
  • Go
  • Java
  • JavaScript
  • Python
  • Nvidia
  • Rust
  • Tex
  • Shell
  • Vue
  • 视频编解码
  • 计算机网络
  • SDN
  • 论文笔记
  • 讨论
  • 边缘计算
  • 量子信息技术
Tag
TimeLine
About
查看源码
  • 博弈论

    • Normal form game
      • 最佳响应 Best Response
        • 纳什均衡 Nash Equilibrium
          • 优势策略 dominant strategy
            • 帕累托最优 Pareto Optimality
              • 定义:解A强帕累托支配解B
              • 定义:解A能帕累托支配解B
              • 定义:最优解
              • 定义:帕累托最优解
              • 定义:帕累托最优前沿
            • Mixed strategy

            博弈论

            vuePress-theme-reco Howard Yin    2021 - 2025

            博弈论


            Howard Yin 2022-07-11 14:24:00 数学博弈论

            # Normal form game

            形式化定义一个可终止(Finite)的、有nnn个主体参与的博弈为:

            ⟨N,A,u⟩\langle N, A, u\rangle ⟨N,A,u⟩

            其中,

            • Players:N={1,…,i,…,n}N= \left\{1,\dots,i,\dots,n \right\}N={1,…,i,…,n}表示参与博弈的主体
            • Actions:AiA_iAi​表示Player iii可以采取的动作集合,定义Action Profile为a=(a1,…,an)∈A=A1×⋯×Ana=(a_1,\dots,a_n)\in A=A_1\times \dots \times A_na=(a1​,…,an​)∈A=A1​×⋯×An​,表示一个可能出现的情况
            • Payoff function(Utility function, 效用函数):ui:A↦Ru_i:A\mapsto\mathbb Rui​:A↦R表示Player iii的Payoff function,用来计算特定Action Profile下Player iii可以获取的回报;u=(u1,…,ui,…,un)u=(u_1,\dots,u_i,\dots,u_n)u=(u1​,…,ui​,…,un​)表示profile of utility function

            # 最佳响应 Best Response

            令a−i=⟨a1,…,ai−1,ai+1,…,an⟩a_{-i}=\langle a_1,\dots,a_{i-1},a_{i+1},\dots,a_n\ranglea−i​=⟨a1​,…,ai−1​,ai+1​,…,an​⟩表示除Player iii外的其他所有Player选择的Actions,并将包含Player iii在内的所有Player选择的Actions记为a=(a−i,ai)a=(a_{-i},a_i)a=(a−i​,ai​)

            对于某已知的a−ia_{-i}a−i​,其最佳响应集BR(a−i)BR(a_{-i})BR(a−i​)定义为:

            BR(a−i)={ai∗∣∀ai∈Ai,ui(ai∗,a−i)≥ui(ai,a−i)}BR(a_{-i})=\{a_i^*|\forall a_i\in A_i, u_i(a_i^*,a_{-i})\geq u_i(a_i,a_{-i})\} BR(a−i​)={ai∗​∣∀ai​∈Ai​,ui​(ai∗​,a−i​)≥ui​(ai​,a−i​)}

            即在已知所有其他Player选择的Actiona−ia_{-i}a−i​的情况下给Player iii带来最大效用的aia_iai​的集合

            # 纳什均衡 Nash Equilibrium

            Pure Strategy 纳什均衡a=⟨a1,…,ai,…,an⟩a=\lang a_1,\dots,a_i,\dots,a_n\ranga=⟨a1​,…,ai​,…,an​⟩定义为:

            ∀i∈[1,n],ai∈BR(a−i)\forall i\in[1,n],a_i\in BR(a_{-i}) ∀i∈[1,n],ai​∈BR(a−i​)

            即每个Player的Action均为Best Response的Action Profile

            # 优势策略 dominant strategy

            令S−i={a−i}S_{-i}=\{a_{-i}\}S−i​={a−i​}表示除Player iii外的其他所有Player所有可能Action的集合

            策略sis_isi​严格优于(strictly dominates)si′s_i'si′​定义为

            ∀s−i∈S−i,ui(si,s−i)>ui(si′,s−i)\forall s_{-i}\in S_{-i},u_i(s_i,s_{-i})>u_i(s_i',s_{-i}) ∀s−i​∈S−i​,ui​(si​,s−i​)>ui​(si′​,s−i​)

            策略sis_isi​弱优于(very weakly dominates)si′s_i'si′​定义为

            ∀s−i∈S−i,ui(si,s−i)≥ui(si′,s−i)\forall s_{-i}\in S_{-i},u_i(s_i,s_{-i})\geq u_i(s_i',s_{-i}) ∀s−i​∈S−i​,ui​(si​,s−i​)≥ui​(si′​,s−i​)

            严格优于所有其他策略的策略称为优势策略

            # 帕累托最优 Pareto Optimality

            多目标优化问题的数学模型一般可以写成如下形式:

            minf(x)={f1(x),f2(x),…,fn(x)}s.t.x∈XX⊆Rm\begin{aligned} min&\quad&&f(x)=\{f_1(x),f_2(x),\dots,f_n(x)\}\\ s.t.&&&x\in X\\ &&&X\subseteq R^m \end{aligned} mins.t.​​​f(x)={f1​(x),f2​(x),…,fn​(x)}x∈XX⊆Rm​

            其中,f1(x),f2(x),…,fn(x)f_1(x),f_2(x),\dots,f_n(x)f1​(x),f2​(x),…,fn​(x)表示nnn个目标函数,X⊆RmX\subseteq R^mX⊆Rm是其变量约束的集合。

            # 定义:解A强帕累托支配解B

            假设现在有两个目标函数,解A对应的目标函数值都比解B对应的目标函数值好,则称解A比解B优越,也可以叫做解A强帕累托支配解B

            # 定义:解A能帕累托支配解B

            同样假设两个目标函数,解A对应的一个目标函数值优于解B对应的一个目标函数值,但是解A对应的另一个目标函数值要差于解B对应的一个目标函数值,则称解A无差别于解B,也叫作解A能帕累托支配解B

            # 定义:最优解

            假设在设计空间中,解A对应的所有目标函数值都达到最优,则称解A为最优解

            必须有一个点让所有函数同时最优,条件很苛刻,基本不可能

            # 定义:帕累托最优解

            假设两个目标函数,对于解A而言,在 变量空间 中找不到其他的解能够强帕累托支配解A,那么解A就是帕累托最优解(在其他任何解上都有一些目标函数值比解A差)(通常是一个范围)

            比如上图这样的帕累托最优就是一个范围[x1,x2][x_1,x_2][x1​,x2​]

            # 定义:帕累托最优前沿

            帕累托最优解组成的集合

            # Mixed strategy

            Mixed strategy是Action的概率分布。不同于Pure strategy中的策略aia_iai​定义为Playeriii从策略集AiA_iAi​中选择的某个Action,Mixed strategy中的策略sis_isi​定义为Playeriii在策略集AiA_iAi​上的概率分布。

            定义sis_isi​为Playeriii在策略集AiA_iAi​上的概率分布,si(ai)s_i(a_i)si​(ai​)为Playeriii选择策略aia_iai​的概率,令a−i=⟨a1,…,ai−1,ai+1,…,an⟩a_{-i}=\langle a_1,\dots,a_{i-1},a_{i+1},\dots,a_n\ranglea−i​=⟨a1​,…,ai−1​,ai+1​,…,an​⟩表示除Player iii外的其他所有Player选择的Actions,并将包含Player iii在内的所有Player选择的Actions记为a=(a−i,ai)a=(a_{-i},a_i)a=(a−i​,ai​)。那么,Mixed strategy下的纳什均衡s=⟨s1,…,si,…,sn⟩s=\lang s_1,\dots,s_i,\dots,s_n\rangs=⟨s1​,…,si​,…,sn​⟩定义为:

            ∀i∈N,∀ai∈Ai∑aui(a)∏j∈Nsj(aj)≥∑a−iui(a−i,ai)∏j∈N,j≠isj(aj)\forall i\in N,\forall a_i\in A_i\quad\sum_{a}u_i(a)\prod_{j\in N}s_j(a_j)\geq \sum_{a_{-i}}u_i(a_{-i},a_i)\prod_{j\in N,j\not=i}s_j(a_j) ∀i∈N,∀ai​∈Ai​a∑​ui​(a)j∈N∏​sj​(aj​)≥a−i​∑​ui​(a−i​,ai​)j∈N,j​=i∏​sj​(aj​)

            很显然,不等式左边的ui(a)u_i(a)ui​(a)表示某个Action组合aaa给Playeriii带来的效用,∏j∈Nsj(aj)\prod_{j\in N}s_j(a_j)∏j∈N​sj​(aj​)是aaa中的Action aja_jaj​在Mixed strategy策略sjs_jsj​中的概率,所以很显然这一项是Action组合aaa在Mixed strategy策略sjs_jsj​下发生的概率,所以整个∑aui(a)∏j∈Nsj(aj)\sum_{a}u_i(a)\prod_{j\in N}s_j(a_j)∑a​ui​(a)∏j∈N​sj​(aj​)这一项就表示所有Player的Mixed strategy策略给Playeriii带来的效用值的数学期望。

            而不等式右边的的项很显然就是Playeriii确定选某个aia_iai​的情况下(si(ai)=1s_i(a_i)=1si​(ai​)=1)的Mixed strategy策略给Playeriii带来的效用值的数学期望。

            所以用人话将,Mixed strategy下的纳什均衡就是:所有Playeriii确定选择任何一个策略aia_iai​都不如Mixed strategy策略sis_isi​能带来更大的效用期望值。

            帮助我们改善此页面!
            创建于: 2022-06-29 15:44:58

            更新于: 2022-07-11 14:24:02