
MLB即時比分在納什均衡中,沒有哪個玩家在偏離策略的時候能有收獲。因此,納什均衡可以作為一個理性自我對戰學習的定點。實際上,納什均衡是唯一一個理性代理有望在自我對戰中收斂的策略描述(Bowie & Veloso,2001)。2.3. 虛擬自我對戰“虛擬對戰”(Brown,1951)是一個從自我對戰中學習的遊戲理論模型。虛擬玩家選擇對應對手平均行為的最優回應。百家樂路單虛擬玩家的平均策略在特定遊戲類別中收斂於納什均衡,例如,雙玩家的零和遊戲和多玩家潛在博弈(Robinson, 1951; Monderer & Shapley, 1996)。Leslie & Collins (2006)引入了概括化的弱化虛擬對戰,具有與普通虛擬對戰相似的收斂保證,MLB即時比分但是允許近似最優回應和擾動平均策略更新,使其特別適合機器學習。虛擬對戰通常以正則形式定義,這比擴展式博弈論表述要低效得多。Heinrich 等人 (2015) 引入了“全寬度擴展式虛擬對戰”(XFP),百家樂路單讓虛擬玩家可以行為主義地、擴展式地更新策略,這造成了線性時間和空間的復雜度。一個關鍵結論是,對於一個正則形式策略的凸組合,我們可以獲得一個等同於實現的行為主義策略 δ,方法是將其設定為與對應的實現概率凸組合成比例,百家樂路單其中是在信息狀態 s 中策略的正則化常數。除了定義行為策略中虛擬玩家的全寬度平均策略更新,方程(1)規定了一種從此類策略的凸組合數據庫中取樣的方法。Heinrich 等人(2015)引入了“虛擬自我對戰”(FSP),一種基於樣本和機器學習類別的算法,可以近似 XFP。