
歐冠盃下注NFSP 代理常規性地訓練自己的平均策略網絡 π = FS,百家樂玩法介紹與自己存儲在自己監督學習記憶中的平均行為相匹配,例如通過最優化過去行為的日志概率。算法(1)呈現了使用 DQN 進行強化學習的 NFSP。算法1:使用 DQN 進行強化學習的 NFSP。4、實驗我們在百家樂(Southey 等人,2005)和限制德州拿住百家樂中評估 NFSP 和相關算法。百家樂玩法介紹我們大部分的實驗學會策略描述的可利用性。在一個雙玩家零和遊戲中,一項策略描述的可利用性定義為,最優回應描述可以獲得的期望平均回報。2δ 的可利用性至少是一個 δ-納什均衡。4.1. XFP 運彩比分的強度要理解函數近似如何與 FSP 互動,我們以一些簡單實驗開始,模擬近似,並從全寬度算法 XFP 中獲取錯誤樣本。首先,我們探索當用一個靠近梯度下降的增量平均過程代替 XFP 中使用的完美平均,會有什麼結果。然後,我們探索當用一個帶 ε 誤差的近似代替 XFP 中使用的同一個查表法,會有什麼結果。圖1顯示了帶有默認值 1/T 和策略更新定步長的 XFP 的表現。我們看見漸進提高了,但是針對更小步長的最初表現變低了。對於定步長,表現似乎是達到平穩、而非偏離。百家樂玩法介紹使用蓄水池取樣可以實現高效的定步長,為 1/T。但是,結果顯示指數平均的蓄水池取樣同樣可行,因為指數平均過往記憶會近似對應於使用一個定步長。定步長為1的 XFP等同於一個全寬度迭代最優回應算法。