
老虎機雖然在有限完美信息雙玩家零和遊戲中這個算法收斂於納什均衡,結果顯示,百家樂玩法與賠率在不完美信息中這就不能成立了。Yakovenko 等人(2016)引入的百家樂-CNN 算法存儲少量過往策略,基於這些策略迭代性地計算新策略。代替那個集合中的策略類似於更新一個具有很大定步長的平均策略。這有可能導緻類似圖1中顯示的問題。我們的 NFSP 代理在他們的策略中加入隨機探索,使用噪音隨機梯度來學習行動價值。因此,百家樂玩法與賠率我們研究了在最優回應計算中加入隨機噪音的影響,XFP 通過動態編程來運行最優回應計算。在逆向掃納法的每一步,我們傳回一個帶有概率 ε 的均勻隨機行動的值,否則則傳回最佳行動的值。圖2顯示出,增加噪音時表現清一色地下降。但是,表現仍保持穩定,對於所有噪音等級來說都持續改善。4.2. NFSP的收斂我們實證研究了在 LHE 遊戲中 NFSP 收斂至納什均衡。百家樂玩法與賠率我們還研究了去除或改變一些 NFSP 的組成部分是否會打破收斂。我們的一項目標,是將對過往知識的依賴性最小化。因此,我們希望定義一個百家樂中信息狀態的目標編碼。與其他計算機百家樂的研究不同(Zinkevich 等人, 2007; Gilpin 等人, 2007; Johanson 等人, 2013),我們不進行任何高層級特征的工程。百家樂通常包含很多輪。在每一輪,新卡片發給玩家。我們將每一輪的卡片用一個“n 個中的第 k 個”編碼來表征,例如,當 LHE 有一疊52張卡片,第二輪發出三張新卡老虎機。