
類似的,在2014 ACPC中,表現前一半的計算機代理自己實現了最高 60 mbb/h 的預期勝率。在訓練中,我們基於 SmooCT 周期性地評估 NFSP 的表現,每一個都玩25000手。圖6呈現了 NFSP 的學習表現。NFSP 的平均和貪婪平均策略描述顯示了一個穩定、贏百家樂技巧相對統一的表現改善,並分別實現了大約-50 mbb/h 和-20 mbb/h 的勝率。最優回應策略描述在每次表現中體現了更多的噪音,大部分在 -50 到 0 mbb/h 的範圍內。我們還基於2014 ACPC中的前三名,評估了最終貪婪平均策略。5. 贏百家樂技巧相關研究依賴人類專家知識可能會很昂貴,而且如果知識是次優的,可能會受到人類偏見和限制的影響。但是,許多已經應用在遊戲中的方法都依賴人類專家的知識。深藍在象碁中使用人類制造的評估函數(Campbell等人,2002)。在計算機圍碁中,Maddison等人(2015)和Clark & Storkey (2015)用人類專家下碁的數據來訓練深度神經網絡。在計算機百家樂中,目前的遊戲理論方法使用啟發式方法來理解卡片強度,贏百家樂技巧從而將遊戲抽象至可以駕馭的規模(Zinkevich等人, 2007; Gilpin等人, 2007; Johanson等人,2013)。Waugh等人(2015)最近將其中一種方法與函數近似相結合。然而,他們的全寬度算法必須暗中推導每一次迭代中的所有信息狀態,這在大的領域來說過於昂貴。與之相比,NFSP 專注在基於樣本的強化學習設定,其中遊戲的狀態不需要全部列舉,學習者甚至不需要有一個遊戲動態的模型。許多遊戲中的成功應用依賴本地搜索(Campbell等人,2002;Browne等人,2012)。