
本地搜索算法在遊戲中,實時、有效地計劃決策,例如通過蒙特卡洛模擬或者有限深度逆向掃納法。但是,常見的基於模擬的本地搜索算法應用在信息不完美的百家樂中時,已經證實會偏離(Ponsen等人,2011;Heinrich & Silver,2015)。而且,線上百家樂技巧即便是遊戲理論方法在信息不完美遊戲中進行本地規劃時,通常也沒法實現不可利用的行為(Burch等人,2014;Ganzfried & Sandholm,2015;Lisy等人,2015)。本地搜索的另一個問題是,如果沒有注入原有知識來引導搜索,線上百家樂技巧實時運行的成本有可能非常巨大。這引發了如何獲得這種原有知識的問題。Silver等人(2016)用人類專家數據訓練了卷積神經網絡,然後使用一個自我對戰強化學習過程來進一步優化這些網絡。通過使用這項神經網絡來引導高性能本地搜索,他們戰勝了圍碁大師。在這項研究中,我們不使用任何實時本地搜索來評估我們的代理。如果可以開發針對信息不完美遊戲的本地搜索方法,NFSP 訓練的策略可以是引導搜索的一個好選擇。納什均衡是理性代理可以在自我對戰中有望收斂的唯一策略描述(Bowling & Veloso,2001)。TD-Gammon(Tesauro,1995)線上百家樂技巧是一個歐冠級別的西洋雙陸碁代理,ku娛樂城它的主要組成部分是一個用自我對戰強化學習訓練的神經網絡。雖然其算法基於臨時差異學習,在雙玩家、信息完美的零和遊戲中是可行的,可是在不完美遊戲中總體來說不能收斂。