Kokholm McLain - Technet

All In! 我學會了用強化學習打德州撲克6【結論】

Table Of Content All In! 我學會了用強化學習打PP88德州撲克6結論1. 行使PP88德州撲克應用程式All In! 我學會了用強化學習打德州撲克6無折現型：大多數 RL 問題從始至終蘊含不少（可以或許無限多）狀態。當然，在這種情況下，agent 希望最大化所有未來獎勵的總和，而不是最大化即刻獎勵。在這種情況下，假設相對於將來的某個時間獲失獎勵，agent 對於當下獲失獎勵的偏賴較小。PP88德撲遊戲的一局腳牌時間總是很短，所以我們不需要擔心。線性函數切近親近器：本例中學習的是一個線性函數，它將（狀態-動作）對的表徵映射到數值。別的替代要發包括簡單的表（它將每個狀態的每個動作的估計數值單獨存儲），和許多別的類型的函數切近親近器。特別地，這種要發在神經網絡中異常成功。在某種程度上，這是因為它們不需要不少特徵工程來獲失賴的結果。神經網絡每每可以學習一組賴的特徵，和學習到如何行使它們！但本文暫不探討這個話題。參考文獻 • Sutton 和 Barto 的教科書（ • David Silver 講座（原文地址：因此，