Technet
  • Home
  • About
  • Write
Subscribe   Signin
Kokholm McLain

Kokholm McLain

1 post published

All In! 我學會了用強化學習打德州撲克6【結論】

All In! 我學會了用強化學習打德州撲克6【結論】

Table Of Content All In! 我學會了用強化學習打PP88德州撲克6結論1. 行使PP88德州撲克應用程式All In! 我學會了用強化學習打德州撲克6無折現型:大多數 RL 問題從始至終蘊含不少(可以或許無限多)狀態。當然,在這種情況下,agent 希望最大化所有未來獎勵的總和,而不是最大化即刻獎勵。在這種情況下,假設相對於將來的某個時間獲失獎勵,agent 對於當下獲失獎勵的偏賴較小。PP88德撲遊戲的一局腳牌時間總是很短,所以我們不需要擔心。 線性函數切近親近器:本例中學習的是一個線性函數,它將(狀態-動作)對的表徵映射到數值。別的替代要發包括簡單的表(它將每個狀態的每個動作的估計數值單獨存儲),和許多別的類型的函數切近親近器。特別地,這種要發在神經網絡中異常成功。在某種程度上,這是因為它們不需要不少特徵工程來獲失賴的結果。神經網絡每每可以學習一組賴的特徵,和學習到如何行使它們!但本文暫不探討這個話題。 參考文獻 • Sutton 和 Barto 的教科書( • David Silver 講座( 原文地址: 因此,

  • Kokholm McLain
Kokholm McLain Jun 29, 2024 • 8 min read
Technet © 2025
  • Data & privacy
  • Contact
  • Contribute →