瑜同學(xué)
2025-07-31 14:56老師,為什么這里的G=1,G是代表未來的期望獎(jiǎng)勵(lì),還是未來的期望獎(jiǎng)勵(lì)之和,贏了的獎(jiǎng)勵(lì)是1,輸了的獎(jiǎng)勵(lì)是-1,這個(gè)G是怎么得出來的呢
所屬:FRM Part I > Quantitative Analysis 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個(gè)回答
黃石助教
2025-08-01 10:47
該回答已被題主采納
同學(xué)你好。G為未來期望獎(jiǎng)勵(lì)之和,說人話就是算法做了這一次試驗(yàn)(例子里就是玩了一次游戲)所能得到的所有獎(jiǎng)勵(lì)之和。在這個(gè)例子里,只有最后游戲結(jié)束時(shí)有獎(jiǎng)勵(lì),所以G就等于游戲結(jié)束時(shí)的獎(jiǎng)勵(lì)。一般來說我們還要考慮折現(xiàn)的問題,就是游戲結(jié)束時(shí)的1并不等于當(dāng)前的1,所以一般會(huì)在1前面乘上一個(gè)小于1的折現(xiàn)因子。但考試的話目前來看基本都不考慮折現(xiàn)的問題。
