Importance sampling actor-critic algorithms

J.L Williams,A.S Willsky,J.W Fisher

doi:10.1109/acc.2006.1656451

Importance sampling actor-critic algorithms

J.L Williams, A.S Willsky + Show 1 more

Open Access

https://doi.org/10.1109/acc.2006.1656451

Copy DOI

Publication Date: Jan 1, 2006

Citations: 12

#Importance Sampling #Importance Sampling Estimator + Show 8 more

Abstract
Full-Text PDF
Similar Papers

Abstract

Importance sampling (IS) and actor-critic are two methods which have been used to reduce the variance of gradient estimates in policy gradient optimization methods. We show how IS can be used with temporal difference methods to estimate a cost function parameter for one policy using the entire history of system interactions incorporating many different policies. The resulting algorithm is then applied to improving gradient estimates in a policy gradient optimization. The empirical results demonstrate a 20-40 /spl times/ reduction in variance over the IS estimator for an example queueing problem, resulting in a similar factor of improvement in convergence for a gradient search.

Full Text