Evolutionary Policy Iteration Under a Sampling Regime for Stochastic Combinatorial Optimization

Lauren A Hannah,Warren B Powell

doi:10.1109/tac.2010.2042766

Evolutionary Policy Iteration Under a Sampling Regime for Stochastic Combinatorial Optimization

Lauren A Hannah, Warren B Powell

https://doi.org/10.1109/tac.2010.2042766

Copy DOI

Journal: IRE Transactions on Automatic Control	Publication Date: May 1, 2010
Citations: 10

Affiliation: Princeton University

#Infinite Horizon Markov Decision Processes #Stochastic Combinatorial Optimization + Show 8 more

Abstract
Full-Text PDF
Similar Papers

Abstract

This article modifies the evolutionary policy selection algorithm of Chang et al., which was designed for use in infinite horizon Markov decision processes (MDPs) with a large action space to a discrete stochastic optimization problem, in an algorithm called Evolutionary Policy Iteration-Monte Carlo (EPI-MC). EPI-MC allows EPI to be used in a stochastic combinatorial optimization setting with a finite action space and a noisy cost (value) function by introducing a sampling schedule. Convergence of EPI-MC to the optimal action is proven and experimental results are given.

Full Text