Estimation and control
 in finite Markov decision processes
 with the average reward criterion

Rolando Cavazos-Cadena; Raúl Montes-de-Oca

doi:10.4064/am31-2-1

Estimation and control in finite Markov decision processes with the average reward criterion

Rolando Cavazos-Cadena ¹ ; Raúl Montes-de-Oca ²

¹Departamento de Estadística y Cálculo Universidad Autónoma Agraria Antonio Narro Buenavista, Saltillo COAH 25315, México
²Departamento de Matemáticas Universidad Autónoma Metropolitana Campus Iztapalapa Avenida San Rafael Atlixco #186 Colonia Vicentina México 09340, D.F., México

Applicationes Mathematicae, Tome 31 (2004) no. 2, pp. 127-154

Cet article a éte moissonné depuis la source Institute of Mathematics Polish Academy of Sciences

Voir la notice de l'article

Résumé

This work concerns Markov decision chains with finite state and action sets. The transition law satisfies the simultaneous Doeblin condition but is unknown to the controller, and the problem of determining an optimal adaptive policy with respect to the average reward criterion is addressed. A subset of policies is identified so that, when the system evolves under a policy in that class, the frequency estimators of the transition law are consistent on an essential set of admissible state-action pairs, and the non-stationary value iteration scheme is used to select an optimal adaptive policy within that family.

DOI : 10.4064/am31-2-1

Keywords: work concerns markov decision chains finite state action sets transition law satisfies simultaneous doeblin condition unknown controller problem determining optimal adaptive policy respect average reward criterion addressed subset policies identified system evolves under policy class frequency estimators transition law consistent essential set admissible state action pairs non stationary value iteration scheme select optimal adaptive policy within family

Affiliations des auteurs :

Rolando Cavazos-Cadena ¹ ; Raúl Montes-de-Oca ²

¹ Departamento de Estadística y Cálculo Universidad Autónoma Agraria Antonio Narro Buenavista, Saltillo COAH 25315, México
² Departamento de Matemáticas Universidad Autónoma Metropolitana Campus Iztapalapa Avenida San Rafael Atlixco #186 Colonia Vicentina México 09340, D.F., México

@article{10_4064_am31_2_1,
     author = {Rolando Cavazos-Cadena and Ra\'ul Montes-de-Oca},
     title = {Estimation and control
 in finite {Markov} decision processes
 with the average reward criterion},
     journal = {Applicationes Mathematicae},
     pages = {127--154},
     year = {2004},
     volume = {31},
     number = {2},
     doi = {10.4064/am31-2-1},
     language = {en},
     url = {http://geodesic.mathdoc.fr/articles/10.4064/am31-2-1/}
}

TY  - JOUR
AU  - Rolando Cavazos-Cadena
AU  - Raúl Montes-de-Oca
TI  - Estimation and control
 in finite Markov decision processes
 with the average reward criterion
JO  - Applicationes Mathematicae
PY  - 2004
SP  - 127
EP  - 154
VL  - 31
IS  - 2
UR  - http://geodesic.mathdoc.fr/articles/10.4064/am31-2-1/
DO  - 10.4064/am31-2-1
LA  - en
ID  - 10_4064_am31_2_1
ER  -

%0 Journal Article
%A Rolando Cavazos-Cadena
%A Raúl Montes-de-Oca
%T Estimation and control
 in finite Markov decision processes
 with the average reward criterion
%J Applicationes Mathematicae
%D 2004
%P 127-154
%V 31
%N 2
%U http://geodesic.mathdoc.fr/articles/10.4064/am31-2-1/
%R 10.4064/am31-2-1
%G en
%F 10_4064_am31_2_1

Rolando Cavazos-Cadena; Raúl Montes-de-Oca. Estimation and control
 in finite Markov decision processes
 with the average reward criterion. Applicationes Mathematicae, Tome 31 (2004) no. 2, pp. 127-154. doi: 10.4064/am31-2-1

Cité par Sources :

Parcourir par

Geodesic

Parcourir par