El aprendizaje de la estructura jerárquica de un refuerzo de tareas

votos
2

He estado estudiando los problemas de aprendizaje de refuerzo hierachial, y al mismo tiempo una gran cantidad de documentos de proponer formas interesantes para el aprendizaje de una política, todos ellos parecen asumir que saben de antemano una estructura gráfica que describe las acciones en el dominio. Por ejemplo, el método jerárquico para MaxQ aprendizaje por refuerzo por Dietterich describe un gráfico complejo de acciones y sub-tareas para un dominio Taxi simple, pero no cómo se descubrió esta gráfica. ¿Cómo se aprende la jerarquía de este gráfico, y no sólo la política?

Publicado el 27/09/2010 a las 02:10
fuente por usuario
En otros idiomas...                            


3 respuestas

votos
0

Digamos que hay por ahí que este agente se mueve en hacer las cosas. Usted no sabe sus objetivos internos (gráfico tarea). ¿Cómo se puede inferir sus objetivos?

En modo cierto, esto es imposible. Al igual que es imposible para mí saber cuál es el objetivo que tenía la mente cuando se pone esa caja: tal vez estabas cansado, tal vez usted vio una abeja asesina, tal vez lo que tenía que hacer pis ....

Usted está tratando de modelar la estructura de meta interna de un agente. Con el fin de hacer que usted necesita algún tipo de orientación en cuanto a lo que son el conjunto de posibles objetivos y cómo éstos están representados por acciones. En la literatura de investigación de este problema ha sido estudiado bajo los términos "plan de reconocimiento", y también con el uso de POMDP (parcialmente observable proceso de decisión de Markov), pero ambas técnicas suponer que usted sabe algo acerca de los objetivos del otro agente.

Si usted no sabe nada acerca de sus objetivos, todo lo que puede hacer es inferir o bien uno de los modelos anteriores (Esto es lo que hacen los humanos. Asumo que otros tienen los mismos objetivos que hago. Nunca pienso, "Oh, dejó caer su ordenador portátil, que debe estar listo para poner un cse huevo", que es un ser humano) o modelarlo como un cuadro negro:. simples acciones de estado a la función a continuación, añadir los estados internos, según sea necesario (hmmmm, alguien debe haber escrito un documento en esto, pero no sé quién).

Respondida el 27/09/2010 a las 09:30
fuente por usuario

votos
1

En MaxQ de Dietterich, el gráfico se construye manualmente. Se considera que es una tarea para el diseñador del sistema, de la misma manera que viene con un espacio de representación y de recompensa son funciones.

Dependiendo de lo que estamos tratando de lograr, es posible que desee en descomponerse de forma automática el espacio de estados, aprender las características relevantes, o transferir la experiencia de tareas simples a los más complejos.

Yo sugeriría que acaba de empezar la lectura de los documentos que se refieren a la que se ha vinculado a MaxQ. Sin saber qué es exactamente lo que quiere lograr, no puedo ser muy prescriptivo (y no estoy realmente en la cima de toda la investigación actual RL), pero es posible encontrar ideas relevantes en la obra de Luo, Bell & McCollum o los papeles por Madden y Howley.

Respondida el 27/09/2010 a las 17:16
fuente por usuario

votos
1

Este documento describe un enfoque que es un buen punto de partida:

N. Mehta, S. Ray, P. Tadepalli, y T. Dietterich. Descubrimiento automático y transferencia de MaxQ jerarquías. En Conferencia Internacional sobre Aprendizaje Automático, 2008.

http://web.engr.oregonstate.edu/~mehtane/papers/hi-mat.pdf

Respondida el 06/10/2010 a las 22:25
fuente por usuario

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more