Acceso abierto al libro Torres J.; (2021). Introducción al aprendizaje por refuerzo profundo. Teoría y práctica en Python. WATCH THIS SPACE Book Series. Kindle Direct Publishing. ISBN 9798599775416
En el capítulo anterior hemos visto que el agente necesita de una política para realizar la tarea encomendada. En este capítulo presentaremos las funciones de valor y la ecuación de Bellman, elementos principales de los algoritmos de aprendizaje para encontrar y comparar políticas para los agentes.
3.1 Funciones de valor
Estimar la función de valor del estado y la función de valor de la acción es un ingrediente esencial de los métodos de aprendizaje por refuerzo. En esta sección presentamos en más detalle estas dos funciones.
Visión global
Para encontrar y comparar políticas, el agente intenta evaluar el «valor» de los estados y las acciones que puede realizar en relación con sus objetivos; para ello se basa en una función de valor. Una función de valor (value function) es una función que en aprendizaje por refuerzo determina lo que es «bueno» para el agente a largo plazo, a diferencia de la recompensa inmediata.
Hay dos tipos de funciones de valor: la función de valor del estado y la función de valor de la acción. La función de valor del estado (state-value function), también conocida en el área como función V (V-function), mide la bondad de cada estado. Nos dice el retorno con descuento que podemos esperar en el futuro si empezamos desde ese estado. En otras palabras, nos dice lo bueno o malo que es estar en un estado particular de acuerdo con el retorno con descuento cuando seguimos una determinada política.
Sin embargo, la cantidad de retorno por descuento no es siempre útil en la práctica, ya que se obtiene para cada episodio específico, por lo que puede variar ampliamente entre un episodio y otro — incluso para el mismo estado — . Pero, si vamos al extremo y calculamos la esperanza matemática (expected value), del retorno con descuento para un estado promediando un gran número de episodios, obtendremos un valor a menudo útil para la función V.
La esperanza matemática de una variable aleatoria x, es el número 𝔼[x] que formaliza la idea de valor medio de una variable aleatoria. Se puede calcular como la suma de la probabilidad de cada posible suceso aleatorio multiplicado por el valor de dicho suceso. Es decir, representa la cantidad promedio que se «espera» como resultado de un experimento aleatorio que se repite muchas veces.
Por otra parte, podemos ampliar la definición de la función de valor de estado, definiendo un valor para cada acción que se puede realizar desde un estado, que la llamaremos función de valor de la acción (action-value function), también conocida como función Q (Q-function). Esta funciónindica lo bueno o malo que es realizar una acción específica del conjunto de acciones que podemos elegir desde el estado en que nos encontramos.
Función V: función de valor del estado
La primera función de valor que hemos presentado es la función de valor del estado o función V. En términos generales, podemos decir que esta función responde a la pregunta básica de «¿Qué esperar desde aquí?». Más formalmente, la función de valor del estado mide la bondad de cada estado según el retorno con descuento al seguir una política 𝜋 determinada.
Es decir, podemos definir la función de valor del estado como una recompensa total esperada (descontada o no descontada, según el valor de gamma) que se puede obtener del estado siguiendo una política 𝜋:

Esta expresión describe el valor esperado del retorno con descuento Gt, comenzando desde el estado s en el time step t y siguiendo la política 𝜋. Se utiliza la esperanza matemática en esta definición porque la función de transición del entorno puede actuar de forma estocástica.
Puede ser de utilidad ver un ejemplo para aclarar un poco más el concepto. Consideremos un entorno determinista muy simple, llamado «trío de estados», de un solo time step, como el que se muestra en la Figura 3.1. Sus características son las siguientes:
- El estado inicial 0 del agente es el estado correspondiente a la celda de en medio.
- El estado final 1 es en el que se encuentra el agente después de ejecutar la acción «ir a la izquierda» desde el estado inicial. La recompensa obtenida de esta acción es + 1.
- El estado final 2 es en el que se encuentra el agente después de realizar la acción «ir a la derecha». La recompensa obtenida de esta acción es + 2.

Podemos representar el comportamiento descrito de este entorno con el gráfico de transición de estados del entorno y recompensas mostrado en la Figura 3.2. Recordemos que se trata de un entorno determinista, de un solo time step, en el que siempre partimos del estado 0 y, una vez que llegamos al estado 1 o al estado 2, el episodio termina.

En este entorno tan simple, formulemos la pregunta de cuál es el valor del estado 0. Recordemos un detalle importante, que es que el valor de un estado siempre se calcula en términos de alguna política que sigue nuestro agente. Incluso en un entorno simple, nuestro agente puede tener diferentes comportamientos (es decir, seguir diferentes políticas), y cada uno de estos comportamientos generará su propio valor para el estado 0, que denotaremos con V(0). Veamos algunos ejemplos de políticas deterministas que podríamos tener en nuestro entorno tan simple:
1. El agente siempre realiza la acción de ir a la izquierda.
2. El agente siempre realiza la acción de ir a la derecha.
3. El agente realiza la acción de ir hacia la izquierda o hacia la derecha con la misma probabilidad.
4. El agente realiza la acción de ir hacia la izquierda mucho menos (con una probabilidad de 0.2) que la de ir hacia la derecha (con una probabilidad de 0.8).
En estas cuatro políticas, el valor del estado 0 resulta diferente en cada caso:
1. En el caso del agente que siempre va a la izquierda, es V (0) = 1.0. Cada vez que el agente comienza, realiza la acción de ir a la izquierda, obtiene la recompensa de +1 y el episodio termina.
2. En el caso del agente que siempre va a la derecha, es V (0) = 2.0. Cada vez que el agente empieza, realiza la acción de ir a la derecha, obtiene la recompensa de +2 y el episodio termina.
3. En el caso del agente que va 0.5 a la izquierda + 0.5 a la derecha, es V(0) = 1.0 × 0.5 + 2.0 × 0.5 = 1.5.
4. En el caso del agente que va 0.2 a la izquierda + 0.8 a la derecha, es V(0) = 1.0 × 0.2 + 2.0 × 0.8 = 1.8.
Son cuatro valores del estado 0 correctos, cuyo cálculo depende de la política que usa el agente para decidir las acciones.
Debido a que el objetivo del agente es obtener la mayor recompensa total posible, estos cálculos nos permiten concluir que la política óptima para este agente en este entorno simple de un time step «trío de estados» es la política «siempre a la derecha».
Pero el ejemplo del entorno «trío de estados» puede dar una falsa impresión de que el agente debe ser «codicioso» (greedy), y actuar siempre pensando en obtener la mayor recompensa inmediata. Desafortunadamente, no es tan simple y este es uno de los desafíos en el aprendizaje por refuerzo, el del compromiso entre exploración y explotación — que introdujimos ya en el capítulo 1, y que se conoce como dilema exploración-explotación (exploration-exploitation dilemma) — . De ello hablaremos en más detalle más adelante. Pero ahora, veamos un ejemplo de entorno para ir familiarizándonos con la función de valor del estado y, a su vez, para entender que se debe explorar más allá de las recompensas inmediatas que podemos encontrar con las acciones desde un estado concreto.
Por ejemplo, extendamos nuestro entorno anterior con otro estado al que se pueda acceder desde el estado 2, tal como muestra la Figura 3.3. En este entorno, llamado «cuarteto de estados», el estado 2 ya no es un estado terminal sino un estado que nos sirve de transición para llegar al estado 3, con una recompensa (muy) mala de –10:

En la Figura 3.4 representamos la transición de estados y recompensas para el entorno «cuarteto de estados».

En este nuevo entorno, también determinista, si aplicamos las mismas cuatro políticas que hemos usado en el anterior entorno, el valor del estado 0 será el siguiente en cada caso:
1. En el caso del agente que siempre va a la izquierda, es el mismo V (0) = 1.0.
2. En el caso del agente que siempre va a la derecha, es V(0)= 2.0 + (–10.0) = –8.0.
3. En el caso del agente que va 0.5 a la izquierda + 0.5 a la derecha, es V(0)=1.0 × 0.5 + (2.0+(–10.0) ) × 0.5 = –3.5
4. En el caso del agente que va 0.2 a la izquierda + 0.8 a la derecha, es V(0)= 1.0 × 0.2 + (2.0+(–10.0)) × 0.8 = –6.2.
Por tanto, la mejor política, o política óptima, para el entorno «cuarteto de estados» es ahora la política de «siempre a la izquierda». Observe que una vez que el agente ha elegido la acción de ir a la derecha en el estado 0, la mala recompensa es inevitable; a partir del estado 2, solo tenemos una salida.
Estos dos entornos un poco naïve presentados en este apartado pretenden mostrar la complejidad de este problema de optimalidad, que nos permitirá comprender la importancia de la ecuación de Bellman.
Función Q: función de valor de la acción
Por otro lado, tal como ya hemos avanzado, la función de valor de la acción o función Q define el valor de realizar una acción determinada en un estado concreto de acuerdo con la política π que estamos siguiendo. Se puede expresar como:

Esta expresión describe el valor esperado del retorno con descuento Gt al realizar la acción a, comenzando desde el estado sen el time step t y siguiendo la política 𝜋. Igual que en la función de valor del estado, en esta definición se utiliza la esperanza matemática porque la función de transición del entorno puede actuar de forma estocástica.
Función V vía función Q
Ahora que tenemos definidas tanto la función de valor del estado como la función de valor de la acción, formalicemos su relación, puesto que nos puede ser útil. Denotamos con

la probabilidad de que una política π estocástica seleccione una acción 𝑎cuando se encuentra en el estado 𝑠. Tenga en cuenta que la suma de las probabilidades de todas las acciones salientes de un estado dado siempre es igual a 1:

Podemos afirmar que la función de valor del estado es equivalente a la suma de las funciones de valor de acción de todas las acciones 𝑎 salientes (de un estado 𝑠), multiplicada por la probabilidad de seleccionar cada acción respectiva de acuerdo con la política estocástica con la que se guía el agente:

3.2 La ecuación de Bellman
La ecuación de Bellman es uno de los elementos centrales de los algoritmos de aprendizaje por refuerzo. Veamos más sobre ella.
La ecuación de Bellman para la función V
Recordemos que el retorno con descuento (discounted return) en el time step t fue introducido en el capítulo 2 de la siguiente manera:

Podemos reescribir esta ecuación con una relación recursiva:

Una vez definido el retorno con descuento en términos recursivos, podemos también definir la ecuación de Bellman para la función V, que expresa que el valor de un estado se puede obtener como una suma de la recompensa inmediata y el valor descontado del siguiente estado. La podemos expresar como:

Ahora que ya sabemos qué es la ecuación de Bellman, la podemos reescribir de manera que refleje de forma más explícita qué acción se ha realizado para generar la recompensa rt+1 y bajo qué política, para facilitar el seguimiento de las expresiones matemáticas en las siguientes secciones:

El subíndice 𝜋 indica qué política se está usando. Recordemos que el valor de un estado depende de la política que sigue el agente para realizar las acciones. Usando directamente la función de recompensa del MDP, queda explicitada qué acción a se ha realizado el agente para obtener la recompensa.
La ecuación de Bellman para entornos estocásticos
Es importante notar que la anterior ecuación de Bellman asume un entorno determinista. Supongamos que nuestro entorno es estocástico. En ese caso, cuando realizamos una acción a en el estado s, no se garantiza que nuestro próximo estado 𝑠’ siempre sea el mismo; también podrían ser otros estados. Por ello, cuando nos encontramos en un entorno estocástico podemos modificar ligeramente la ecuación de Bellman para que contemple esta estocasticidad:

donde P(s’|s,a) indica la probabilidad de alcanzar el estado 𝑠′ al realizar una acción a en el estado s. En esta expresión se está calculando la esperanza matemática (el promedio ponderado), es decir, una suma de la estimación a partir de cada potencial siguiente estado multiplicado por la probabilidad de transición a este estado.
La ecuación de Bellman para políticas estocásticas
La ecuación de Bellman anterior funciona para un entorno estocástico, pero solo cuando tenemos una política no estocástica. Aprendimos que con una política estocástica seleccionamos acciones con base a una distribución de probabilidad; es decir, en lugar de realizar siempre la misma acción en un estado, seleccionamos una acción en función de la distribución de probabilidad sobre el espacio de acción.
Para incluir la naturaleza estocástica de la política en la ecuación de Bellman, podemos utilizar nuevamente la esperanza matemática, añadiendo a la expresión anterior la probabilidad de la acción correspondiente.
En resumen, nuestra ecuación de Bellman final de la función V se puede escribir como:

La ecuación anterior también se conoce como la Bellman expectation equation de la función de valor del estado, o función V, que considera la estocasticidad tanto del entorno como de la política.

En resumen, esta ecuación de Bellman simplifica el cálculo de la función de valor del estado, de modo que en lugar de tener que calcular el valor en múltiples time steps, podemos encontrar la solución de un problema complejo dividiéndolo en subproblemas recursivos más simples y encontrando sus soluciones con, por ejemplo, el algoritmo de Value Iteration que presentaremos en el próximo capítulo.
La ecuación de Bellman para la función Q
La ecuación de Bellman para la función Q es muy similar a la ecuación de Bellman para la función V. Se puede obtener como una suma de la recompensa inmediata y la función V descontada del siguiente estado:

De forma similar a lo que ocurría con la ecuación de Bellman para la función V, la ecuación de Bellman para la función Q funciona solo cuando tenemos un entorno determinista porque en el entorno estocástico nuestro próximo estado no siempre será el mismo y se basará en una distribución de probabilidad. Entonces, al igual que hicimos en el apartado anterior, podemos usar la esperanza matemática a partir de la probabilidad de transición correspondiente al siguiente estado:

Finalmente, si nos interesa poder definir el valor Q𝜋(𝑠,a) en función del valor Q del siguiente par estado-acción Q𝜋(𝑠’,a’) para tener una ecuación de Bellman equivalente a la de la función de valor del estado, debemos tener en cuenta la estocasticidad de la política que determina la selección de la siguiente acción a’. Para ello, podemos añadir el término

antes del valor Q del siguiente par estado-acción y sustituir el término V𝜋(𝑠) en la anterior ecuación:

Esta ecuación también se conoce como la Bellman expectation equationde la función de valor de la acción, o función Q.
3.3 La ecuación de Bellman óptima
Las políticas, las funciones de valor de estado y las funciones de valor de acción son los componentes que usamos para describir, evaluar y mejorar los comportamientos de los agentes. Los llamaremos «óptimos» cuando no se puedan mejorar. La ecuación de Bellman se puede usar para encontrar las funciones de valor del estado y las funciones de valor de la acción óptimas de forma recursiva. Veámoslo un poco más en detalle a continuación.
Función V óptima
Empecemos con la función de valor del estado o función V:

Aprendimos que la función V depende de la política, es decir, que el valor del estado varía en función de la política que siga el agente y, por tanto, puede haber muchas funciones de valor diferentes según las diferentes políticas. La función V óptima, que denotamos con V*(𝑠), es la que produce el valor máximo en comparación con todas las demás funciones de valor:

Podemos calcular la ecuación de Bellman óptima seleccionando la acción que da el valor máximo. Es decir, en lugar de usar alguna política 𝜋 para seleccionar la acción, calculamos el valor del estado usando todas las acciones posibles, y luego seleccionamos el valor máximo como el valor del estado. Dado que no estamos utilizando ninguna política, podemos eliminar la esperanza matemática sobre la política 𝜋, agregar el máximo sobre la acción y expresar nuestra ecuación de Bellman óptima para la función V como:

Función Q óptima
Igual que hemos hecho para la función V, podemos encontrar la función Q óptima de este modo:

Partimos de la ecuación de Bellman para la función Q, que — como ya aprendimos — se expresa como:

Del mismo modo que hemos hecho para calcular la ecuación de Bellman para la función V óptima, en lugar de usar la política para seleccionar la acción 𝑎′ en el siguiente estado 𝑠′, elegimos todas las acciones posibles en ese estado 𝑠′ y calculamos el valor de la función Q máximo. Se puede expresar la ecuación de Bellman óptima para la función Q como:

Finalmente, nos queda añadir el hecho de que el valor óptimo de un estado, V*(𝑠), es igual a la mejor función de valor de acción que podamos obtener a partir de este estado, es decir:

3.4 Resumen de la terminología
En este capítulo hemos revisado conceptos importantes de aprendizaje por refuerzo que serán claves para poder seguir las explicaciones de este libro. Quizás es un buen momento para hacer una recapitulación de la terminología y de la notación presentadas hasta ahora en este libro.
Notación matemática
Es justo mencionar que la notación de este libro está basada en la notación matemática utilizada en el libro de texto Reinforcement Learning: An Introduction[1], de Richard S. Sutton y Andrew G. Barto. Este es el libro de referencia por antonomasia en el tema y presenta una excelente introducción a los fundamentos del aprendizaje por refuerzo. Si bien aquí hemos podido relajar y simplificar algunos detalles de notación para facilitar la lectura del texto, debido a que no incluimos las demostraciones matemáticas de algunas fórmulas.
El Dr. Richard S. Sutton es actualmente un investigador de DeepMind y un reconocido profesor de ciencias de la computación en la Universidad de Alberta. El Dr. Sutton es considerado uno de los padres fundadores del aprendizaje por refuerzo computacional moderno. El Dr. Andrew G. Barto es un profesor emérito en la Universidad de Massachusetts Amherst y fue el director de la tesis doctoral del Dr. Sutton.
Tabla resumen
A continuación, vamos a presentar una tabla con una recapitulación de los principales símbolos y expresiones matemáticas que hemos usado (y usaremos en siguientes capítulos) en este libro.

Ahora que tenemos una formalización del problema, ya podemos presentar tres clases fundamentales de métodos para resolver MDP finitos, en cuyos conceptos subyacentes se fundamentan los algoritmos de DRL actuales. Por ello es de vital importancia entenderlos bien.
Estos tres métodos son: programación dinámica, Monte Carlo y diferencia temporal. Cada clase de método tiene sus fortalezas y sus debilidades. Los métodos de programación dinámica están bien desarrollados matemáticamente, pero requieren un modelo completo y preciso del entorno. Los métodos de Monte Carlo no requieren un modelo del entorno y son conceptualmente simples, pero no son adecuados para el cálculo incremental paso a paso. Finalmente, los métodos de diferencia temporal no requieren modelo y son totalmente incrementales, pero son más complejos de analizar. Estos métodos también difieren con respecto a su eficiencia y velocidad de convergencia. Veamos todos estos métodos fundamentales en los siguientes 3 capítulos de este libro.
REFERENCIAS DEL CAPÍTULO:
[1] Ricard S. Sutton and Andrew G. Barton; (2018). Reinforcement Learning: An Introduction. Second Edition. MIT Press, Cambridge, MA. http://www.incompleteideas.net/book/the-book-2nd.html.