¿Qué es el Aprendizaje por Refuerzo? El Aprendizaje por Refuerzo se define como un método de Aprendizaje Automático que se ocupa de cómo los agentes de software deben tomar decisiones en un entorno. El Aprendizaje por Refuerzo es una parte del método de aprendizaje profundo que te ayuda a maximizar alguna porción de la recompensa acumulativa. Este método de aprendizaje de redes neuronales te ayuda a aprender a alcanzar un objetivo complejo o maximizar una dimensión específica a lo largo de muchos pasos. En el tutorial de Aprendizaje por Refuerzo, aprenderás: Componentes Importantes del Método de Aprendizaje por Refuerzo Profundo Aquí están algunos términos importantes utilizados en la IA de Refuerzo: Agente: Es una entidad asumida que realiza acciones en un entorno para obtener alguna recompensa. Entorno (e): Un escenario al que un agente tiene que enfrentarse. Recompensa (R): Un retorno inmediato dado a un agente cuando realiza una acción o tarea específica. Estado (s): Estado se refiere a la situación actual devuelta por el entorno. Política (π): Es una estrategia que aplica el agente para decidir la próxima acción en función del estado actual. Valor (V): Es el retorno esperado a largo plazo con descuento, en comparación con la recompensa a corto plazo. Función de Valor: Especifica el valor de un estado que es la cantidad total de recompensa. Es un agente que se espera que comience desde ese estado. Modelo del entorno: Esto imita el comportamiento del entorno. Te ayuda a realizar inferencias y también determinar cómo se comportará el entorno. Métodos basados en modelos: Es un método para resolver problemas de aprendizaje por refuerzo que utiliza métodos basados en modelos. Valor Q o valor de acción (Q): El valor Q es bastante similar al valor. La única diferencia entre los dos es que toma un parámetro adicional como una acción actual. ¿Cómo funciona el Aprendizaje por Refuerzo? Veamos un ejemplo simple que te ayuda a ilustrar el mecanismo de aprendizaje por refuerzo. Considera el escenario de enseñar trucos nuevos a tu gato Como el gato no entiende inglés ni ningún otro idioma humano, no podemos decirle directamente qué hacer. En cambio, seguimos una estrategia diferente. Emulamos una situación, y el gato intenta responder de muchas maneras diferentes. Si la respuesta del gato es la deseada, le daremos pescado. Ahora, cada vez que el gato se enfrenta a la misma situación, el gato ejecuta una acción similar con aún más entusiasmo con la expectativa de obtener más recompensas (comida). Eso es como el aprendizaje que el gato obtiene de «qué hacer» a partir de experiencias positivas. Al mismo tiempo, el gato también aprende qué no hacer cuando se enfrenta a experiencias negativas. Ejemplo de Aprendizaje por Refuerzo Cómo funciona el Aprendizaje por Refuerzo En este caso, tu gato es un agente expuesto al entorno. En este caso, es tu casa. Un ejemplo de un estado podría ser tu gato sentado, y usas una palabra específica para que el gato camine. Nuestro agente reacciona realizando una transición de una «estado» a otro «estado». Por ejemplo, tu gato pasa de estar sentado a caminar. La reacción de un agente es una acción, y la política es un método para seleccionar una acción dada un estado con la expectativa de mejores resultados. Después de la transición, pueden recibir una recompensa o una penalización a cambio. Algoritmos de Aprendizaje por Refuerzo Hay tres enfoques para implementar un algoritmo de Aprendizaje por Refuerzo. Basado en el valor: En un método de Aprendizaje por Refuerzo basado en el valor, debes intentar maximizar una función de valor V(s). En este método, el agente espera un retorno a largo plazo de los estados actuales bajo la política π. Basado en la política: En un método de Aprendizaje por Refuerzo basado en la política, intentas elaborar una política de modo que la acción realizada en cada estado te ayude a ganar la máxima recompensa en el futuro. Hay dos tipos de métodos basados en la política: Determinista: Para cualquier estado, la misma acción es producida por la política π. Estocástico: Cada acción tiene una cierta probabilidad, que está determinada por la siguiente ecuación. Política Estocástica : n{a\s) = P\A, = a\S, =S] Basado en el modelo: En este método de Aprendizaje por Refuerzo, necesitas crear un modelo virtual para cada entorno. El agente aprende a realizar en ese entorno específico. Características del Aprendizaje por Refuerzo Aquí están las características importantes del aprendizaje por refuerzo: No hay un supervisor, solo un número real o una señal de recompensa La toma de decisiones secuenciales El tiempo juega un papel crucial en los problemas de refuerzo La retroalimentación siempre está retrasada, no es instantánea Las acciones del agente determinan los datos subsecuentes que recibe Tipos de Aprendizaje por Refuerzo Hay dos tipos de métodos de aprendizaje por refuerzo: Positivo: Se define como un evento que ocurre por un comportamiento específico. Aumenta la fuerza y la frecuencia del comportamiento e impacta positivamente en la acción tomada por el agente. Este tipo de Refuerzo te ayuda a maximizar el rendimiento y mantener el cambio durante un período más prolongado. Sin embargo, demasiado Refuerzo puede llevar a una sobreoptimización del estado, lo que puede afectar los resultados. Negativo: El Refuerzo Negativo se define como el fortalecimiento del comportamiento que ocurre debido a una condición negativa que debería haberse detenido o evitado. Te ayuda a definir el nivel mínimo de rendimiento. Sin embargo, la desventaja de este método es que proporciona lo suficiente para cumplir con el comportamiento mínimo. Modelos de Aprendizaje del Refuerzo Hay dos modelos de aprendizaje importantes en el aprendizaje por refuerzo: Proceso de Decisión de Markov Aprendizaje Q Proceso de Decisión de Markov Los siguientes parámetros se utilizan para obtener una solución: Conjunto de acciones- A Conjunto de estados -S Recompensa- R Política- n Valor- V El enfoque matemático para mapear una solución en el Aprendizaje por Refuerzo se recon como un Proceso de Decisión de Markov o (MDP). Q-Learning Q learning es un método basado en el valor que suministra información para informar qué acción debe tomar un agente. Entendamos este método con el siguiente ejemplo: Hay cinco habitaciones en un edificio que están conectadas por puertas. Cada habitación está numerada del 0 al 4 El exterior del edificio puede ser un gran área exterior (5) Las puertas número 1 y 4 conducen al edificio desde la habitación 5. A continuación, necesitas asociar un valor de recompensa a cada puerta: Las puertas que conducen directamente al objetivo tienen una recompensa de 100. Las puertas que no están directamente conectadas a la sala de destino no dan ninguna recompensa. Como las puertas tienen dos sentidos, y dos flechas se asignan para cada habitación. Cada flecha en la imagen anterior contiene un valor de recompensa instantáneo. Explicación: En esta imagen, puedes ver que la habitación representa un estado El movimiento del agente de una habitación a otra representa una acción En la imagen dada a continuación, un estado se describe como un nodo, mientras que las flechas muestran la acción. Por ejemplo, un agente atraviesa de la habitación número 2 a la 5 Estado inicial = estado 2 Estado 2-> estado 3 Estado 3 -> estado (2,1,4) Estado 4-> estado (0,5,3) Estado 1-> estado (5,3) Estado 0-> estado 4 Aprendizaje por Refuerzo vs. Aprendizaje Supervisado Parámetros Aprendizaje por Refuerzo Aprendizaje Supervisado Estilo de decisión el Aprendizaje por Refuerzo ayuda a tomar decisiones de manera secuencial. En este método, una decisión se toma en función de la entrada dada al principio. Trabaja en Trabaja interactuando con el entorno. Trabaja en ejemplos o datos de muestra dados. Dependencia de la decisión En el método de aprendizaje de refuerzo, la toma de decisiones es dependiente. Por lo tanto, debes dar etiquetas a todas las decisiones dependientes. El aprendizaje supervisado, las decisiones son independientes entre sí, por lo que se dan etiquetas para cada decisión. Mejor adaptado Apoya y funciona mejor en la IA, donde la interacción humana es prevalente. Suele operar con un sistema o aplicaciones de software interactivos. Ejemplo Juego de ajedrez Reconocimiento de objetos Aplicaciones del Aprendizaje por Refuerzo Aquí están las aplicaciones del Aprendizaje por Refuerzo: Robótica para automatización industrial. Planificación de estrategias comerciales Procesamiento de datos y aprendizaje automático Ayuda a crear sistemas de formación que proporcionan instrucciones y materiales personalizados de acuerdo a la necesidad de los estudiantes. Control de aeronaves y control de movimiento de robots ¿Por qué usar el Aprendizaje por Refuerzo? Aquí están las razones principales para usar el Aprendizaje por Refuerzo: Te ayuda a encontrar qué situación necesita una acción. Te ayuda a descubrir qué acción produce la mayor recompensa a lo largo del tiempo. El Aprendizaje por Refuerzo también proporciona al agente de aprendizaje una función de recompensa. También le permite averiguar el mejor método para obtener grandes recompensas. ¿Cuándo no usar el Aprendizaje por Refuerzo? No puedes aplicar un modelo de aprendizaje por refuerzo en todas las situaciones. Aquí hay algunas condiciones en las que no debes usar un modelo de aprendizaje por refuerzo. Cuando tienes suficientes datos para resolver el problema con un método de aprendizaje supervisado. Debes recordar que el Aprendizaje por Refuerzo requiere muchos recursos computacionales y es consume tiempo.
Calle Eloy Gonzalo, 27
Madrid, Madrid.
Código Postal 28010
Paseo de la Reforma 26
Colonia Juárez, Cuauhtémoc
Ciudad de México 06600
Real Cariari
Autopista General Cañas,
San José, SJ 40104
Av. Jorge Basadre 349
San Isidro
Lima, LIM 15073