Saltar al contenido

Como el cerebro resuelve problemas.

como-el-cerebro-resuelve-problemas

Un nuevo estudio sobre algoritmos de aprendizaje de meta refuerzo nos ayuda a comprender cómo el cerebro humano aprende a adaptarse a la complejidad y la incertidumbre al aprender y tomar decisiones. Un equipo de investigación, dirigido por el profesor Sang Wan Lee en KAIST junto con John O’Doherty en Caltech, logró descubrir un mecanismo computacional y neuronal para el aprendizaje del meta refuerzo humano, abriendo la posibilidad de portar elementos clave de la inteligencia humana a la inteligencia artificial. algoritmos Este estudio ofrece una idea de cómo podría usar modelos computacionales para aplicar ingeniería inversa al aprendizaje de refuerzo humano.

Este trabajo fue publicado el 16 de diciembre de 2019 en la revista Nature Communications . El título del artículo es “La complejidad de la tarea interactúa con la incertidumbre del espacio de estado en el arbitraje entre el aprendizaje basado en modelos y el aprendizaje sin modelos”.

El aprendizaje de refuerzo humano es un proceso intrínsecamente complejo y dinámico, que implica el establecimiento de objetivos, la elección de estrategias, la selección de acciones, la modificación de estrategias, la asignación de recursos cognitivos, etc. Este es un problema muy difícil de resolver para los humanos debido al entorno rápidamente cambiante y multifacético en el que los humanos tienen para operar. Para empeorar las cosas, los humanos a menudo necesitan tomar decisiones importantes rápidamente, incluso antes de tener la oportunidad de recopilar mucha información, a diferencia del caso cuando se utilizan métodos de aprendizaje profundo para modelar el aprendizaje y la toma de decisiones en aplicaciones de inteligencia artificial.

Para resolver este problema, el equipo de investigación utilizó una técnica llamada ‘diseño experimental basado en la teoría del aprendizaje por refuerzo’ para optimizar las tres variables de la tarea de decisión de Markov en dos etapas: objetivo, complejidad de la tarea e incertidumbre de la tarea. Esta técnica de diseño experimental permitió al equipo no solo controlar los factores de confusión, sino también crear una situación similar a la que ocurre en la resolución real de problemas humanos.

En segundo lugar, el equipo utilizó una técnica llamada ‘análisis de neuroimagen basado en modelos’. Con base en el comportamiento adquirido y los datos de fMRI, más de 100 tipos diferentes de algoritmos de aprendizaje de meta refuerzo se enfrentaron entre sí para encontrar un modelo computacional que pueda explicar tanto los datos conductuales como los neuronales. En tercer lugar, en aras de una verificación más rigurosa, el equipo aplicó un método analítico llamado ‘análisis de recuperación de parámetros’, que implica el perfil conductual de alta precisión de sujetos humanos y modelos computacionales.

De esta manera, el equipo pudo identificar con precisión un modelo computacional de aprendizaje de meta refuerzo, asegurando no solo que el comportamiento aparente del modelo es similar al de los humanos, sino también que el modelo resuelve el problema de la misma manera que los humanos.

El equipo descubrió que las personas tendían a aumentar el aprendizaje por refuerzo basado en la planificación (llamado control basado en modelos), en respuesta al aumento de la complejidad de la tarea. Sin embargo, recurrieron a una estrategia más simple y más eficiente en el uso de recursos llamada control sin modelo, cuando la incertidumbre y la complejidad de la tarea eran altas. Esto sugiere que tanto la incertidumbre de la tarea como la complejidad de la tarea interactúan durante el metacontrol del aprendizaje por refuerzo. Los análisis computacionales de fMRI revelaron que la complejidad de la tarea interactúa con representaciones neurales de la confiabilidad de las estrategias de aprendizaje en la corteza prefrontal inferior.

Estos hallazgos avanzan significativamente en la comprensión de la naturaleza de los cálculos que se implementan en la corteza prefrontal inferior durante el aprendizaje con meta refuerzo, así como proporcionan una idea de la cuestión más general de cómo el cerebro resuelve la incertidumbre y la complejidad en un entorno dinámico y cambiante. Identificar las variables computacionales clave que impulsan el aprendizaje de refuerzos metafrontales, también puede informar la comprensión de cómo este proceso podría ser vulnerable a descomponerse en ciertos trastornos psiquiátricos como la depresión y el TOC. Además, obtener una comprensión computacional de cómo este proceso a veces puede conducir a un mayor control sin modelos, puede proporcionar información sobre cómo, en algunas situaciones, el rendimiento de la tarea podría romperse en condiciones de alta carga cognitiva.

Para leer el artículo completo