Investigadores españoles trabajan en un modelo de redes neuronales profundas para reconocer emociones en el habla

Archivo - Mujer hablando, letras y palabras al aire.
Archivo - Mujer hablando, letras y palabras al aire. - GETTY IMAGES/ISTOCKPHOTO / SIPHOTOGRAPHY - Archivo
Publicado: lunes, 3 octubre 2022 11:51

MADRID 3 Oct. (EUROPA PRESS) -

Investigadores de la Escuela Técnica Superior de Ingenieros Informáticos de la Universidad Politécnica de Madrid (UPM), en colaboración con el Grupo de Inteligencia Computacional de la Universidad del País Vasco (UPV/EHU), están trabajando en un modelo basado en redes neuronales profundas para reconocer emociones en el lenguaje hablado.

El grupo de investigadores, perteneciente al Departamento de Inteligencia Artificial de la ETSIINF, lleva años trabajando en sistemas de reconocimiento de emociones tanto desde una vertiente clásica de 'Machine Learning' como con la aplicación de técnicas de 'Deep Learning'.

"El modelo que se propone en este trabajo utiliza este segundo tipo de técnicas. Nos centramos en el reconocimiento de un conjunto básico de ocho emociones primarias, siguiendo uno de los modelos de más aceptación en dominios de estudio del comportamiento, como psicología y neurología", ha explicado el investigador Javier de Lope.

Estas emociones se asocian con estados o situaciones de calma, felicidad, tristeza, enfado, miedo, asco y sorpresa, a las que se añade un estado neutral. "El reconocimiento de emociones mediante voz es un campo mucho menos estudiado que el de reconocimiento de voz. El objetivo no es identificar solo la palabra, sino que incorpora también la forma en que se dice, que está asociada al estado de ánimo del hablante", ha argumentado el experto.

Se trata de técnicas que tienen aplicación en muchos campos en los que el aspecto social es relevante, como en la robótica social (que viene a suplir o complementar carencias de tipo afectivo y relacional) o en la ayuda a la detección de estados de ansiedad o depresivos.

Básicamente, se generan un tipo especial de espectrogramas a partir del audio, que se utilizan para alimentar la red de neuronas. El modelo de red propuesto procesa las imágenes de los espectrogramas como secuencias. Consta de un primer conjunto de capas convolucionales que extraen características de las imágenes, seguido de más capas que permiten tratar la información temporal inherente en las alocuciones. El modelo ofrece un conjunto de valores como salida, a partir de los cuales se determinan las emociones asociadas con los audios de entrada.

La investigación está enmarcada en el proyecto del Ministerio de Ciencia e Innovación de la convocatoria de proyectos 'Avances en técnicas de inteligencia computacional para el proceso de sensores múltiples portables para aplicaciones biomédicas, en neurociencias y de interacción robótica' de 2020.

Una de las líneas de trabajo definidas en el proyecto propone el estudio y desarrollo de sistemas para aplicaciones biomédicas e interacción con robots. En este tipo de sistemas se utilizan datos captados con diferentes tipos de sensores como, por ejemplo, cámaras de vídeo RGB y profundidad, dispositivos de captación de sonido, sensores inerciales de captura de movimientos, dispositivos de captura de señales fisiológicas como ondas cerebrales, entre otros.

Los resultados conseguidos hasta ahora son satisfactorios. "Con el prototipo actual se ha conseguido superar el rendimiento de la mayor parte de los modelos del estado del arte, a la vez que se han reducido los requisitos computacionales para el modelo de red de neuronas. Se siguen ensayando mejoras y optimizaciones, tanto en los modelos de 'Deep Learning' como en el tratamiento previo de los datos generados a partir de los audios de las alocuciones que se utilizan durante el entrenamiento de las redes. Por ello, prevemos un aumento en el rendimiento en siguientes versiones", ha zanjado el investigador.