Clasificación de estados emocionales mediante patrones faciales espaciotemporales cardiovasculares transdérmicos utilizando vídeos faciales multiespectrales.

Noticias

HogarHogar / Noticias / Clasificación de estados emocionales mediante patrones faciales espaciotemporales cardiovasculares transdérmicos utilizando vídeos faciales multiespectrales.

Mar 18, 2024

Clasificación de estados emocionales mediante patrones faciales espaciotemporales cardiovasculares transdérmicos utilizando vídeos faciales multiespectrales.

Scientific Reports volumen 12, número de artículo: 11188 (2022) Cite este artículo 1829 Accesos 1 Citas 18 Detalles de Altmetric Metrics Se publicó una corrección del autor de este artículo el 19 de agosto de 2022

Scientific Reports volumen 12, número de artículo: 11188 (2022) Citar este artículo

1829 Accesos

1 Citas

18 altmétrica

Detalles de métricas

Se publicó una corrección del autor de este artículo el 19 de agosto de 2022.

Este artículo ha sido actualizado

Describimos un nuevo método para la evaluación remota del estado emocional utilizando videos faciales multiespectrales y presentamos nuestros hallazgos: patrones faciales transdérmicos, cardiovasculares y espaciotemporales únicos asociados con diferentes estados emocionales. El método no se basa en expresiones faciales estereotipadas, sino que utiliza diferentes sensibilidades de longitud de onda (espectro visible, infrarrojo cercano e infrarrojo de onda larga) para medir correlatos de la actividad del sistema nervioso autónomo distribuido espacial y temporalmente en el rostro humano (p. ej., flujo sanguíneo, concentración de hemoglobina y temperatura). Realizamos un experimento en el que 110 participantes vieron 150 vídeos cortos que provocaban emociones e informaron de su experiencia emocional, mientras tres cámaras grababan vídeos faciales con múltiples longitudes de onda. Las características multiespectrales espaciotemporales de los videos multiespectrales se utilizaron como entradas para un modelo de aprendizaje automático que fue capaz de clasificar el estado emocional de los participantes (es decir, diversión, disgusto, miedo, excitación sexual o ninguna emoción) con resultados satisfactorios (puntaje promedio ROC AUC de 0,75), al tiempo que proporciona un análisis de importancia de características que permite examinar los sucesos faciales por estado emocional. Discutimos los hallazgos sobre los diferentes patrones espaciotemporales asociados con diferentes estados emocionales, así como las diferentes ventajas del método actual sobre los enfoques existentes para la detección de emociones.

Las emociones son fundamentales para la experiencia y el funcionamiento humanos y, como tales, son de principal interés en la investigación psicológica básica, la práctica clínica y los entornos aplicados. Debido a que las emociones incluyen aspectos que son predominantemente subjetivos y no fácilmente observables, existe un desafío importante a la hora de medir estos aspectos subjetivos de una manera objetiva y confiable.

En los últimos años, muchas investigaciones han intentado desarrollar tecnologías para el reconocimiento preciso de las emociones. Un objetivo principal de la investigación sobre detección de emociones se centra en intentar medir la experiencia emocional de las personas de forma remota (es decir, sin depender de equipos de contacto como fMRI o electroencefalógrafo [EEG]). La mayoría de las tecnologías actuales que pretenden clasificar los estados emocionales en realidad miden las expresiones faciales manifiestas en lugar de estimar los estados emocionales subjetivos de los participantes1,2,3. Las expresiones faciales son relativamente fáciles de detectar y clasificar mediante algoritmos, gracias a su apariencia conocida y a las importantes diferencias espaciales entre expresiones de diferentes emociones. De hecho, los métodos basados ​​en este enfoque suelen arrojar una tasa de éxito superior al 90 % en el reconocimiento de expresiones1,2. Las expresiones faciales visibles suelen proporcionar información útil sobre el estado emocional de las personas; sin embargo, muchas investigaciones en psicología muestran que las expresiones faciales tienen principalmente fines comunicativos: representan lo que las personas quieren transmitir en lugar de reflejar sus estados internos3.

A la luz de esto, se han realizado varios intentos para desarrollar métodos para el reconocimiento remoto de emociones que no se basen en expresiones faciales estereotipadas. Una de esas señales incluye movimientos sutiles, rápidos y espontáneos de los músculos faciales conocidos como microexpresiones, que se caracterizan por una corta duración en el rango de decenas a varios cientos de milisegundos4,5. Como en el caso de las expresiones faciales visibles, las microexpresiones pueden proporcionar información útil para la detección de emociones; sin embargo, no existe evidencia confiable sobre hasta qué punto las microexpresiones pueden ser un diagnóstico del estado emocional real de los participantes6.

Otro enfoque para el reconocimiento de emociones implica medir la actividad del sistema nervioso autónomo (SNA), que se sabe que está asociado con los estados emocionales subjetivos de los individuos7. Sin embargo, la mayoría de los métodos actuales para la detección de cambios fisiológicos relacionados con las emociones (p. ej., fotopletismografía [PPG]8, EEG9,10, presión arterial, conductancia de la piel y electrocardiograma [ECG]11) implican contacto directo (es decir, conectar a los individuos a aparatos de medición) .

En los últimos años, ha habido avances en los intentos de medir de forma remota cambios fisiológicos extremadamente sutiles relacionados con las emociones. Por ejemplo, los cambios mínimos en la temperatura de la cara se pueden medir con precisión utilizando cámaras térmicas que son sensibles al espectro de radiación infrarroja de onda larga (LWIR)12. De hecho, trabajos recientes han demostrado que ligeras fluctuaciones de temperatura en la cara, captadas por una cámara térmica, pueden estar relacionadas con un estado emocional específico13,14,15,16,17. Además, tanto las grabaciones de vídeo de longitud de onda de luz visible (es decir, RGB) como de infrarrojo cercano (NIR) contienen información relacionada con señales fisiológicas como la actividad cardiovascular y la frecuencia cardíaca18,19, así como la concentración de hemoglobina y el flujo sanguíneo20,21,22.

Como tal, los nuevos métodos de imágenes ópticas pueden extraer diferentes tipos de información relacionada con las emociones que podrían ser útiles para descifrar el estado emocional de una persona. En concreto, es posible extraer información espacialmente diferenciada sobre la actividad cardiovascular, contracciones musculares diminutas y grandes expresiones faciales. Además, en los últimos años se han producido avances significativos en la capacidad de detectar patrones informativos en datos multidimensionales utilizando novedosos algoritmos de aprendizaje automático.

Teniendo esto en cuenta, en el trabajo actual buscamos aprovechar los avances tecnológicos recientes y la ciencia de las emociones de última generación para ver si es posible clasificar con precisión el estado emocional de una persona a partir de vídeos faciales multiespectrales. Es importante destacar que nuestro enfoque implicó: (i) clasificar el estado emocional esperado del individuo basándose en videos verificados que estimulan las emociones, en lugar de identificar expresiones estereotipadas; (ii) utilizar una serie de características temporales multiespectrales distribuidas espacialmente que capturan cambios a nivel dérmico y transdérmico (es decir, a través de la piel); (iii) utilizar estas diversas características multidimensionales como entradas para el algoritmo de aprendizaje automático. Esperábamos que este enfoque nos permitiera lograr una alta precisión en la clasificación de los estados emocionales reales de las personas y pudiera producir mapas faciales distribuidos espacialmente de áreas donde reside la información relativa a los estados emocionales.

Analizamos las características multiespectrales espaciotemporales transdérmicas (TSTMS) producidas a partir de videos multiespectrales de 4 segundos de los rostros de los participantes que miraban videoclips cortos que estimulaban emociones y que provocaban de manera confiable 5 emociones diferentes (diversión, disgusto, miedo, excitación sexual y neutral) dentro de Participantes. La clasificación multiclase se llevó a cabo utilizando las características TSTMS extraídas mediante el enfoque uno contra uno (OvO) con el clasificador de aprendizaje automático CatBoost de Yandex23 implementando el método de validación cruzada de dejar un sujeto fuera (LOOCV). Además, realizamos análisis de importancia de características espaciales, temporales y de longitud de onda para comprender mejor el origen de la información relevante que el clasificador utilizó para lograr la clasificación.

Dado que cada experimento finalmente arrojó 130 videos de rostros por sujeto de los 150 originales grabados, para poder analizar más a fondo los datos desequilibrados (como se explica en la sección "Procesamiento de datos", el recuento de videos de rostros de la categoría de excitación sexual fue 27, neutral 30, disgusto 26, miedo 22 y diversión 25) y para poder realizar inferencias para cada sujeto en cada iteración de LOOCV, las clases más grandes se submuestrearon aleatoriamente para ajustarse a la clase más pequeña (miedo), lo que produjo un total de 22 videos por iteración. Por lo tanto, el desequilibrio se abordó antes de la etapa de inferencia, lo que permitió utilizar métricas de evaluación estadística comunes ampliamente utilizadas para evaluar los resultados del clasificador de datos equilibrados, como el área característica operativa del receptor bajo la curva (ROC AUC) y la precisión del subconjunto, en nuestro estudio23. Con respecto a la etapa de entrenamiento, no queríamos perder información importante al realizar el método de submuestreo aleatorio; por lo tanto, utilizamos la función class_weight incorporada del clasificador CatBoost oficial de código abierto, que penaliza los errores en muestras de clase[i] con un peso de clase[i], generando una función de pérdida ponderada para evitar sesgos inducidos por datos desequilibrados en el clasificador. – una práctica común en los problemas de clasificación del aprendizaje automático.

donde i es el índice de clase, \({n}_{samples}\) es el número total de muestras de todas las clases, \({n}_{classes}\) es el número de clases y \({n} _{muestras/clase}^{i}\) es el número de muestras por clase i.

Los resultados de la clasificación produjeron una puntuación AUC ROC promedio general de 0,75 (el clasificador aleatorio de referencia es 0,5) y una precisión de subconjunto promediada general de 0,44 (el clasificador aleatorio de referencia es 0,2), lo que también se conoce como “coincidencia exacta”, definida como el número de muestras que tienen todas sus etiquetas clasificadas correctamente, dividido por el número total de muestras:

donde y es el resultado del clasificador y \(\widehat{y}\) es la verdad fundamental. Tenga en cuenta que esta medida se considera más estricta en comparación con la precisión promedio, en la que se realiza un cálculo similar por clase por separado y luego se promedia en todas las clases.

Para evaluar los resultados de la clasificación de emociones, presentamos dos métricas (Fig. 1a): el promedio general de 110 iteraciones de LOOCV ROC AUC24 por clase de emoción (Fig. 1a, izquierda) y la precisión equilibrada (ACC) 25 (Fig. 1a, derecha). por clase de emoción. Ambos representan los valores fuera del rango IQR de 1,5 como puntos grises. Los promedios generales de estas métricas aparecen en las esquinas inferiores derechas. La medida ROC AUC se basa en el espacio de probabilidades sin procesar del clasificador, que varía en el rango de 0,5 a 1, donde 0,5 es una suposición aleatoria y 1 es un clasificador perfecto. Por otro lado, la medida ACC se basa en la decisión final del clasificador con respecto a qué clase pertenece exactamente cada video de rostro examinado de acuerdo con el umbral de mejores probabilidades, que varía en el rango de 0 a 1, donde 0,2 es una estimación aleatoria (para un problema de clasificación de 5 clases), y 1 es un clasificador perfecto.

(a) Las evaluaciones estadísticas del modelo utilizaron el área bajo la curva de la característica operativa del receptor (ROC AUC) y la precisión del subconjunto (ACC) por clase de emoción: diversión (A), disgusto (D), miedo (F), excitación sexual (S), y neutral (N) como línea base. Los rectángulos coloreados del diagrama de caja representan el rango intercuartil (IQR), que es igual a la diferencia entre los cuartiles superior e inferior26. Los valores fuera del rango de 1,5 IQR están marcados con puntos grises. Las líneas discontinuas rojas y negras dentro de los rectángulos IQR indican la mediana y el promedio, respectivamente. La línea discontinua roja en negrita denominada "Clasificador aleatorio" marca el valor de un clasificador no calificado, similar a un lanzamiento de moneda. (b) La matriz de confusión normalizada por filas muestra la mediana de todos los resultados de la matriz de confusión LOOCV, que luego se normalizaron por filas (la suma de los valores de cada fila es 100%).

La matriz de confusión normalizada por filas (Fig. 1b) presenta los resultados de las clasificaciones por clase de emoción, promediados sobre las 110 iteraciones de LOOCV. Según esta medida, parece que el clasificador manejó mejor la clase de excitación sexual (S), seguida de la clase neutral (N), luego el asco (D) con resultados similares al miedo (F) y por último la diversión (A).

El análisis de importancia de las características se basó en el enfoque de cambio de función de pérdida (LFC), creado en el paquete Python clasificador CatBoost de Yandex, en el que el espacio de características se evalúa utilizando la diferencia entre el valor de pérdida del modelo que se está entrenando, tanto con como sin cada uno de los parámetros de las características. Por lo tanto, se obtuvieron mapas de distribución de importancia de características espaciales faciales únicos, primeros en su tipo (hasta donde sabemos), junto con hallazgos intrigantes de importancia de características relacionadas con el tiempo y la longitud de onda (Figs. 2, 3, 4, 5, 6).

Se muestran mapas de importancia de características espaciales para 10 clasificadores binarios, que ilustran las diferentes distribuciones espaciales de las áreas significativas que afectan la clasificación de las diversas emociones inducidas. Las distribuciones parecen ser a veces asimétricas, presumiblemente originadas en la actividad cardiovascular transdérmica relacionada con el sistema nervioso autónomo (SNA), como lo describen Liu et al.27 El porcentaje general de importancia de la característica de suma espacial y temporal para cada caso está escrito encima de cada mapa. Antes de introducir las funciones TSTMS en el clasificador de aprendizaje automático, los píxeles alrededor del mentón se eliminaron del cálculo para eliminar el soporte de la cabeza del mentón que se usó para evitar que las caras de los participantes se movieran durante los experimentos.

Mapas de importancia de características espaciales multiclase de OvO, por característica dependiente de la longitud de onda (F1-F7) y su promedio general en el mapa de la esquina inferior derecha (es decir, resumen espacial). Encima de cada mapa, la contribución relativa de la característica TSTMS se escribe como un porcentaje, mientras que la suma de todos los mapas presentados (F1-F7) supervisa la contribución del 93,55 %, como se mencionó anteriormente en el mapa de resumen espacial en la esquina inferior derecha. El porcentaje restante del 6,45% (es decir, 100%: resumen espacial%) es la importancia de la característica no espaciotemporal F8, la frecuencia cardíaca estimada (EHR).

Análisis de regiones faciales de importancia (ROIm) por género (multiclase OvO, 110 iteraciones LOOCV). (a) Resumen de importancia de características espaciales para mujeres (b) y hombres (c), logrado al realizar entrenamiento con datos de cada género por separado.

(a) Importancia general de las características por cuadro de pulso. (b) Importancia general de la característica por característica dependiente de la longitud de onda (F1-F8).

Importancia de la característica de cada característica construida, por clase de emoción, clasificada frente a la línea de base (neutral).

Las tareas de clasificación con k clases pueden producir \(k\frac{k-1}{2}\) clasificadores binarios: una clase versus cada una de las otras clases. Por lo tanto, nuestras 5 clases pueden producir un total de 10 clasificadores binarios. Los mapas de importancia de características espaciales se presentan en la Fig. 2 para cada uno de esos 10 clasificadores binarios. Las letras que denotan cada una de las emociones marcan las diferentes filas y columnas, dando como resultado que cada uno de los mapas está marcado por dos letras, que son las dos clases del clasificador binario.

Por ejemplo, la figura 2 muestra que diversión (A) versus excitación sexual (S) y diversión versus miedo (F) parecen tener la mayor parte de la región de importancia (ROIm, es decir, puntos calientes) alrededor de las mejillas, mientras que diversión versus El asco (D) presenta un ROIm significativo en la parte inferior de la frente o entre las cejas. Además, parece como si los clasificadores binarios asco versus excitación sexual y neutral (N) versus excitación sexual dependieran más en gran medida de la frecuencia cardíaca estimada (EHR) no espaciotemporal (es decir, F8), ya que su valor general Los resúmenes presentados encima de cada mapa espacial son 82,03% y 81,99%, respectivamente, mientras que el resto de la importancia pertenece a F8.

Para cuantificarlos, definimos regiones de interés alrededor de la frente, los ojos izquierdo y derecho, las mejillas izquierda y derecha y la boca (presentadas en la Fig. 4b, c) y extrajimos los valores medios de importancia de las características en todos los píxeles. El valor medio para la clasificación de diversión versus miedo fue mayor en las mejillas (M = 0,158, DE = 0,002) versus el resto de la cara (M = 0,099, DE = 0,002), p < 0,001. El valor medio para la clasificación de diversión versus excitación sexual fue mayor en las mejillas (M = 0,130, DE = 0,002) versus el resto de la cara (M = 0,085, DE = 0,002), p < 0,001. El valor medio importante para la clasificación de excitación entre diversión y disgusto fue mayor en la frente (M = 0,235, SD = 0,005) frente al resto de la cara (M = 0,011, SD = 0,002), p < 0,001.

Los mapas de importancia de características distribuidos espacialmente para cada característica dependiente de la longitud de onda (F1-F7) que se originan a partir de las clasificaciones multiclase OvO (promediadas para todos los participantes) se presentan en la Fig. 3, mientras que la importancia espacial general promediada para todas las características F1-F7 es presentado en la esquina inferior derecha. Como se define en la Tabla 1, F1 representa la distribución espacial del ROIm facial relacionada con los cambios de temperatura, extrapolada de la cámara térmica. F2 – F4 y F7 representan la importancia espacial de la amplitud pulsátil R, G, B y NIR, respectivamente. Parece que F2 ROIm se encuentra principalmente alrededor de la boca, F3 ROIm se encuentra principalmente alrededor de los ojos, F4 ROIm se ubica principalmente en las mejillas y la parte inferior de la frente entre las cejas, y F7 ROIm se encuentra principalmente alrededor del interior de los ojos (la longitud de onda NIR, sobre la cual Se basa en F7 y se utiliza habitualmente para fines de seguimiento ocular28). F5 y F6 representan la diferencia de las amplitudes pulsátiles y la diferencia de absorción entre las longitudes de onda B y R, respectivamente. F5 ROIm parece distribuirse alrededor de la boca, las mejillas y la parte inferior de la frente, y F6 ROIm se distribuye principalmente alrededor de las mejillas y la parte inferior de la frente.

Los mapas de resumen espacial por característica (Fig. 3) muestran las ubicaciones de ROIm. Esas ubicaciones también proporcionaron la mejor señal de latidos cardíacos cuando se examinaron en el dominio de la frecuencia, como se describe en la subsección "Estimación de la frecuencia cardíaca" en la sección "Procesamiento de datos". Por ejemplo, cuando se examinaron en el dominio de la frecuencia, las mejillas tenían una mejor señal de latidos del corazón, en comparación con la nariz.

El promedio de los 5 cuadros de pulso (como se presenta en la Fig. 5a) y todos los mapas de importancia de características espaciales (F1-F7 como se presenta en la Fig. 5b), entrenados en mujeres y hombres por separado, se presenta en la Fig. 4b-c, con las diferentes regiones faciales promediadas y analizadas por género en la Fig. 4a. Se puede observar que las mujeres tienen más ROIm distribuidos alrededor de la frente y entre las cejas. En las áreas inferiores de las mejillas, el ROIm parece aparecer menos en los hombres, pero esto puede estar relacionado con el vello facial (barba) de algunos participantes masculinos, que se encontraba principalmente en la región inferior de las mejillas; todas estas diferencias son estadísticamente significativas. ,p<0,05.

Además, según la Fig. 4a, los hombres muestran una distribución de ROIm más asimétrica en comparación con las mujeres, especialmente cuando se comparan los ojos derecho e izquierdo, y algo cuando se comparan las mejillas derecha e izquierda.

La importancia de la característica temporal (con respecto al instante de los cuadros de pulso) se presenta en la Fig. 5a, donde los cuadros de pulso representan el espacio multiespectral espaciotemporal, promediado con respecto a las dimensiones espacial y multiespectral. Parece que el primer cuadro de pulso tiene aproximadamente el doble de cantidad de información que afecta al clasificador en comparación con el resto de cuadros de pulso. Sin embargo, cuando se examinaron 10 clasificadores binarios por separado en lugar de utilizar el enfoque multiclase OvO, los clasificadores binarios disgusto versus neutral, diversión versus neutral y diversión versus disgusto mostraron una excepción a esta regla.

La importancia general de las características después de una suma espaciotemporal para cada característica se presenta en la Fig. 5b. F1–F7 son características espaciotemporales con 50 × 35 píxeles en cada uno de los cuadros de pulso (es decir, dimensión espacial) y 5 cuadros de pulso (es decir, dimensión temporal), lo que produce un total de 8750 parámetros por característica. Además, F8 es el EHR \({(HR}^{G})\) del canal verde, que es un parámetro único.

Según la Fig. 5b, parece que en la configuración de nuestro experimento los canales LWIR (F1) y NIR (F7) se desempeñaron por debajo de las expectativas en comparación con los canales RGB normales, ya que F1 y F7 proporcionaron la importancia general de características más baja en comparación con las otras características espaciotemporales. (F2–F6).

Al examinar la importancia de cada característica (que se muestra en la Tabla 1) para los 4 clasificadores binarios (diversión, disgusto, miedo y excitación sexual versus neutral) como se presenta en la Fig. 6, parece que F5, F6 y F8 presentan significados sustancialmente diferentes. por clasificador binario (es decir, emoción) y significado algo diferente en F3. F5 es sustancialmente más importante para clasificar el miedo frente a lo neutral, F6 es más importante cuando clasifica la diversión o el disgusto frente a lo neutral, F3 es algo más significativo cuando clasifica el asco frente a lo neutral, y el parámetro único F8 (frecuencia EHR) es más importante en un orden de magnitud para la clasificación del deseo sexual versus neutral en comparación con la diversión o el disgusto versus neutral. Además, F8 es sustancialmente más importante para la clasificación de miedo versus neutral en comparación con diversión o disgusto versus neutral. Estos hallazgos implican que cada una de las emociones examinadas tiene su propio comportamiento fisiológico único con dependencias de longitud de onda asociadas, mientras que la diversión y el disgusto son algo más similares (por ejemplo, una significancia F8 muy baja y una significación F6 muy alta para ambas).

La Figura 7 muestra los resultados de valencia y excitación según la retroalimentación de los participantes obtenida durante los experimentos, por clase de emoción y género, como se detalla en la Configuración experimental en la sección "Métodos". Esto se puede utilizar para comprobar si los diferentes vídeos que provocan emociones lograron o no su tarea de provocar las emociones esperadas.

Resumen de comentarios de los participantes: (a) Pregunta de valencia: ¿Cómo te hizo sentir el vídeo que acabas de ver en una escala del 1 al 9? (1 es el más negativo, 9 el más positivo) (b) Pregunta sobre excitación: ¿Cuánto te hizo sentir excitación el vídeo que acabas de ver en una escala del 1 al 9? (siendo 1 nada, 9 mucho).

La Figura 7a muestra (de izquierda a derecha) que tanto las mujeres como los hombres tuvieron una respuesta algo neutral a los videos de categoría neutral, como se esperaba (valores alrededor de 5 como línea de base). Las mujeres tuvieron una experiencia más negativa con los videos de disgusto y miedo (mediana de alrededor de 2 y 3, respectivamente) en comparación con los hombres, pero los hombres también tuvieron una experiencia negativa de esas clases de emociones (mediana de alrededor de 3,5 y 4, respectivamente). La clase de videos de diversión, por otro lado, indujo con éxito emociones positivas en los participantes en un nivel similar tanto para hombres como para mujeres, mientras que la clase de videos de excitación sexual fue algo neutral (en promedio) según lo informado por las mujeres (mediana alrededor de 5). , aunque positivo para los hombres (mediana alrededor de 6).

La Figura 7b muestra (de izquierda a derecha) que tanto las mujeres como los hombres informaron una excitación muy baja con los videos de clase neutral (valores medios alrededor de 2,5). Tanto las mujeres como los hombres sintieron sólo ligeramente por encima de la excitación inicial en las categorías de disgusto y miedo (valores medios alrededor de 5,5), ligeramente por debajo de la línea base en respuesta a la diversión, siendo las mujeres un poco más bajas que los hombres, y en la categoría sexual, las mujeres informaron resultados alrededor línea de base, mientras que los hombres sintieron cierta excitación (mediana alrededor de 6).

En el trabajo actual, desarrollamos un nuevo método para la evaluación remota de estados emocionales. Grabamos los rostros de los participantes usando cámaras sensibles a los espectros RGB, NIR y LWIR mientras los participantes miraban videos que evocaban de manera confiable diversas emociones (miedo, disgusto, excitación sexual, diversión o neutralidad) e informaban sobre su estado emocional. Dado que las diferentes longitudes de onda examinadas tienen diferentes propiedades físicas, como la profundidad de penetración en la piel, la absorción de hemoglobina, etc.29,30, las funciones de TSTMS se diseñaron para maximizar la información fisiológica capturada por las cámaras, basándose en métodos de fotopletismografía remota (rPPG)31,32. Este conjunto de datos de alta dimensión se utilizó como entrada para un algoritmo de clasificación de emociones de aprendizaje automático que encontró patrones únicos asociados con cada clase de emoción.

El método propuesto logró una puntuación ROC AUC promedio de 0,75 y una precisión de subconjunto promedio de 0,44, que pueden considerarse precisiones de clasificación competitivas dentro del campo de la psicología. Es importante destacar que nuestro método de clasificación de emociones se basa en imágenes remotas (vídeo), que pueden resultar prácticas de utilizar. Si bien puede que no sea sorprendente que nuestro cerebro contenga información que pueda usarse para detectar estados emocionales, es algo más sorprendente que el rostro humano contenga suficiente información fisiológica detectable remotamente para dar una estimación bastante precisa del propio estado emocional.

Además, nuestro método nos permitió descubrir diferentes patrones espaciales que están asociados de manera confiable con diferentes estados emocionales, obtenidos a través de un gran número de participantes en el conjunto de datos experimental. El análisis de importancia de las características del clasificador de aprendizaje automático CatBoost mostró que las diversas emociones inducidas tienen características espaciotemporales algo únicas. Estos hallazgos corresponden con la hipótesis y los hallazgos de Liu et. al.27, en el que se observaron patrones espaciotemporales faciales únicos, ocasionalmente asimétricos, relacionados con la actividad cardiovascular, y se supone que están relacionados con la actividad del SNA, de ahí la relación con el estado emocional.

Los métodos para la detección de emociones podrían ser útiles en contextos comerciales (p. ej., facilitar interacciones con robots), contextos forenses (p. ej., ayudar en la detección de mentiras) y contextos terapéuticos (p. ej., biorretroalimentación). Sin embargo, las tecnologías actuales que pretenden detectar emociones a partir de vídeos simplemente identifican expresiones emocionales estereotipadas que no necesariamente corresponden a estados emocionales reales y es más probable que correspondan a intenciones comunicativas (por ejemplo, transmitir deliberadamente el agrado de una persona)33. En el estudio actual, los participantes estaban solos en la habitación y rara vez hacían expresiones faciales abiertas; no obstante, nuestro uso de atributos transdérmicos que se pueden obtener en imágenes ópticas nos permitió adquirir suficiente información del rostro para detectar el estado emocional real (en lugar de simplemente expresado) de los participantes. Como tal, el trabajo actual podría ser de gran importancia práctica para el mundo de la detección de emociones.

Los resultados sugieren que las características transdérmicas relacionadas con el sistema cardiovascular transmiten el estado emocional de una persona. Sin embargo, una limitación del trabajo actual es que no podemos estimar en qué medida los movimientos musculares visibles (p. ej., expresiones faciales o incluso microexpresiones) contribuyeron a la señal. No obstante, el fuerte promedio espacial y submuestreo de las imágenes faciales a valores de 35 × 50 píxeles, antes de la formación de características, reduce la sensibilidad del proceso de clasificación a pequeños movimientos faciales espaciales, lo que sugiere que la mayoría (si no todos) de los La información relevante para la clasificación era de hecho de origen transdérmico (es decir, invisible a simple vista). Sin embargo, no afirmamos que las señales faciales espaciotemporales transdérmicas no estén correlacionadas con la expresión facial. De hecho, la activación de los músculos es un proceso fisiológico que puede detectarse también mediante imágenes transdérmicas (por ejemplo, el ROI entre las cejas activado por disgusto). Las características transdérmicas sensibles podrían reflejar contracciones musculares diminutas (o incluso importantes) asociadas con las expresiones faciales; sin embargo, al examinar los videos faciales, queda claro que las expresiones estereotipadas manifiestas eran muy raras (ya que los participantes se sentaban solos en una habitación y no tenían intención de comunicar sus emociones a los demás).

Además de los usos aplicados del método actual, nuestro enfoque también puede informar la investigación científica básica de las bases biológicas de los estados emocionales. La investigación actual proporciona la primera evidencia de patrones espaciotemporales de actividad cardiovascular ampliamente distribuidos en el rostro humano, asociados con estados emocionales específicos. Investigaciones futuras podrían comenzar a descomprimir los mapas descritos en este estudio para comprender su base funcional. Para dar sólo un ejemplo, los mapas de importancia espacial resaltaron las diferencias de género, de modo que el área entre las cejas y la parte inferior de la frente (cerca del músculo procerus y la arteria supratroclear) proporcionó mucha más información para la clasificación de las emociones de las mujeres en comparación con los hombres. Investigaciones futuras podrían investigar más a fondo la fuente fisiológica específica de dichos puntos críticos de información y su posible importancia funcional.

Además, el método actual puede proporcionar mucha información útil sobre la cascada temporal de provocación de emociones. Por ejemplo, los hallazgos mostraron que el primer cuadro de pulso (aproximadamente un poco menos que el primer segundo de cada video) contenía el doble de información relevante en comparación con los cuadros posteriores (Fig. 5a). Sin embargo, se encontró una excepción a esta regla en las clasificaciones binarias: disgusto versus neutral, diversión versus neutral y diversión versus disgusto. Estos hallazgos pueden sugerir que las respuestas fisiológicas faciales al disgusto y la diversión son más prolongadas que las de la excitación sexual y el miedo. Nuevamente, el trabajo futuro podría profundizar en tales hallazgos e investigar su posible importancia funcional.

Para concluir, nuestros hallazgos sugieren un enfoque novedoso y prometedor para la evaluación remota de estados emocionales. Además, el análisis de importancia de las características del clasificador sugiere algunas ideas sobre los cambios fisiológicos medidos de forma remota que ocurren durante las diferentes emociones inducidas, que se espera que estén relacionados con los sistemas nerviosos simpático y parasimpático como parte del SNA. El trabajo futuro podría basarse en nuestro método para obtener medidas aún más confiables de los estados emocionales e investigar la psicofisiología de las emociones.

Una posible limitación para la aplicabilidad de nuestro método es que nos basamos en videos multiespectrales obtenidos utilizando cámaras algo costosas y sensibles (principalmente la cámara térmica). Sin embargo, sorprendentemente, nuestros resultados mostraron que hay suficiente información en luz visible; como tal, utilizando el proceso descrito en este documento, es probable que las cámaras RGB normales puedan producir resultados competitivos. Sin embargo, los usos futuros de nuestra tubería que utilizan cámaras térmicas o NIR de mejor sensibilidad pueden encontrar una combinación diferente de importancia para los diferentes desafíos. Tenga en cuenta también que la validez ecológica del estudio puede estar limitada por varios factores, como suele ser el caso en la investigación de ciencias afectivas realizada en el laboratorio. Esta ubicación permite a los investigadores un control experimental estricto y una mayor validez interna, pero esto a menudo tiene un costo para la validez externa. Por ejemplo, las emociones en nuestro estudio fueron evocadas por estímulos de video (en lugar de experiencias del mundo real), y los participantes realizaron el estudio solos (mientras que, en la vida real, las emociones a menudo se generan en interacciones sociales). Debido a consideraciones prácticas, no pudimos centrarnos en muchas categorías de emociones de interés potencial. Por lo tanto, nos centramos en cuatro categorías de emociones que probablemente den como resultado señales fisiológicas separables. A la luz de esto, decidimos centrarnos en dos emociones fundamentales positivas (excitación sexual, diversión) y dos negativas (miedo, disgusto), que se cree que son extremadamente distintas entre sí. Además, desde un punto de vista práctico, más categorías ampliarían aún más el experimento (que ya dura aproximadamente una hora) y podrían hacer que los participantes se desvinculen de la tarea.

Los protocolos experimentales fueron aprobados por la Junta de Revisión Institucional (IRB) de la Universidad Ben-Gurion y el estudio se realizó de acuerdo con las pautas del IRB y con las pautas de buenas prácticas clínicas. Todos los participantes dieron su consentimiento informado. Las figuras que aparecen a lo largo del manuscrito no representan imágenes de un participante específico; más bien, son la señal promediada de 110 sujetos. En dos de las figuras de este artículo sólo aparece el rostro de uno de los autores.

Creamos una gran base de datos de grabaciones de video cortas de los rostros de los participantes viendo videoclips breves destinados a estimular diferentes emociones. Los tipos de emociones fueron diversión, disgusto, miedo, excitación sexual y neutral como punto de referencia. Se capturaron simultáneamente tres grabaciones de vídeo del rostro mediante tres cámaras (RGB, NIR y LWIR [térmica]).

Nuestra base de datos emocional se construyó a partir de tres conjuntos de datos principales: los videos que provocan emociones de las categorías disgusto, miedo y diversión se tomaron de la base de datos de Cowen et al.34, mientras que los videoclips neutrales se tomaron de la base de datos de Samson et al. 35 Además, hemos realizado un estudio en línea con 41 participantes reclutados a través de Amazon Mechanical Turk para validar los videoclips de deseo sexual, que se obtuvieron de sitios web pornográficos.

En el experimento participaron un total de 110 sujetos (63 mujeres y 47 hombres) de edades comprendidas entre 18 y 33 años (edad media 24,6 años). Los participantes dieron su consentimiento informado y luego se sentaron frente a una pantalla (Fig. 7a) en una habitación pequeña con total privacidad, con sus caras fijadas espacialmente mediante un soporte especial para la barbilla. Se presentaron a cada sujeto ciento cincuenta videoclips cortos estimulantes de emociones diferentes, con duraciones variables de aproximadamente 4 a 15 s (duración promedio 7 s). El orden de los vídeos reproducidos se estableció en bloques de 5 vídeos de la misma clase de emoción (6 bloques por cada clase de emoción). Esto fue importante para reducir la tasa de cambios de emoción a 30 a lo largo del experimento, que duró aproximadamente 50 minutos, y para garantizar aún más que la emoción deseada se provocara con éxito dentro de ese período de tiempo del bloque. Los bloques se mezclaron en 4 secuencias diferentes de orden de bloques para usarse aleatoriamente por experimento. Entre cada uno de los videos reproducidos, el software de la computadora abrió una ventana emergente, haciendo al sujeto algunas preguntas para obtener comentarios sobre cómo se sintió acerca del video corto que vio: P1 (valencia): ¿Cómo apareció el video? que acabas de ver te hace sentir en una escala del 1 al 9? (siendo 1 el más negativo, 9 el más positivo). P2 (excitación): ¿Cuánto te hizo sentir excitación el vídeo que acabas de ver en una escala del 1 al 9? (1 es nada, 9 mucho) P3: ¿Cuál es la emoción más dominante que has experimentado al ver el último vídeo? (S, A, F, D, N, ninguno). Además de las preguntas anteriores entre cada vídeo corto, al final del experimento se hicieron varias preguntas generales sobre el género del sujeto, la orientación sexual y la edad.

Mientras se reproducían los vídeos estimulantes de emociones, las cámaras triples grababan vídeos del rostro del sujeto a 30 fotogramas por segundo. La resolución de la cámara RGB se configuró en 960 × 540 y se ajustó ópticamente para adaptarse al rostro del sujeto, la resolución de la cámara NIR se configuró en 640 × 480 y se recortó digitalmente manualmente utilizando el software para un ajuste aproximado alrededor del rostro del sujeto y la cámara térmica. La resolución se fijó en 382 × 290 y se ajustó digitalmente manualmente para adaptarse al rostro de cada sujeto. Dado que la cámara LWIR está basada en un bolómetro no refrigerado, se realizó una corrección de falta de uniformidad para eliminar el ruido del patrón fijo espacial 0,5 s antes de que se iniciara cada nueva grabación.

Los experimentos se realizaron utilizando un software personalizado escrito en MATLAB específicamente para este experimento que se ejecutó en una PC con procesador Intel i7-9700 y 32 GB de RAM. La cámara RGB utilizada fue la Sony Alpha 6000 (Fig. 8b abajo a la izquierda) con un kit de lentes de 16–50 mm, conectada a una tarjeta de captura USB-HDMI de Magewell y con un sistema de enfriamiento activo de diseño personalizado adjunto. La cámara NIR (Fig. 8b arriba) utilizada fue la ELP 2 MP basada en el sensor CMOS OV2710, con LED de 10 × 850 nm, un filtro óptico de paso alto de corte a 650 nm y una lente de 3,6 mm, mientras que la cámara térmica ( Fig. 8b abajo a la derecha) era el OPTRIS PI450, sensible a LWIR en el rango de 7,5 a 14 µm, con 40 mK NETD y una lente de 18,7 mm. Tanto a las cámaras NIR como a LWIR, se les conectó un disipador de calor pasivo utilizando una cinta conductora térmica para limitar el aumento de temperatura, un parámetro que se correlaciona con la deriva de temperatura de la cámara LWIR.

Configuración experimental: (a) Una fotografía tomada durante uno de los experimentos, que representa el entorno. (b) Las tres cámaras que grabaron simultáneamente el rostro: cámara RGB (abajo a la izquierda), cámara NIR activa con LED iluminados alrededor (arriba) y cámara LWIR (abajo a la derecha).

Para evitar el sesgo inducido por la duración en el proceso de aprendizaje de clasificación, los videos de rostros grabados se cortaron para incluir solo sus 120 fotogramas iniciales, lo que produjo videoclips de rostros consistentes y del mismo tamaño, cada uno con una duración de 4 s, para procesar. Los vídeos que tenían una duración de poco menos de 4 s (solo unos pocos fotogramas) se excluyeron de cualquier análisis posterior (1 vídeo de la categoría de disgusto, 4 vídeos de la categoría de miedo y 3 vídeos de la categoría de excitación sexual). Para evitar videos de caras que se originan a partir de videos que provocan emociones y que no exhiben características significativas que provoquen emociones en sus 4 segundos de duración iniciales, los autores determinaron qué videos adicionales también debían excluirse (3 videos de la categoría de disgusto, 4 videos de la categoría categoría miedo y 5 vídeos de la categoría diversión). En general, este proceso arrojó un total de 130 videos de rostros por experimento para cada sujeto (de los 150 originales grabados) para su posterior análisis. Por lo tanto, las 5 videoclases (originalmente 30 videoclips en cada clase) ahora estaban desequilibradas con los siguientes conteos: sexual, 27 videos; neutral, 30 vídeos; asco, 26 vídeos; miedo, 22 vídeos; y diversión, 25 vídeos. Estos valores desequilibrados fueron manejados posteriormente, como se explica en la subsección “Manejo de datos desequilibrados” de la sección “Resultados”.

Realizamos un estudio de validación en el que examinamos si los videoclips de 4 segundos provocan la misma emoción predominante que la versión más larga. Realizamos un estudio en línea con 49 participantes (34 mujeres; 15 hombres). Los participantes vieron los 130 videos que provocaron emociones que aparecieron en el estudio original en orden aleatorio; A diferencia del estudio original, cada video emocional terminó después de los primeros cuatro segundos (que corresponde al período de tiempo utilizado en el análisis). Los participantes informaron sobre la emoción dominante que el vídeo provocó en ellos. En el 98,5% de los casos de vídeo, la mayoría de los votos autoinformados de los participantes coincidieron con la categoría de vídeo real. Esta tasa de precisión fue idéntica a la observada en el experimento, en el que los autoinformes de los participantes se basaron en vídeos un poco más largos. Por lo tanto, estos resultados sugieren que los primeros cuatro segundos de cada video (sobre los cuales se realizó el análisis) generaron de manera confiable la categoría de emoción predominante que pretendían evocar.

Luego, para cada vídeo grabado, se localizaron regiones faciales precisas en los canales RGB y NIR utilizando el clasificador Viola Jones basado en aprendizaje automático previamente entrenado, implementado por OpenCV36,37. Para el canal LWIR, se utilizó la principal diferencia de temperatura entre la cara y el fondo para encontrar la región de la cara deseada utilizando el umbral adaptativo de Otsu38, seguido de establecer todos los píxeles con valores inferiores a 30 Cº a cero. Para mejorar el ruido de la información temporal y reducir la cantidad de datos, cada fotograma de vídeo de cara se redujo espacialmente mediante un promedio local en dos etapas: en primer lugar, se realizó una agrupación promedio en todos los canales: para los canales R, G, B, se promediaron bloques de 10 Se utilizaron × 10 píxeles; y para los canales NIR y LWIR, se utilizaron bloques de 5 × 5, lo que produjo nuevas resoluciones de píxeles espaciales reducidas. Los marcos que no estaban perfectamente divididos por el bloque de agrupación se cortaron para que encajaran. Luego, para conseguir una resolución final idéntica para todas las cámaras, se realizó una interpolación bicúbica espacial para obtener una resolución final de 50 × 35 píxeles para todos los canales, permitiendo su posterior correlación con los diferentes píxeles de las distintas cámaras con una precisión espacial suficiente. .

La Figura 9 presenta una señal temporal del área de la frente, que muestra el cambio del nivel de gris del píxel durante 14 s (antes del procedimiento de corte de 120 fotogramas), antes (a1-c1) y después (a2-c2) del proceso de reducción de resolución espacial. El proceso de reducción de resolución espacial imita los parches faciales utilizados por Yang et al.19, creando muchas señales temporales de latidos del corazón mientras cada una se origina en un área facial diferente, lo que genera señales espaciotemporales relacionadas con la fisiología para su posterior análisis.

Una señal temporal de píxel de la frente antes (a1 – c1) y después (a2 – c2) de la reducción de resolución espacial de dos etapas mediante un promedio local. (a1, a2) La señal temporal. (b1, b2) La señal temporal después del filtrado de paso de banda en la banda de frecuencia de 0,8 a 4 Hz. (c1, c2) La señal en el dominio de la frecuencia, donde el componente de frecuencia cardíaca estimada (EHR) está marcado con una flecha naranja.

La HCE es claramente visible al comparar las señales de frecuencia de píxeles de fondo (Fig. 10a) con las señales de frecuencia de píxeles de la piel (Fig. 10b), debido a los picos de frecuencia de los canales RGB y NIR a aproximadamente 1,1 Hz, que es inexistente. en el caso del píxel de fondo. El canal LWIR no proporcionó componentes de frecuencia comparables en la banda de frecuencia cardíaca esperada y se utilizó de manera diferente en las últimas etapas. Las señales presentadas en la Fig. 10a, b fueron filtradas de paso alto a 0,25 Hz para filtrar componentes irrelevantes de baja frecuencia. La mayor visibilidad de la frecuencia cardíaca en los canales RGB y NIR en relación con el canal LWIR también se observa en las señales temporales en la Fig. 11 en relación con la Fig. 12.

Las potencias del espectro en el dominio de la frecuencia de (a) una señal de píxel de fondo (ubicada en una pared detrás de la cara del espectador) y (b) una señal de píxel de la piel del rostro.

Señales temporales de píxeles de frente RGB y NIR. Los picos y valles están marcados con puntos negros para los canales rojo, verde, azul y NIR (a, b, c, d), respectivamente.

Señal temporal de píxeles de frente del canal LWIR (línea gris), filtrada de paso bajo a 0,75 Hz (línea negra) y los valores muestreados temporalmente (puntos rojos), que se convierten en la Característica 1 o F1 (\({\mathrm{TMP} }^{\mathrm{LWIR}}\)).

La absorción de hemoglobina es máxima en el espectro VIS-NIR, alcanzando su punto máximo en las longitudes de onda azul y verde. Por lo tanto, se espera que ambos canales tengan señales más fuertes relacionadas con la frecuencia cardíaca debido a los cambios de volumen arterial, que modulan la luz reflejada difusa capturada por el sensor de la cámara39. Además, el sensor CMOS de la cámara está basado en patrones Bayer, lo que significa que hay el doble de píxeles del canal verde en comparación con el azul y el rojo, lo que produce un menor ruido39, como se puede ver en la Fig. 10a. La remesa espectral difusa del canal verde es mayor en comparación con el canal azul, lo que significa que la luz reflejada más difusa de la longitud de onda del canal verde penetró en la piel y contiene información útil, en comparación con el canal azul29. Por todas estas razones, el procedimiento que se desarrolló para la estimación numérica de la frecuencia cardíaca de los vídeos de cara corta utilizó únicamente el canal verde.

Cada una de las señales temporales pertenecientes a cada píxel del canal verde se filtró en paso de banda utilizando un filtro Butterworth de sexto orden con frecuencias de corte de 0,75 a 4 Hz, que incluyen las frecuencias de frecuencia cardíaca esperadas. Luego se aplicó FFT a cada una de esas señales temporales y se cortó por la mitad, manteniendo solo las frecuencias positivas. Utilizando la frecuencia en el valor máximo en cada uno de los vectores de frecuencia pertenecientes a cada píxel, se creó un mapa espacial 2D de frecuencias con el valor energético más alto (Fig. 13d), difuminado usando un kernel de 5 × 5 para un mejor manejo del ruido (Fig. . 13e) y binarizado utilizando el umbral adaptativo Otsu38 (Fig. 13f). Luego, se aplicó apertura morfológica (erosión seguida de dilatación) al mapa espacial binarizado de picos de frecuencia con un núcleo de 5 × 5, produciendo una máscara espacial (Fig. 13g). Al multiplicar esta máscara con el mapa de frecuencias espaciales original se obtiene un mapa de ubicación de caras de frecuencias con valores de energía más altos (Fig. 13h), en el que el valor de frecuencia más común, que es la mediana de todos los elementos distintos de cero, representa la EHR. establecido como Característica 8 (F8): \({{\varvec{H}}{\varvec{R}}}^{{\varvec{G}}}\).

Un diagrama que resume el método propuesto. De izquierda a derecha: entrada de marcos faciales estimulados por emociones, detección y recorte de rostros, reducción de resolución espacial, proceso de estimación de la frecuencia cardíaca (parte inferior, d – h), localización de los picos y valles de las señales de frecuencia cardíaca de los canales RGB y NIR (abajo a la derecha ( R, G, B, NIR), reduciendo la resolución del canal LWIR (arriba a la derecha, c) y creando las características TSTMS a partir de las imágenes de la cara en los picos y valles. La parte superior es el ejemplo de señal temporal del píxel de la frente del canal verde obtenido en estos etapas, antes (parte superior, a) y después (parte superior, b) de la reducción de resolución espacial, como se detalla en la Fig. 8.

Para encontrar los picos y valles (P&T) de la señal de frecuencia cardíaca en cada canal, como se presenta en las figuras 11a-d, se aplicó un algoritmo de búsqueda de picos en la señal temporal de cada píxel con dos umbrales: una distancia mínima permitida en el tiempo entre picos (umbral temporal, \({t}_{s}\)), y una prominencia de amplitud mínima, medida desde la parte superior de cada pico hasta su línea de contorno más baja (umbral de prominencia,\(p\)). Para todos los canales, el umbral relacionado con el tiempo se estableció en el mínimo \({t}_{s}\ge \frac{3}{4}\frac{{f}_{s}}{{h}_{r }}\) fotogramas, donde \({h}_{r}\) es la EHR en \(Hz\) y \({f}_{s}\) es la velocidad de fotogramas efectiva en \(Hz\). ). Debido a las características de ruido de cada canal (Fig. 10a), relacionadas con las cámaras específicas y las condiciones de iluminación que se utilizaron, el umbral de prominencia de amplitud mínima se estableció en \(p\ge 0,4\) para los canales G y NIR. y para los canales R y B la prominencia se fijó en \(p\ge 0,2\). Dado que no todos los píxeles en cada video grabado eran píxeles de la piel del rostro con una señal de frecuencia cardíaca clara, se espera que se encuentre una cantidad menor de P&T en los píxeles con una señal de frecuencia cardíaca deficiente. Por lo tanto, para crear un espacio multidimensional (espacial [x,y]; temporal [t] y longitud de onda \([\lambda\)]) con valores de nivel de gris de P&T, los arreglos de P&T más cortos se rellenaron con ceros para ajustarse a la longitud máxima del Se encontró la dimensión temporal de P&T. Por ejemplo, en la Fig. 11a se encontraron 4 picos y, por lo tanto, se ampliaron con relleno cero hasta el número máximo de picos encontrados.

Dado que el canal LWIR no parecía tener información clara o relacionada con la frecuencia cardíaca (Fig. 10b), se filtró de paso bajo a 0,75 Hz usando un filtro Butterworth de sexto orden (Fig. 12, curva negra) y se redujo la resolución a 1,5. Hz para mantener la información relacionada con cambios temporales de temperatura relativamente lentos en cada píxel, mientras se suprime el ruido como se muestra en la Fig. 12 mediante la curva gris. Los valores reducidos representados en la Fig. 12 como puntos rojos se utilizaron como Característica 1 (F1): \({{\varvec{T}}{\varvec{M}}{\varvec{P}}}^{{\varvec {L}}{\varvec{W}}{\varvec{I}}{\varvec{R}}}\).

Las funciones de TSTMS se diseñaron para maximizar la información medida de forma remota de parámetros fisiológicos relevantes, que se sabe que están relacionados con la actividad de ANS, reduciendo así significativamente el tamaño de los datos y haciendo que su procesamiento sea más fácil y rápido mediante el clasificador de aprendizaje automático.

La luz reflejada difusa de la piel humana depende del tipo de piel, el color y la longitud de onda incidente29,30, lo que permite la detección remota de información relacionada con la concentración de los principales absorbentes o el cambio en el volumen arterial. Se espera que los principales absorbentes en la piel humana en la ventana óptica de 300 a 1200 nm sean la bilirrubina (\(Bl\)) (en la piel y el plasma sanguíneo)20, DOPA-melanina (\(Ml\)), hemoglobina (\(Hb\)), oxihemoglobina (\({HbO}_{2}\))30, hemoglobina de monóxido de carbono (\(COHb\)) y metahemoglobina (\(MetHb\))31. Según la conservación de la energía (Ec. 3)42:

donde \({I}_{0}\) es el flujo incidente sobre una superficie, la reflectancia especular \({R}_{S}\) y la reflectancia difusa \({R}_{D}\) son ambas cantidad total de flujo reflejado por la superficie, la transmitancia \({T}_{z}\) es la cantidad de flujo transmitido por una sustancia a una profundidad z, y cualquier flujo no reflejado o transmitido se absorbe, denotado por \({A }_{z}\)40. La cantidad de flujo transmitido se puede definir mediante la ley de Beer Lambert (Ec. 4), que describe la atenuación exponencial de la luz cuando pasa a través de un medio homogéneo que absorbe la luz, donde \({I}_{z}\) es la luz la intensidad en la profundidad \(z\), y \({\alpha }_{c,\lambda }\) es la absorción de luz que depende de la concentración del material y la longitud de onda \(\lambda\)41,42.

El flujo absorbido a la profundidad de la piel \(z\) está relacionado con la transmitancia a la profundidad de la piel \(z\) como40:

Admitiendo y reordenando la Ec. 5 en la ecuación. 3 produce la relación entre la luz reflejada difusa (\({R}_{D}\)) y especular (\({R}_{S}\)) capturada por el sensor de la cámara y el flujo incidente (\( {I}_{0}\)), y tanto el flujo total absorbido (\(\mathrm{log}({T}_{z})\)) (Ec. 5) como el flujo total transmitido (\({ T}_{z}\)), lo que produce la ecuación. 6:

Un cambio en la distancia media recorrida \({\Delta z}_{(t)}\) (Ec. 4) debido al cambio de volumen arterial inducido por la pulsación cardíaca18,31,32 se relacionará con un cambio en la distancia reflejada difusa luz \(\Delta {R}_{D(t)}\) (Ec. 6). Dado que se supone que \({R}_{S}\) y \({I}_{0}\) son constantes, donde \({R}_{D}^{min}\) ocurre cuando la arteria el diámetro de la arteria es el mayor, y \({R}_{D}^{max}\) cuando el diámetro de la arteria es el menor31 (la absorbancia máxima producirá una reflectancia mínima y viceversa), la ecuación. (6) se puede derivar con respecto a los cambios temporales inducidos por la pulsación del corazón, para convertirse en la ecuación. (7):

Dado que la luz reflejada difusa \({R}_{D(t)}\) está relacionada con \({T}_{z}\) según la ecuación. (7), y a la ley de Beer Lambert según la ecuación. 4, las características comúnmente utilizadas por el PPG de contacto se pueden utilizar mediante nuestro método PPG remoto de luz reflejada difusa. Por lo tanto, basándose en las características temporales, comúnmente utilizadas para muchas aplicaciones de PPG de contacto relacionadas con cambios en la concentración de hemoglobina20,21,22,31,42,43 y en base a la ley de Beer Lambert, se utilizaron las siguientes características, con dos características espaciales adicionales. dimensiones \({f}_{\lambda,t}\to {f}_{x,y,\lambda,t}\) que producen las características TSTMS, definidas para cada ubicación de píxel (x, y) en el espacio reducido resolución (50 × 35) video frontal y en cada instancia pulsátil t:

\({I}_{max}^{\lambda }(x,y,t)\): Valor del nivel de gris del píxel en el pico de la señal de frecuencia cardíaca para la longitud de onda \(\lambda\) .\(\left\{{R }_{D}^{max}+{R}_{S}\derecha\}\)

\({I}_{min}^{\lambda }(x,y,t)\): valor del nivel de gris del píxel en el valle de la señal de frecuencia cardíaca para la longitud de onda \(\lambda\). \(\left\{{R}_{D}^{min}+{R}_{S}\right\}\)

\({{\varvec{I}}}_{{\varvec{A}}{\varvec{C}}}^{{\varvec{\lambda}}}\left(x,y,t\right) ={I}_{max}^{\lambda }\left(x,y,t\right)-{I}_{min}^{\lambda }(x,y,t)\): Amplitud pulsátil. \(\left\{{R}_{D}^{max}+{R}_{S}-\left({R}_{D}^{min}+{R}_{S}\right )={R}_{D}^{max}-{R}_{D}^{min}\right\}\)

\({{\varvec{I}}}_{{\varvec{R}}}^{{\varvec{\lambda}}}(x,y,t)=ln\left(\frac{{I} _{max}^{\lambda }(x,y,t)}{{I}_{min}^{\lambda }(x,y,t)}\right)\): Basado en una medida de absorción que elimina el efecto del tejido20,21,31,43.

\({{\varvec{I}}}_{{\varvec{R}},\boldsymbol{ }{\varvec{A}}{\varvec{C}}}^{{{\varvec{\lambda} }}_{1}{{\varvec{\lambda}}}_{2}}(x,y,t)=\frac{{I}_{AC}^{{\lambda }_{1}} (x,y,t)}{{I}_{AC}^{{\lambda }_{2}}(x,y,t)}\): Basado en la disimilitud de amplitudes pulsátiles entre dos longitudes de onda, \({ \lambda }_{1}\) y \({\lambda }_{2}\)20,21,22.

\({{\varvec{I}}}_{{\varvec{R}},\boldsymbol{ }{\varvec{A}}{\varvec{C}}{\varvec{D}}{\varvec{ C}}}^{{{\varvec{\lambda}}}_{1}{{\varvec{\lambda}}}_{2}}(x,y,t)=\left|\frac{{ I}_{R}^{{\lambda }_{1}}(x,y,t)-{I}_{R}^{{\lambda }_{2}}(x,y,t) }{{I}_{max}^{{\lambda }_{1}}(x,y,t)-{I}_{max}^{{\lambda }_{2}}(x,y ,t)}\right|\): Basado en la diferencia de absorción entre longitudes de onda \({\lambda }_{1}\) y \({\lambda }_{2}\), ajustada con la línea base20,21.

Las características de TSTMS empleadas para su uso en la etapa de clasificación se presentan en la Tabla 1. Estas características utilizan las cinco longitudes de onda principales que proporcionan nuestros sistemas de imágenes. Se encontró que las características adicionales que se pueden construir basándose en las definiciones de características anteriores, en las diferentes longitudes de onda, eran sustancialmente menos significativas para el objetivo de clasificación. Cada una de las primeras 7 características presentadas en la Tabla 1 se distribuye espacial y temporalmente, formando un espacio de características con valores de 50 × 35 para cada una de las 5 imágenes pulsátiles (es decir, fotogramas de pulso). Por lo tanto, hubo un total de 5 × 50 × 35 = 8750 valores (parámetros) por característica para cada video de rostro activado por emoción de 4 s. Cada valor puede tener un efecto diferente (es decir, importancia) en la clasificación final de la emoción.

En la Fig. 13 se presenta un diagrama esquemático del método propuesto. Las entradas son los fotogramas de vídeo de los canales RGB, NIR y LWIR del rostro del sujeto estimulado por la emoción.

El conjunto de datos analizado durante el presente estudio y los resultados del clasificador y la importancia de las características están disponibles a través del autor correspondiente, SS, previa solicitud razonable.

Se ha publicado una corrección a este artículo: https://doi.org/10.1038/s41598-022-18261-1

Khan, F. Reconocimiento de expresiones faciales mediante detección de puntos de referencia faciales y extracción de características a través de redes neuronales. arXiv (2018).

Li, S. y Deng, W. Reconocimiento profundo de expresiones faciales: una encuesta. Traducción IEEE. Afectar. Computadora. https://doi.org/10.1109/TAFFC.2020.2981446 (2020).

Artículo de Google Scholar

Doron Atias, HA Precisión empática: lecciones de la percepción de expresiones emocionales contextualizadas de la vida real. Neural. 171 (2021)

Le Ngo, AC, Johnston, A., Phan, RCW y See, J. Ampliación del movimiento por microexpresión: enfoques lagrangianos globales versus eulerianos locales. Proc. 13° IEEE Int. Conf. Automático. Reconocimiento de gestos faciales. GF 2018 https://doi.org/10.1109/FG.2018.00102 (2018).

Artículo de Google Scholar

Yan, WJ, Wu, Q., Liang, J., Chen, YH & Fu, X. ¿Qué tan rápidas son las expresiones faciales filtradas? La duración de las microexpresiones. J. Comportamiento no verbal. 37(4), 217–230. https://doi.org/10.1007/s10919-013-0159-8 (2013).

Artículo de Google Scholar

Porter, S. y ten Brinke, L. Lectura entre mentiras: identificación de emociones ocultas y falsificadas en expresiones faciales universales. Psicólogo. Ciencia. 19(5), 508–514 (2008).

Artículo de Google Scholar

Levenson, RW Diferencias del sistema nervioso autónomo entre emociones. Psicólogo. Ciencia. 3(1), 23–27. https://doi.org/10.1111/j.1467-9280.1992.tb00251.x (1992).

Artículo de Google Scholar

Lee, MS y cols. Reconocimiento rápido de emociones basado en una señal PPG de pulso único con red neuronal convolucional. Aplica. Ciencia. https://doi.org/10.3390/app9163355 (2019).

Artículo de Google Scholar

Zhuang, N. y col. Reconocimiento de emociones a partir de señales EEG utilizando información multidimensional en el dominio EMD. Biomédica. Res. En t. https://doi.org/10.1155/2017/8317357 (2017).

Artículo PubMed PubMed Central Google Scholar

Chao, H., Dong, L., Liu, Y. y Lu, B. Reconocimiento de emociones a partir de señales eeg multibanda mediante capsnet. Sensores (Suiza) https://doi.org/10.3390/s19092212 (2019).

Artículo PubMed Central Google Scholar

Christie, IC y Friedman, BH Especificidad autónoma de emociones discretas y dimensiones del espacio afectivo: un enfoque multivariado. En t. J. Psicofisiol. 51(2), 143-153. https://doi.org/10.1016/j.ijpsycho.2003.08.002 (2004).

Artículo PubMed Google Scholar

Hahn, AC, Whitehead, RD, Albrecht, M., Lefevre, CE y Perrett, DI ¿Caliente o no? Reacciones térmicas al contacto social. Biol. Letón. 8(5), 864–867. https://doi.org/10.1098/rsbl.2012.0338 (2012).

Artículo PubMed PubMed Central Google Scholar

Ioannou, S., Gallese, V. y Merla, A. Imágenes térmicas infrarrojas en psicofisiología: potencialidades y límites. Psicofisiología 51(10), 951–963. https://doi.org/10.1111/psyp.12243 (2014).

Artículo PubMed PubMed Central Google Scholar

Merla, A. Revelar psicofisiología y emociones a través de imágenes térmicas infrarrojas. Procedimiento PhyCS 2014. En t. Conf. Fisiol. Computadora. Sistema. https://doi.org/10.5220/0004900803680377 (2014).

Artículo de Google Scholar

Merla, A. & Romani, GL Firmas térmicas de excitación emocional: un estudio funcional de imágenes infrarrojas. Año. En t. Conf. Ing. IEEE. Medicina. Biol. Proc. https://doi.org/10.1109/IEMBS.2007.4352270 (2007).

Artículo de Google Scholar

Pavlidis, I., Levine, J. y Baukol, P. Imágenes térmicas para la detección de ansiedad. IEEE (2000).

Tsiamyrtzis, P. et al. Imagenología de la fisiología facial para la detección del engaño. En t. J. Computación. Vis. 71(2), 197–214. https://doi.org/10.1007/s11263-006-6106-y (2007).

Artículo de Google Scholar

De Haan, G., Jeanne, V. Frecuencia de pulso robusta de rPPG basado en crominancia. 1–9 (2013).

Yang, Z., Yang, X., Jin, J. y Wu, X. Medición de la frecuencia cardíaca resistente al movimiento a partir de videos faciales mediante fusión basada en parches. Proceso de vídeo de imagen de señal. 13(3), 423–430. https://doi.org/10.1007/s11760-018-01409-w (2019).

Artículo de Google Scholar

Wang, EJ y cols. HemaApp. Obtener Mobile Mob. Computadora. Comunitario. 21(2), 26–30. https://doi.org/10.1145/3131214.3131223 (2017).

Artículo de Google Scholar

Wang, EJ, Li, W., Zhu, J., Rana, R. y Patel, SN Medición de hemoglobina no invasiva utilizando una cámara de teléfono inteligente no modificada y un flash blanco. Proc. Año. En t. Conf. Ing. IEEE. Medicina. Biol. Soc. EMBS https://doi.org/10.1109/EMBC.2017.8037323 (2017).

Artículo de Google Scholar

Moço, AV, Stuijk, S. & De Haan, G. Nuevos conocimientos sobre el origen de las señales remotas de PPG en luz visible e infrarroja. Ciencia. Representante 8(1), 1-15. https://doi.org/10.1038/s41598-018-26068-2 (2018).

Artículo CAS Google Scholar

Dorogush, AV, Ershov, V. y Gulin, A. CatBoost: aumento de gradiente con soporte de funciones categóricas. arXiv, págs. 100-1 1–7 (2018)

Saito, T. & Rehmsmeier, M. El gráfico de recuperación de precisión es más informativo que el gráfico ROC cuando se evalúan clasificadores binarios en conjuntos de datos desequilibrados. MÁS UNO 10(3), 1–21. https://doi.org/10.1371/journal.pone.0118432 (2015).

Artículo CAS Google Scholar

Brodersen, KH, Ong, CS, Stephan, KE & Buhmann, JM La precisión equilibrada y su distribución posterior. Proc. En t. Conf. Reconocimiento de patrones. 3121, 3124. https://doi.org/10.1109/ICPR.2010.764 (2010).

Artículo de Google Scholar

Chattamvelli, R., Rajan, S., Ramalingam, C. Estadísticas para científicos e ingenieros. 2015, [en línea]. https://ebookcentral-proquest-com.ezproxy.bgu.ac.il/lib/bgu-ebooks/detail.action?docID=1895998.

Liu, J., Luo, H., Zheng, PP, Wu, SJ y Lee, K. Las imágenes ópticas transdérmicas revelaron diferentes patrones espaciotemporales de actividades cardiovasculares faciales. Ciencia. Rep. 8(1), 1-10. https://doi.org/10.1038/s41598-018-28804-0 (2018).

Artículo ADS CAS Google Scholar

Rózanowski, K. & Murawski, K. Un sensor de infrarrojos para el seguimiento ocular en un entorno automovilístico hostil. Acta Phys. Pol. A 122(5), 874–879. https://doi.org/10.12693/APhysPolA.122.874 (2012).

ADS del artículo Google Scholar

Piazena, H., Meffert, H. y Uebelhack, R. Remesas espectrales y transmitancia de radiación visible e infrarroja en la piel humana: comparación entre mediciones in vivo y cálculos de modelos. Fotoquímica. Fotobiol. 43, 1449-1461. https://doi.org/10.1111/php.12785 (2017).

Artículo CAS Google Scholar

Anderson, RR & Parrish, JA La óptica de la piel humana. J. Invertir. Dermatol. 77(1), 13-19. https://doi.org/10.1111/1523-1747.ep12479191 (1981).

Artículo CAS PubMed Google Scholar

Abdallah, O., Alam, KA y Bolz, A. Hacia la monitorización no invasiva de la concentración de hemoglobina total y la saturación fraccionada de oxígeno basada en la oximetría de pulso del lóbulo de la oreja. Procedimiento IFMBE. 22(2), 1738-1742. https://doi.org/10.1007/978-3-540-89208-3_414 (2008).

Artículo de Google Scholar

Kamshilin, AA y Margaryants, NB Origen de la forma de onda fotopletismográfica con luz verde. Física. Procedia 86 (junio de 2015), 72–80. https://doi.org/10.1016/j.phpro.2017.01.024 (2017).

ADS del artículo Google Scholar

Barrett, LF, Adolphs, R., Marsella, S., Martinez, AM y Pollak, SD Reconsideración de las expresiones emocionales: desafíos para inferir emociones a partir de los movimientos faciales humanos. Psicólogo. Ciencia. Intereses públicos. 20(1), 1–68. https://doi.org/10.1177/1529100619832930 (2019).

Artículo CAS Google Scholar

Cowen, AS y Keltner, D. El autoinforme captura 27 categorías distintas de emociones unidas por gradientes continuos. Proc. Nacional. Acad. Ciencia. https://doi.org/10.1073/pnas.1702247114 (2017).

Artículo PubMed PubMed Central Google Scholar

Samson, AC, Kreibig, SD, Soderstrom, B., Wade, AA y Gross, JJ Obtención de estados emocionales positivos, negativos y mixtos: una filmoteca para científicos afectivos. Cogn. Emocionado. 30(5), 827–856. https://doi.org/10.1080/02699931.2015.1031089 (2016).

Artículo PubMed Google Scholar

Viola, P. & Jones, M. Detección rápida de objetos mediante una cascada mejorada de funciones simples. Proc. Computación IEEE. Soc. Conf. Computadora. Vis. Reconocimiento de patrones. 1, 1. https://doi.org/10.1109/cvpr.2001.990517 (2001).

Artículo de Google Scholar

VIOLA, PMJJ Detección robusta de rostros en tiempo real. En t. J. Computación. Vis. (2004).

Liao, PS, Chen, TS y Chung, PC Un algoritmo rápido para umbrales multinivel. J.Inf. Ciencia. Ing. 17(5), 713–727. https://doi.org/10.6688/JISE.2001.17.5.1 (2001).

Artículo de Google Scholar

Shchelkanova, E., Shchelkanov, A., Shchapova, L. y Shibata, T. Una exploración de la señal PPG azul utilizando un novedoso sistema PPG basado en sensores de color. Proc. Año. En t. Conf. IEEE Ing. Medicina. Biol. Soc. EMBS 2020, 4414–4420. https://doi.org/10.1109/EMBC44109.2020.9175745 (2020).

Artículo de Google Scholar

Amelard, R. y col. Viabilidad de la monitorización de la frecuencia cardíaca a larga distancia mediante imágenes fotopletismográficas de transmitancia (PPGI). Nat. Publ. Gramo. https://doi.org/10.1038/srep14637 (2015).

Artículo de Google Scholar

Torricelli, A., Pifferi, A., Taroni, P. y Cubeddu, R. Caracterización óptica in vivo de tejidos humanos de 610 a 1010 nm mediante espectroscopia de reflectancia resuelta en el tiempo 610 a 1010 nm mediante espectroscopia de reflectancia resuelta en el tiempo (2001 ).

Kocsis, L., Herman, P. y Eke, A. Revisión de la ley Beer-Lambert modificada. Física. Medicina. Biol. https://doi.org/10.1088/0031-9155/51/5/N02 (2006).

Artículo PubMed MATEMÁTICAS Google Scholar

Abdallah, O. y col. Cálculo de concentraciones de fracciones de hemoglobina mediante la ley de Lambert-Beer modificada y resolución de un sistema de ecuaciones mal planteado. Proc. ESPIE https://doi.org/10.1117/12.854603 (2010).

Artículo de Google Scholar

Descargar referencias

Los autores agradecen la asistencia financiera de la Beca JOY Neuro-wellness.

Departamento de Ingeniería Electroóptica, Escuela de Ingeniería Eléctrica e Informática, Universidad Ben Gurion del Negev, Beer Sheva, Israel

Shaul Shvimmer y Yitzhak Yitzhaky

Departamento de Psicología, Universidad Ben Gurion del Negev, Beer Sheva, Israel

Simhon rojo

Facultad de Ciencias Psicológicas y Facultad de Neurociencia Sagol, Universidad de Tel Aviv, Tel Aviv, Israel

miguel galaad

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

SS diseñó el experimento, concibió el método propuesto y analizó los datos, con la supervisión y asesoramiento de YY. RS diseñó los aspectos psicológicos de los experimentos y gestionó su ejecución, con la supervisión y asesoramiento de MG. MG y YY iniciaron esta investigación interdisciplinaria. Todos los autores discutieron la investigación regularmente y revisaron el manuscrito.

Correspondencia a Shaul Shvimmer o Yitzhak Yitzhaky.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

La versión original en línea de este artículo fue revisada: la versión original de este artículo contenía un error en la sección Resultados, bajo el subtítulo "Análisis de importancia de características espaciales". Además, la versión original de este artículo contenía un error en la ortografía del autor Michael Gilead que se indicó incorrectamente como Michael Gilad. La información completa sobre las correcciones realizadas se puede encontrar en la corrección de este artículo.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Shvimmer, S., Simhon, R., Gilead, M. et al. Clasificación de estados emocionales mediante patrones faciales espaciotemporales cardiovasculares transdérmicos utilizando vídeos faciales multiespectrales. Representante científico 12, 11188 (2022). https://doi.org/10.1038/s41598-022-14808-4

Descargar cita

Recibido: 05 de agosto de 2021

Aceptado: 13 de junio de 2022

Publicado: 01 de julio de 2022

DOI: https://doi.org/10.1038/s41598-022-14808-4

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.