CEDOC
La Universidad Euromed de Fez (UEMF) se complace en informar al público sobre la
defensa de tesis doctoral en “Ciencias de la Computación”
La defensa de tesis se realizará el sábado 12 de octubre de 2024 a las 10:00 horas en la UEMF
Ubicación : el Gran Salón de la Incubadora (LOC001994)
La tesis será presentada por la Sra. Oumaima.
MOUTIK Bajo el tema:
"Técnicas de aprendizaje profundo supervisadas y autosupervisadas para el reconocimiento de acciones humanas basadas en esqueletos en datos de medios visuales"
Abstracto
La Inteligencia Artificial está revolucionando las aplicaciones de comprensión de vídeos, integrándose perfectamente en nuestras rutinas diarias. Sin embargo, hasta ahora, los algoritmos de reconocimiento de acciones son incapaces de razonar sobre vídeos como lo hacen los humanos. Con este fin, nuestra tesis tiene como objetivo desarrollar soluciones de reconocimiento de acciones que se comparen con el estado actual del arte en precisión pero con tiempos y costos financieros reducidos.
Primero, estudiamos la posibilidad de mejorar la detección de interacción persona-objeto integrando información de la escena utilizando una técnica de compresión llamada destilación del conocimiento. Esta tarea auxiliar ha demostrado eficacia a la hora de distinguir entre acciones. Luego consideramos los objetos circundantes, incluidos sus movimientos, para mejorar el reconocimiento de acciones basado en esqueletos. Esto implicó diseñar un conjunto que abarcara información de objetos de la modalidad RGB, que luego se integró consistentemente en los datos del esqueleto tridimensional utilizando una novedosa técnica de fusión temprana.
Durante nuestro recorrido de tesis, investigamos el aprendizaje autosupervisado para tareas de reconocimiento de acciones basadas en esqueletos, impulsados por la necesidad de mitigar el alto costo asociado con las anotaciones humanas. Propusimos una nueva tarea de pretexto, "Rompecabezas en forma de preguntas", basada en operaciones estadísticas. Este trabajo ha proporcionado resultados significativos en conjuntos de datos conocidos basados en Skeleton y allanó el camino para futuras investigaciones exhaustivas. A través de estas contribuciones, nuestra tesis avanza en el campo del reconocimiento de acciones, esforzándose por lograr una comprensión de video similar a la humana y al mismo tiempo reducir sustancialmente los requisitos de recursos computacionales y de anotaciones.
Resumen
La inteligencia artificial está revolucionando las aplicaciones de comprensión de vídeo, integrándose perfectamente en nuestra vida diaria. Sin embargo, hasta ahora, los algoritmos de reconocimiento de acciones no pueden razonar sobre vídeos como lo hacen los humanos. Con este fin, nuestra tesis tiene como objetivo desarrollar soluciones de reconocimiento de acciones que se comparen con el estado actual del arte en términos de precisión, pero con costos reducidos en términos de tiempo y recursos.
Primero, investigamos la posibilidad de mejorar la detección de interacciones humano-objeto integrando información de la escena utilizando una técnica de compresión llamada destilación de conocimiento. Esta tarea auxiliar demostró su eficacia para distinguir acciones. Luego consideramos los objetos circundantes, incluidos sus movimientos, para mejorar el reconocimiento de acciones basado en esqueletos. Esto implicó diseñar un paquete que integrara información de objetos de la modalidad RGB, que luego se integró de manera coherente con datos de esqueleto tridimensionales utilizando una nueva técnica de fusión temprana.
Durante nuestro recorrido de tesis, investigamos el aprendizaje autosupervisado para tareas de reconocimiento de acciones basadas en esqueletos, motivados por la necesidad de reducir los altos costos asociados con las anotaciones humanas. Propusimos una nueva tarea de pretexto, “Preguntas en forma de rompecabezas”, basada en operaciones estadísticas. Este trabajo arrojó resultados significativos en conjuntos de datos esqueléticos bien conocidos y allanó el camino para futuras investigaciones en profundidad. A través de estas contribuciones, nuestra tesis avanza en el campo del reconocimiento de acciones, esforzándose por lograr una comprensión de los videos similar a la humana, al tiempo que reduce significativamente los requisitos de recursos computacionales y de anotación.
Esta tesis será presentada a los miembros del jurado:
Apellido y Nombre | Establecimiento | Calidad |
---|---|---|
Pr. Arsalane ZARGHILI | FST-USMBA | Presidente |
Pr. Fátima-Zohra MHADA | ENSAS | Relator |
Prof. Mohammed AIRAJ | FSM-USMBA | Relator |
Prof. Rachid BENABBOU | FST-USMBA | Relator |
Prof. Fátima OUZAYD | ENSAS | Examinador |
Prof. Said NAJAH | FST-USMBA | Examinador |
Prof. Ahmed EL HILALI ALAOUI | Universidad Euromed de Fez, Marruecos | Director de tesis |
Pr. Taha AIT TCHAKOUCHT | Universidad Euromed de Fez, Marruecos | codirector de tesis |