Soutenance de thèse de doctorat en Computer Science par Mme. Oumaima MOUTIK

CEDOC

L’Université Euromed de Fès (UEMF) a le plaisir d’informer le public de la

soutenance de thèse de doctorat en ”Computer Science”

La soutenance de thèse aura lieu le Samedi 12 Octobre 2024 à 10h00 à l’UEMF 

Lieu: la Grande Salle de l'Incubateur (LOC001994) 

La thèse sera présentée par Mme. Oumaima

MOUTIK Sousle thème :

“Supervised and self-supervised deep learning techniques for skeleton-based human action recognition in visual media data”

 

Abstract 

Artificial Intelligence is revolutionizing video understanding applications, seamlessly integrating into our daily routines. However, thus far, action recognition algorithms are incapable of reasoning about videos as humans do. To this end, our thesis aims to develop action recognition solutions that compare with the current state-of-the-art in accuracy but with reduced time and financial costs.

First, we studied the possibility of improving Human-Object Interaction detection by integrating scene information using a compression technique named Knowledge Distillation. This auxiliary task has demonstrated effectiveness in distinguishing between actions. We then considered the surrounding objects, including their motions, to improve Skeleton-based action recognition. This involved designing a set encompassing object information from RGB modality, which was then consistently integrated into the 3-dimensions skeleton data using a novel early fusion technique.

During our thesis journey, we investigated Self-supervised Learning for Skeleton-based action recognition task, driven by the need to mitigate the high cost associated with human annotations. We proposed a novel Pretext Task, "Questions Form Puzzle," based on statistical operations. This work has provided significant results across well-known Skeleton-based datasets and paved the way for extensive future research. Through these contributions, our thesis advances the field of action recognition, striving for human-like video understanding while substantially reducing computational and annotation resource requirements.

Résumé 

L'intelligence artificielle révolutionne les applications de compréhension vidéo, s'intégrant parfaitement dans notre quotidien. Cependant, jusqu'à présent, les algorithmes de reconnaissance d'actions sont incapables de raisonner sur les vidéos comme le font les humains. À cette fin, notre thèse vise à développer des solutions de reconnaissance d'actions qui se comparent à l'état de l'art actuel en termes de précision, mais avec des coûts réduits en termes de temps et de ressources.

Tout d'abord, nous avons étudié la possibilité d'améliorer la détection des interactions humain-objet en intégrant des informations de scène à l'aide d'une technique de compression appelée distillation des connaissances. Cette tâche auxiliaire a démontré son efficacité à distinguer les actions. Nous avons ensuite considéré les objets environnants, y compris leurs mouvements, pour améliorer la reconnaissance d'actions basée sur les squelettes. Cela impliquait de concevoir un ensemble intégrant les informations des objets à partir de la modalité RGB, qui a ensuite été intégrée de manière cohérente aux données de squelettes 3-dimensions à l'aide d'une nouvelle technique de fusion précoce.

Au cours de notre parcours de thèse, nous avons étudié l'apprentissage Auto-supervisé pour les tâches de reconnaissance d'actions basées sur les squelettes, motivés par la nécessité de réduire les coûts élevés associés aux annotations humaines. Nous avons proposé une nouvelle tâche de prétexte, "Questions Form Puzzle", basée sur des opérations statistiques. Ce travail a donné des résultats significatifs sur des ensembles de données bien connus basés sur les squelettes et a ouvert la voie à de futures recherches approfondies. Par ces contributions, notre thèse fait progresser le domaine de la reconnaissance des actions, en s'efforçant d'obtenir une compréhension des vidéos comparable à celle de l'homme, tout en réduisant considérablement les besoins en ressources informatiques et d'annotation.

Cette thèse sera présentée devant les membres de jury :

Nom et Prénom Établissement Qualité
Pr. Arsalane ZARGHILI FST-USMBA Président
Pr. Fatima-Zohra MHADA ENSIAS Rapporteur
Pr. Mohammed AIRAJ FSM-USMBA Rapporteur
Pr. Rachid BENABBOU FST-USMBA Rapporteur
Pr. Fatima OUZAYD ENSIAS Examinateur
Pr. Said NAJAH FST-USMBA Examinateur
Pr. Ahmed EL HILALI ALAOUI Université Euromed de Fès, Maroc Directeur de Thèse
Pr. Taha AIT TCHAKOUCHT Université Euromed de Fès, Maroc Co-directeur de Thèse
Partager