Réseaux de Neurones à Convolution Spatio-Temporelle pour l'analyse et la reconnaissance précoce d'actions et de gestes - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2023

Spatio-Temporal Convolutional Neural Networks for the analysis and early recognition of actions and gestures

Réseaux de Neurones à Convolution Spatio-Temporelle pour l'analyse et la reconnaissance précoce d'actions et de gestes

Résumé

This research work focuses on the early recognition of gestures in the field of human machine interaction. It is part of a collaboration between two research teams: ShaDoc, specializing in document and 2D gesture recognition, and MimeTic, experts in human motion analysis. The primary challenge addressed in this study is the development of a versatile approach for recognizing both 2D gestures performed on a tablet and 3D gestures executed by the human body. To ensure smooth interaction and responsiveness in both domains, the main goal is to recognize these gestures as early as possible, ideally before they are completed. The contributions of this research are structured around three axes: gesture representation, the implementation of a deep learning-based recognition system, and the design of a decision mechanism. These three components work together within a system capable of recognizing a gesture in progress early, while also refraining from making a decision until a gesture becomes distinguishable due to ambiguity between multiple gestures. These approaches proved to be effective in evaluations, both in the trimmed context for 2D gestures and in the untrimmed context for 2D and 3D gestures. The results and experiments of this research demonstrate the relevance of these approaches for real-time interactive systems.
Ce travail de recherche se concentre sur la reconnaissance précoce de gestes dans le domaine de l’interaction homme-machine. Il s’inscrit dans le cadre d’une collaboration entre deux équipes de recherche : ShaDoc, spécialiste de la reconnaissance de document et du geste 2D et MimeTic, experte en analyse du mouvement humain. Il aborde un défi complexe consistant à développer une approche polyvalente pour la reconnaissance à la fois de gestes 2D effectués sur tablette et gestes 3D effectués par le corps humain. Pour des besoins de fluidité d’interaction et de réactivité dans les deux domaines, le défi principal est de parvenir à reconnaître ces gestes au plus tôt, si possible avant qu’ils ne soient terminés. Les contributions s’inscrivent sur trois piliers : la représentation du geste, la réalisation d’un système de reconnaissance à base de réseaux profonds, et la conception d’un mécanisme de décision. Ces trois éléments sont coordonnés au sein d’un système capable de reconnaître un geste en cours de manière précoce, mais aussi de ne pas prendre de décision tant qu’un geste n’est pas reconnaissable du fait d’une ambiguïté entre plusieurs gestes. Ces approches se sont avérées performantes lors des évaluations, à la fois dans le contexte segmenté sur le geste 2D, et dans le contexte non segmenté sur le geste 2D et 3D. Les résultats et expérimentations de cette recherche démontrent la pertinence de ces approches pour les systèmes interactifs en temps réel.
Fichier principal
Vignette du fichier
MANUSCRIT_William_MOCAER_VF.pdf (14.65 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
licence : CC BY NC - Paternité - Pas d'utilisation commerciale

Dates et versions

tel-04414871 , version 1 (24-01-2024)

Licence

Paternité

Identifiants

  • HAL Id : tel-04414871 , version 1

Citer

William Mocaër. Réseaux de Neurones à Convolution Spatio-Temporelle pour l'analyse et la reconnaissance précoce d'actions et de gestes. Intelligence artificielle [cs.AI]. Institut national des sciences appliquées de Rennes, 2023. Français. ⟨NNT : ⟩. ⟨tel-04414871⟩
30 Consultations
6 Téléchargements

Partager

Gmail Facebook X LinkedIn More