Analyse multimodale d'interaction humaine dans le cockpit d'un véhicule

Autor: Portes, Quentin, Pinquier, Julien, Lerasle, Frédéric, Mendes-Carlalho, Jose
Přispěvatelé: Renault Software Lab, Équipe Structuration, Analyse et MOdélisation de documents Vidéo et Audio (IRIT-SAMoVA), Institut de recherche en informatique de Toulouse (IRIT), Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées, Équipe Robotique, Action et Perception (LAAS-RAP), Laboratoire d'analyse et d'architecture des systèmes (LAAS), Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse 1 Capitole (UT1), Centre National de la Recherche Scientifique [CNRS], Equipe REVA, IRIT : Institut de Recherche en Informatique de Toulouse, Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT)-Université de Toulouse (UT)-Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université de Toulouse (UT)-Toulouse Mind & Brain Institut (TMBI), Université Toulouse - Jean Jaurès (UT2J), Université de Toulouse (UT)-Université de Toulouse (UT)-Université Toulouse III - Paul Sabatier (UT3), Université de Toulouse (UT)-Université Toulouse Capitole (UT Capitole), Université de Toulouse (UT), Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Université de Toulouse (UT)-Institut National des Sciences Appliquées (INSA)-Université Toulouse - Jean Jaurès (UT2J), Sciencesconf.org, CCSD
Jazyk: francouzština
Rok vydání: 2021
Předmět:
Zdroj: Actes ORASIS 2021
18èmes journées francophones des jeunes chercheurs en vision par ordinateur (ORASIS 2021)
18èmes journées francophones des jeunes chercheurs en vision par ordinateur (ORASIS 2021), Centre National de la Recherche Scientifique [CNRS]; Equipe REVA, IRIT : Institut de Recherche en Informatique de Toulouse, Sep 2021, Saint Ferréol, France
Popis: Nowadays, every car maker is thinking about the future of mobility. Electric vehicles, autonomous vehicles and sharing vehicles are the most promising opportunities. The lack of control authority in autonomous and sharing vehicles raises different issues like the passenger safety. To ensure it, new systems able to understand interactions and possible conflicts between passengers have to be designed. They should be able to predict and trigger with high accuracy, an alert to a remote controller before a critical situation happens in the cockpit. In order to better understand the features of these insecure situations, we recorded an audio-video dataset in real vehicle context. Twenty-two participants playing three different scenarios ("curious","argued refusal" and "not argued refusal") of interactionsbetween a driver and a passenger were recorded. We propose a deep learning approach which achieves a balanced accuracy of 81%. Practically, we highlight that combining multimodality, namely video, audio and text as well as temporality are the keys to perform such accurate predictions in scenario recognition.
Aujourd'hui, les constructeurs automobiles se concentrent sur l'avenir de la mobilité. Les véhicules électriques, les véhicules autonomes et les véhicules partagés sont les opportunités les plus prometteuses.Le manque d'autorité dans les véhicules partagés soulève différents problèmes comme la sécurité des passagers. Pour garantir cette dernière, il faut concevoir de nouveaux systèmes capables de comprendre les interactions et les conflits éventuels entre les passagers, avant qu'une situation critique ne se produise dans le cockpit.Afin de mieux comprendre les caractéristiques de ces situations d'insécurité, nous avons enregistré un corpus audio-vidéo dans un contexte de véhicule réel. Vingt-deux participants jouant trois différents scénarios (« curieux », « refus argumenté » et « refus non argumenté ») d'interactions entre un conducteur et un passager ont été enregistrés.Notre approche, basée sur de l'apprentissage profond, atteint une précision de 81%. Nous démontrons que la combinaison des modalités vidéo/audio/texte et la temporalité permettent d'améliorer les prédictions de reconnaissance de scénarios in situ.
Databáze: OpenAIRE