CDPS: Constrained DTW-Preserving Shapelets

Autor: Hussein El Amouri, Thomas Lampert, Pierre Gançarski, Clément Mallet
Přispěvatelé: Laboratoire des sciences de l'ingénieur, de l'informatique et de l'imagerie (ICube), École Nationale du Génie de l'Eau et de l'Environnement de Strasbourg (ENGEES)-Université de Strasbourg (UNISTRA)-Institut National des Sciences Appliquées - Strasbourg (INSA Strasbourg), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Les Hôpitaux Universitaires de Strasbourg (HUS)-Centre National de la Recherche Scientifique (CNRS)-Matériaux et Nanosciences Grand-Est (MNGE), Université de Strasbourg (UNISTRA)-Université de Haute-Alsace (UHA) Mulhouse - Colmar (Université de Haute-Alsace (UHA))-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut de Chimie du CNRS (INC)-Centre National de la Recherche Scientifique (CNRS)-Université de Strasbourg (UNISTRA)-Université de Haute-Alsace (UHA) Mulhouse - Colmar (Université de Haute-Alsace (UHA))-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut de Chimie du CNRS (INC)-Centre National de la Recherche Scientifique (CNRS)-Réseau nanophotonique et optique, Université de Strasbourg (UNISTRA)-Université de Haute-Alsace (UHA) Mulhouse - Colmar (Université de Haute-Alsace (UHA))-Centre National de la Recherche Scientifique (CNRS)-Université de Strasbourg (UNISTRA)-Centre National de la Recherche Scientifique (CNRS), Laboratoire sciences et technologies de l'information géographique (LaSTIG), Ecole des Ingénieurs de la Ville de Paris (EIVP)-École nationale des sciences géographiques (ENSG), Institut National de l'Information Géographique et Forestière [IGN] (IGN)-Université Gustave Eiffel-Institut National de l'Information Géographique et Forestière [IGN] (IGN)-Université Gustave Eiffel, ANR-20-CE23-0022,HERELLES,Hétérogénéité des données - Hétérogénéité des méthodes : Un cadre collaboratif unifié pour l'analyse interactive de données temporelles(2020), ANR-18-CE23-0025,HIATUS,Images aériennes historiques pour la caractérisation des transformations des territoires(2018), univOAK, Archive ouverte, Hétérogénéité des données - Hétérogénéité des méthodes : Un cadre collaboratif unifié pour l'analyse interactive de données temporelles - - HERELLES2020 - ANR-20-CE23-0022 - AAPG2020 - VALID, APPEL À PROJETS GÉNÉRIQUE 2018 - Images aériennes historiques pour la caractérisation des transformations des territoires - - HIATUS2018 - ANR-18-CE23-0025 - AAPG2018 - VALID
Jazyk: angličtina
Rok vydání: 2022
Předmět:
Zdroj: European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases
European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases 2022
European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases 2022, Jun 2022, Strasbourg, France
HAL
Machine Learning and Knowledge Discovery in Databases ISBN: 9783031263866
Popis: The analysis of time series for clustering and classificationis becoming ever more popular because of the increasingly ubiquitousnature of IoT, satellite constellations, and handheld and smart-wearabledevices, etc. The presence of phase shift, differences in sample dura-tion, and/or compression and dilation of a signal means that Euclideandistance is unsuitable in many cases. As such, several similarity mea-sures specific to time-series have been proposed, Dynamic Time Warping(DTW) being the most popular. Nevertheless, DTW does not respect theaxioms of a metric and therefore Learning DTW-Preserving Shapelets(LDPS) have been developed to regain these properties by using the con-cept of shapelet transform. LDPS learns an unsupervised representationthat models DTW distances using Euclidean distance in shapelet space.This article proposes constrained DTW-preserving shapelets (CDPS),in which a limited amount of user knowledge is available in the formof must link and cannot link constraints, to guide the representationsuch that it better captures the user’s interpretation of the data ratherthan the algorithm’s bias. Subsequently, any unconstrained algorithmcan be applied, e.g. K-means clustering, k-NN classification, etc, to ob-tain a result that fulfils the constraints (without explicit knowledge ofthem). Furthermore, this representation is generalisable to out-of-sampledata, overcoming the limitations of standard transductive constrained-clustering algorithms. CLDPS is shown to outperform the state-of-the-art constrained-clustering algorithms on multiple time-series datasets.
Databáze: OpenAIRE