Comparison of the targets obtained by a scoring matrix and by a regular expression. Application to the search for LXR binding sites
Autor: | Antoine-Lorquin, Aymeric, Lagarrigue, Sandrine, Lecerf, Frédéric, Nicolas, Jacques, Belleannée, Catherine |
---|---|
Přispěvatelé: | Dynamics, Logics and Inference for biological Systems and Sequences (Dyliss), Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-GESTION DES DONNÉES ET DE LA CONNAISSANCE (IRISA-D7), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), Université de Rennes (UR), Physiologie, Environnement et Génétique pour l'Animal et les Systèmes d'Elevage [Rennes] (PEGASE), Institut National de la Recherche Agronomique (INRA)-AGROCAMPUS OUEST, CentraleSupélec-Télécom Bretagne-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Université de Bretagne Sud (UBS)-Centre National de la Recherche Scientifique (CNRS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-CentraleSupélec-Télécom Bretagne-Université de Rennes 1 (UR1), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-École normale supérieure - Rennes (ENS Rennes)-Université de Bretagne Sud (UBS)-Centre National de la Recherche Scientifique (CNRS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA), Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES), Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro), Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Université de Bretagne Sud (UBS)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-CentraleSupélec-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Université de Rennes (UNIV-RENNES)-CentraleSupélec-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Université de Bretagne Sud (UBS)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Rennes (ENS Rennes)-Télécom Bretagne-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-CentraleSupélec, AGROCAMPUS OUEST-Institut National de la Recherche Agronomique (INRA) |
Jazyk: | francouzština |
Rok vydání: | 2015 |
Předmět: |
matrice RSAT
pattern matching Bioinformatics position-weight matrix transcription factor binding sites Bio-informatique approximate regular expression site de fixation de facteur de transcription expression régulière approchée RSAT matrix [INFO.INFO-BI]Computer Science [cs]/Bioinformatics [q-bio.QM] matrice poids-position |
Zdroj: | JOBIM 2015-16e Journées Ouvertes en Biologie, Informatique et Mathématiques JOBIM 2015-16e Journées Ouvertes en Biologie, Informatique et Mathématiques, Jul 2015, Clermont-Ferrand, France Jobim 2015. 2015; 16. Journées Ouvertes en Biologie, Informatique et Mathématiques, Clermont-Ferrand, FRA, 2015-07-06-, 22 |
Popis: | In bioinformatics, it is a common task to search for new instances of a pattern built from a set of reference sequences. For the simplest and most frequent cases, patterns are represented in two ways : regular expression or scoring matrix. In the first case, the acceptance of a sequence is a binary decision. In the second case, the quality of the sequence is indicated by a score. Since both representations seem to be used indifferently in pratice, one may wonder if they have any impact on the result. Is there a best representation? What is the accurate threshold value for a scoring matrix? Allowing mutations in a regular expression is it comparable to moving the score of acceptance of a matrix? These are questions adressed in this paper, through a test case on binding site search. This study compares hits obtained with scoring matrices or by regular expressions allowing up to two substitutions. The study shows that, in our LXR study, sequences found by a scoring matrix are closer to the targeted hits than sequences found by a regular expression. En bio-informatique, il est habituel de rechercher de nouvelles instances d'un modèle construit à partir d'un ensemble de séquences de référence. Dans la majorité des cas, les plus simples, ces modèles sont représentés soit par des expressions régulières, soit par les matrices de score. Dans le cas des expressions régulières, le résultat d'une analyse est binaire (acceptation ou rejet). Dans le cas des matrices de score, un score indique la qualité du résultat. Si, en pratique, ces deux représentations semblent pouvoir être utilisées indifféremment , on peut se demander si elles ont un impact sur le résultat. Y'a-t-il une meilleure représentation ? Comment fixer le seuil d'acceptabilité d'une matrice de score ? Autoriser des mutations sur une expression régulière est-il comparable à faire varier le seuil d'acceptation d'une matrice? Ce sont des questions évoquées dans ce papier, au travers du cas d'application du site de fixation de LXR. Cette étude compare les occurrences obtenues avec une matrice de score et avec une expression régulière autorisant jusqu'à deux substitutions. Elle montre que, dans notre étude LXR, les séquences obtenues avec une matrice de score sont plus proches des références que les séquences obtenues par l'expression régulière. |
Databáze: | OpenAIRE |
Externí odkaz: |