Outil d'aide au diagnostic du cancer à partir d'extraction d'informations issues de bases de données et d'analyses par biopuces

Autor: Hedjazi, Lyamine
Jazyk: angličtina
Rok vydání: 2011
Předmět:
Druh dokumentu: Diplomová práce
Popis: Le cancer est l'une des causes les plus fréquentes de décès dans le monde. Actuellement, le cancer du sein est le plus répandu dans les cancers féminins. Malgré les avancées significatives faites ces dernières décennies en vue d'améliorer la gestion du cancer, des outils plus précis sont toujours nécessaires pour aider les oncologues à choisir le traitement nécessaire à des fins de guérison ou de prévention de récidive tout en réduisant les effets néfastes des ces traitements ainsi que leurs coûts élevés. Ce travail porte sur l'utilisation de techniques d'apprentissage automatique pour développer de tels outils de gestion du cancer du sein. Les facteurs cliniques, tels que l'âge du patient et les variables histo-pathologiques, constituent encore la base quotidienne de prise de décision pour la gestion du cancer du sein. Cependant, avec l'émergence de la technologie à haut débit, le profil d'expression génique suscite un intérêt croissant pour construire des outils plus précis de prédiction du cancer du sein. Néanmoins, plusieurs challenges doivent être relevés pour le développement de tels outils, principalement: (1) la dimensionnalité des données issues de la technologie des puces, (2) le faible rapport signal sur bruit dans la mesure de biopuces, (3) l'incertitude d'appartenance des patients aux différents groupes du cancer, et (4) l'hétérogénéité des données présentes habituellement dans les bases de données cliniques. Dans ce travail, nous proposons quelques approches pour surmonter de manière appropriée de tels challenges. Une première approche aborde le problème de haute dimensionnalité des données en utilisant les capacités d'apprentissage dit normé ℓ1 pour la conception d'un algorithme de sélection de variables intégré à la méthode SVM (machines à vecteurs supports), algorithme basé sur une technique de gradient. Une deuxième approche permet de gérer simultanément tous les problèmes, en particulier l'intégration de plusieurs sources de données (cliniques, pu ces à ADN, ...) pour construire des outils prédictifs plus précis. Pour cela, un principe unifié est proposé pour surmonter le problème de l'hétérogénéité des données. Pour tenir compte de l'incertitude d'appartenance et augmenter l'interprétabilité du modèle, ce principe est proposé dans le cadre de la logique floue. Par ailleurs, afin d'atténuer le problème du bruit de niveau élevé, une approche symbolique est proposée suggérant l'utilisation de la représentation par intervalle pour modéliser les mesures bruitées. Nous avons conçu en particulier, basée sur ce principe, une approche floue supervisée de pondération de variables. Le processus de pondération repose essentiellement sur la définition d'une marge d'appartenance pour chaque échantillon. Il optimise une fonction objective basée sur la marge d'appartenance afin d'éviter la recherche combinatoire. Une extension de cette approche au cas non supervisé est effectuée pour développer un algorithme de regroupement automatique basé sur la pondération des règles floues. L'efficacité de toutes les approches a été évaluée par des études expérimentales extensives, et comparée avec des méthodes bien connues de l'état de l'art. Enfin, un dernier travail est consacré à des applications des approches proposées dans le domaine du cancer du sein. En particulier, des modèles prédictifs et pronostiques ont été extraits à partir des données de puces à ADN et/ou des données cliniques, et leurs performances comparées avec celles d'approches génétiques et cliniques existantes.
Databáze: Networked Digital Library of Theses & Dissertations