Popis: |
Door de werking van het regulatorische netwerk past een organisme zich aan aan wisselende omgevingscondities. In traditionele moleculaire biologie worden meestal een kleine geïsoleerde set van genen bestudeerd om inzicht te krijgen in het regulatorische netwerk. Een gen functioneert echter als onderdeel van een groot regulatorisch netwerk met veel interacties tussen alle onderdelen. Het doel van systeembiologie, een onderzoeksdomein dat recent veel aan belang gewonnen heeft, is om een globaal inzicht te verkrijgen in dit interactienetwerk door gebruik te maken van data op genoomwijd niveau. Het verwerven van inzicht in de manier waarop de verschillende biologische entiteiten van het netwerk functioneren en interageren in uiteenlopende omgevingstoestanden, is van groot belang om biologische processen beter te begrijpen.Verschillende heterogene datatypes beschrijven hetzelfde cellulaire systeem vanuit een andere invalshoek. Door deze meetgegevens op de juiste manier te integreren kunnen we fundamenteel inzicht verwerven in de werking van dit systeem. In deze thesis werden twee methodes voor de identificatie van transcriptionele regulatorische modules ontwikkeld en toegepast. Beide methodes zijn gebaseerd op algoritmes voor het ontdekken van zogenaamde associatieregels of association rule mining algoritmes. In tegenstelling tot andere methodes kunnen deze algoritmes heterogene data op natuurlijke wijze integreren en hebben zij geen problemen met lokale optima.Tijdens de eerste fase van dit doctoraat werd ReMoDiscovery ontwikkeld, een data-integratie raamwerk voor de detectie van regulatorische modules. Het raamwerk maakt gebruik van een gekend association rule mining algoritme voor de integratie van verschillende soorten data die het transcriptionele netwerk op complementaire wijze beschrijven. ReMoDiscovery werd toegepast op enkele reeds uitvoerig bestudeerde gist datasets waarbij modules met uiteenlopende biologische functies werden geïdentificeerd. Onze methode presteerde beter dan voorgaande methodes en leverde daarom het bewijs dat methodes gebaseerd op association rule mining algoritmes geschikt zijn voor detectie van modules via data-integratie.Een tweede fase van het doctoraat spitste zich toe op het verzamelen van beschikbare data omtrent het transcriptionele netwerk. Omdat het uitermate moeilijk en tijdrovend is om data compendia te creëeren en onderhouden, gebruiken veel netwerk-inferentie slechts een gedeelte van de beschikbare data maar het bundelen van de informatie uit alle beschikbare data is cruciaal om een zo volledig mogelijk zicht te verkrijgen op het transcriptioneel netwerk. Om deze reden werd een compendium dat E.coli microroosters bevat van verschillende laboratoria, van verschillende publieke databanken en zelfs van verschillende platformen aangelegd. We ontwikkelden ook GeneReg, een software programma om het verzamelen van data te automatiseren.In een derde en laatste fase van dit doctoraat concentreerden we ons op de conditie-afhankelijkheid van het regulatorische netwerk. In bovengenoemde grote expressiecompendia men niet dat genen samen tot expressie in alle experimentele condities. DISTILLER, een tweede data-integratie raamwerk maakt het mogelijk om regulatorische modules te identificeren waarbij enkel condities worden geselecteerd waarin de genen samen tot expressie komen. Toepassing van DISTILLER op het E.coli compendium van expressiedata en regulatorische motiefdata liet ons toe om het conditie-afhankelijke transcriptionele netwerk van E.coli te bestuderen en uit te breiden met nieuwe regulator-gen interacties. Onze analyse onthulde ook dat in vergelijking met wat verwacht kon worden van RegulonDB slechts een verrassend klein aantal sets van genen die samen tot expressie komen onder controle staan van twee of meerdere regulatoren in dezelfde experimentele condities. nrpages: 211 status: published |