Variational methods for phylogeny and single-cell genomics

Autor: Koptagel, Hazal
Jazyk: angličtina
Rok vydání: 2023
Předmět:
ISSN: 2023-0125
Popis: The investigation of the evolutionary history of organisms, both at the cellular level and at the species level, is a relevant research topic in computational biology. These investigations lead to a deeper understanding of developmental history, cancer progression, the genetic similarity of species, and more. One way to study the relations between single cells or species is to examine the differences in their genomes, including single nucleotide and copy number variations. The genetic materials need to be extracted and sequenced to be used in the analyses, but this data preparation is prone to errors. The development of sophisticated, probabilistic models is of the utmost importance in handling technological artifacts and including uncertainty in the analysis. In this compilation thesis, we studied various questions and presented four papers to address different challenges. First, we focused on single cells from healthy tissue and developed a probabilistic model to reconstruct the cell lineage tree. This task is challenging in several aspects; i) the healthy cells have a low mutation rate and, therefore, do not introduce many mutations at each cell division, ii) healthy cells usually do not have significant structural variations to improve the analysis, and iii) the sequencing technology introduces errors, and some of these errors are hard to distinguish from the mutations. With the experimental studies, we showed that our model is fast, robust, and accurately reconstructs lineage trees. Second, we focused on cancer cells. One research topic is identifying structural variations in the cancer cells' genomes and subsequently grouping the cells with similar genome profiles. This two-step process is vulnerable; the imperfections in the first step can irreversibly impact the analysis in the second step. To address this problem, we developed a variational inference-based model that simultaneously does copy number profiling and cell clustering. In addition, we extended the model to incorporate single nucleotide variations to improve the performance. Third, we approached the phylogenetic tree inference problem and developed a variational inference-based model to make the inference. The tree topology space, which contains all possible phylogenetic tree structures, is enormous, and the consideration of each unique tree is intractable. Typically, the existing variational inference-based methods need to constrain their analysis to a much smaller subset of the tree space. Our proposed model does not require such constraints and can obtain similar performance while requiring significantly less time and memory. Finally, we addressed a challenge in variational inference. The variational inference methods target a complex, usually multimodal posterior distribution and try to approximate it using simpler, often unimodal distributions. This design choice causes the variational models to fit one out of many modes of the target distribution; hence they do not capture the overall pattern of the target distribution. We proposed a simple yet effective way to use separately trained variational models to capture the multimodality of the target distribution and demonstrated the approximation performance using several variational methods and data types. We addressed various challenges in computational biology with these four papers and contributed to the progress of the field by developing probabilistic models. Undersökningen av organismers evolutionära historia, både på cellnivå och artnivå, är ett relevant forskningsämne inom beräkningsbiologi. Dessa studier leder till en djupare förståelse för utveckling, cancerprogression, arternas genetiska likhet med mera. Ett sätt att studera relationerna mellan enskilda celler eller arter är att undersöka skillnaderna i deras genom, inklusive enbaspolymorfier och kopienummervariationer. Det genetiska materialet behöver extraheras och sekvenseras för att användas i analyserna, men fel kan uppstå under databeredningen. Utvecklingen av sofistikerade, probabilistiska modeller är av yttersta vikt vid hantering av tekniska artefakter och inkludering av osäkerhet i analysen. I denna sammanställningsavhandling studerade vi olika frågeställningar och presenterade fyra artiklar för att ta itu med olika utmaningar. Först fokuserade vi på enstaka celler från frisk vävnad och utvecklade en probabilistisk modell för att rekonstruera cellhärkomstträdet. Denna uppgift är utmanande ur flera aspekter; i) de friska cellerna har en låg mutationshastighet och introducerar därför inte många mutationer vid varje celldelning, ii) friska celler har vanligtvis inte signifikanta strukturella variationer för att förbättra analysen; och iii) sekvenseringsteknologin introducerar fel, och några av dessa fel är svåra att skilja från mutationerna. Med den experimentella studien visade vi att vår modell är snabb, robust och exakt rekonstruerar härstamningsträd. För det andra fokuserade vi på cancerceller. Ett forskningsämne är att identifiera strukturella variationer i cancercellernas genom och därefter gruppera cellerna med liknande genomprofiler. Denna tvåstegsprocess är fragil; ofullkomligheterna i det första steget kan oåterkalleligt påverka analysen i det andra steget. För att lösa detta problem utvecklade vi en variationsbaserad modell som simultant utför kopienummerprofilering och cellklustring. Dessutom utökade vi modellen för att inkorporera enskilda enbaspolymorfier för att förbättra prestandan. För det tredje adresserade vi problemet med inferens av fylogenetiska träd och utvecklade en variationsbaserad modell för att utföra inferensen. Trädtopologirummet, som innehåller alla möjliga fylogenetiska trädstrukturer, är enormt och att ta hänsyn till varje unikt träd är omöjligt i praktiken. De befintliga variationsbaserade inferensmetoderna måste begränsa sin analys till en mycket mindre delmängd av trädrummet. Vår föreslagna modell kräver inte sådana begränsningar och kan få liknande prestanda samtidigt som den kräver betydligt mindre tid och minne. Slutligen antog vi en utmaning i allmän variationsinferens. Variationsinferensmetoderna riktar sig mot en komplex, vanligtvis multimodal a posteriori-distribution och försöker approximera den med mycket enklare, ofta unimodala distributioner. Detta designval gör att variationsmodellerna passar en av många moder av målfördelningen, och således fångar de inte det övergripande mönstret för målfördelningen. Vi föreslog ett enkelt men effektivt sätt att använda separat tränade variationsmodeller för att fånga målfördelningens multimodalitet och demonstrerade approximationsprestandan med hjälp av flera olika metoder och datatyper. Vi adresserade olika utmaningar inom beräkningsbiologi med dessa fyra artiklar och bidrog till fältets framsteg genom att utveckla probabilistiska modeller. Organizmaların evrimsel tarihinin hem hücresel hem de tür düzeyinde incelenmesi hesaplamalı biyolojide alâkalı bir araştırma konusudur. Bu konudaki araştırmalar, gelişim tarihi, kanser ilerlemesi, türlerin genetik benzerliği ve daha fazlası hakkında daha derin bir anlayışa rehberlik eder. Tek hücreler veya türler arasındaki ilişkileri incelemenin bir yolu, tek nükleotit ve kopya sayısı varyasyonları dahil olmak üzere genomlarındaki farklılıkları incelemektir. Analizlerde kullanılmak üzere genetik materyallerin çıkarılması ve dizilenmesi gerekir, ancak bu verilerin hazırlanması hatalara eğimlidir. Sofistike, olasılıksal modellerin geliştirilmesi, teknolojik hataların ele alınmasında ve belirsizliğin analize dahil edilmesinde son derece önemlidir. Bu derleme tezinde, çeşitli soruları inceledik ve farklı zorlukları ele almak için dört makale sunduk. İlk olarak, sağlıklı dokudaki tek hücrelere odaklandık ve hücre soy ağacını yeniden yapılandırmak için olasılıksal bir model geliştirdik. Bu görev birkaç açıdan zorlayıcıdır; i) sağlıklı hücreler düşük bir mutasyon oranına sahiptir, bu nedenle her hücre bölünmesinde pek çok mutasyon ortaya çıkarmazlar, ii) sağlıklı hücreler genellikle analizi geliştirmek için kayda değer yapısal varyasyonlara sahip değildirler; ve iii) dizileme teknolojisi hatalar ortaya çıkarır ve bu hataların bazılarını mutasyonlardan ayırt etmek zordur. Deneysel çalışmalar ile modelimizin hızlı ve gürbüz olduğunu, ve soy ağaçlarını doğru bir şekilde yeniden yapılandırdığını gösterdik. İkinci olarak, kanser hücrelerine odaklandık. Kanser hücrelerinin genomlarındaki yapısal varyasyonları belirlemek ve ardından benzer genom profillerine sahip hücreleri gruplandırmaktır bir araştırma konusudur. Bu iki adımlı sürecin hatalara zafiyeti vardır; ilk adımdaki kusurlar, ikinci adımdaki analizi geri döndürülemez şekilde etkileyebilir. Bu sorunu çözmek için, aynı anda kopya numarası profili ve hücre kümelemesi yapan varyasyonel çıkarıma dayalı bir model geliştirdik. Ek olarak, performansı iyileştirmek için modeli tek nükleotid varyasyonlarını içerecek şekilde genişlettik. Üçüncü olarak, filogenetik ağaç çıkarım problemine odaklandık ve bunun için varyasyonel çıkarıma dayalı bir model geliştirdik. Tüm olası filogenetik ağaç yapılarını içeren ağaç topoloji uzayı çok büyüktür; ve her özgün ağacın dikkate alınması zordur. Mevcut varyasyonel çıkarıma dayalı yöntemlerin, genellikle analizlerini ağaç uzayının çok daha küçük bir alt kümesiyle sınırlaması gerekir. Önerilen modelimiz bu tür kısıtlamalar gerektirmediği gibi, önemli ölçüde daha az zaman ve belleğe ihtiyaç duyarak benzer performans elde edebilir. Son olarak, varyasyonel çıkarımdaki bir zorluğu ele aldık. Varyasyonel çıkarım yöntemleri, karmaşık, genellikle çok modlu bir sonsal dağılımı hedefler ve daha basit, genellikle tek modlu dağılımlar kullanarak buna yaklaşmaya çalışır. Bu tasarım seçimi, varyasyonel modellerin hedef dağılımın birçok modundan birine uymasına neden olur; dolayısıyla hedef dağılımın genel yapısını yakalayamaz. Hedef dağılımın çok modluluğunu yakalamak için basit ama etkili bir şekilde ayrı olarak eğitilmiş varyasyonel modelleri kullanmayı önerdik; ve birkaç varyasyonel yöntem ve veri türü kullanarak yaklaşım performansını gösterdik. Bu dört makale ile hesaplamalı biyolojideki çeşitli zorlukları ele aldık ve olasılıksal modeller geliştirerek alanın ilerlemesine katkıda bulunduk. QC 20230125
Databáze: OpenAIRE