Standardized Average Weighted Biallelic Statistic (SAWB) : a new method for identifying genetic correlation networks
Autor: | Jaeger, Janaína Pacheco |
---|---|
Přispěvatelé: | Cybis, Gabriela Bettella, Schneider, Silvana |
Jazyk: | portugalština |
Rok vydání: | 2022 |
Předmět: | |
Zdroj: | Biblioteca Digital de Teses e Dissertações da UFRGS Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
Popis: | A relação causal entre polimorfismos genéticos e diferentes fenótipos tem fundamental interesse em diversas áreas biológicas. Os Estudos de Associação Genômica Ampla (GWAS) testam milhares de variantes do genoma em busca de marcadores genéticos associados a traços de interesse, auxiliando a compreensão do mapa genótipo-fenótipo para determinada característica. Entretanto, o interesse não está somente na testagem dessas variantes de forma independente, mas também nas interações existentes entre elas. Nesse sentido, metodologias que propõem montagem de redes interligando marcadores correlacionados representam uma estratégia interessante. Climer et al. (2014) propuseram um método que, através do cálculo do Coeficiente de Correlação Personalizado (CCC), calcula correlações entre pares de SNPs para formação de redes alélicas, que são posteriormente testadas entre indivíduos caso e controle em estudos de associação. No entanto, a distribuição de probabilidade e as propriedades estatísticas desse coeficiente não foram estudadas, já que o CCC foi proposto com base em heurísticas e simulações. O presente estudo obteve propriedades estatísticas do CCC sob a hipótese nula de independência entre variantes de diferentes loci bialélicos. Em particular, sua esperança sugeriu forte viés de seleção dependente de frequências alélicas. Com a finalidade de eliminar esse viés, propusemos uma nova estatística de correlação, a Standardized Average Weighted Biallelic Statistic (SAWB), que denotamos por Sij , calculada a partir da mesma matriz de pesos utilizada no CCC. Para a Sij, foi demonstrada a normalidade assintótica e definido um teste estatístico correspondente. As propriedades estatísticas do CCC e da Sij , assim como de suas estatísticas relacionadas, foram comparadas por estudos de simulação. Da mesma forma, para comparar as redes formadas pelos dois métodos, realizamos uma aplicação em um banco de dados para o Transtorno de Déficit de Atenção e Hiperatividade (TDAH). Tanto os estudos de simulação quanto a aplicação demonstraram os efeitos da seleção dependente de frequência do CCC e verificaram que a Sij corrige esse viés. Além disso, a Sij , com distribuição e propriedades teóricas conhecidas, foi capaz de identificar pares de SNPs correlacionados através de um teste estatístico com Erro Tipo I controlado e maior poder do que o teste baseado na estatística CCC. Portanto, a estatística SAWB mostrou ser uma ferramenta com potencial aplicação em GWAS para formação de redes através de correlações entre pares de SNPs bialélicos. The causal relationship between genetic polymorphisms and different phenotypes is of fundamental interest in several biological areas. The Genome Wide Association Studies (GWAS) test thousands of genome variants searching for genetic markers associated with characteristics of interest, helping improve the understanding of the genotype-phenotype map for a given trait. However, the interest lies not only in testing these variants independently, but also in the interactions between them. In this context, methodologies that propose construction of networks connecting correlated markers are an interesting strategy. Climer et al. (2014) proposed a method that, through the Custom Correlation Coefficient (CCC), computes correlations between pairs of SNPs to build allelic networks, which are subsequently tested between case and control individuals in association studies. However, the probability distribution and statistical properties of this coefficient have not been studied, since the CCC was proposed based on heuristics and simulations. The present study derives statistical properties of the CCC under the null hypothesis of independence between variants of different biallelic loci. In particular, its expectation value suggested strong frequency-dependent selection. In order to eliminate this bias, we proposed a new correlation statistic, the Standardized Average Weighted Biallelic Statistic (SAWB), which we denoted by Sij , calculated from the same weight matrix used in the CCC. For Sij , asymptotic normality was demonstrated and a corresponding statistical test was defined. The statistical properties of the CCC and Sij , as well as of their related statistics, were compared by simulation studies. Additionally, to compare the networks constructed by the two methods, we performed an application on a database for Attention Deficit Hyperactivity Disorder (ADHD). Both the simulation studies and the application demonstrated the frequency-dependent selection effects of CCC and corroborated that Sij corrects this bias. Furthermore, the Sij statistic, with known distribution and theoretical properties, was able to identify pairs of correlated SNPs through a statistical test with controlled Type I Error and more power than the test based on the CCC. Therefore, the SAWB statistic was shown to be a tool with interesting potential for application in GWAS through network construction by correlating pairs of biallelic SNPs. |
Databáze: | OpenAIRE |
Externí odkaz: |