Inferência direta e controle da estrutura genética da população a partir de dados de sequenciamento de RNA

Biologia das Comunicações, volume 6, número do artigo: 804 (2023) Citar este artigo

2275 acessos

21 Altmétrico

Detalhes das métricas

Os dados do RNAseq podem ser usados para inferir variantes genéticas, mas seu uso para estimar a estrutura genética da população permanece pouco explorado. Aqui, construímos uma ferramenta computacional disponível gratuitamente (RGStraP) para estimar componentes principais genéticos baseados em RNAseq (RG-PCs) e avaliar se RG-PCs podem ser usados para controlar a estrutura populacional em análises de expressão gênica. Usando amostras de sangue total de populações nepalesas pouco estudadas e o estudo Geuvadis, mostramos que os RG-PCs tiveram resultados comparáveis aos genótipos baseados em arrays pareados, com alta concordância genotípica e altas correlações de componentes genéticos principais, capturando subpopulações dentro do conjunto de dados. Na análise diferencial de expressão gênica, descobrimos que a inclusão de RG-PCs como covariáveis reduziu a inflação da estatística de teste. Nosso artigo demonstra que a estrutura genética da população pode ser inferida e controlada diretamente pelo uso de dados RNAseq, facilitando assim análises retrospectivas e futuras aprimoradas de dados transcriptômicos.

O sequenciamento de RNA (RNAseq) revolucionou nossa compreensão do transcriptoma, oferecendo tanto um método de quantificação preciso para a expressão gênica quanto a identificação de locais de splicing alternativos específicos e transcritos específicos do tipo de célula . A sua aplicação estende-se ao ambiente clínico, permitindo-nos elucidar ainda mais doenças complexas e identificar potenciais biomarcadores em doenças transmissíveis e não transmissíveis3.

No entanto, os estudos que utilizam RNAseq raramente consideram a variação genética da linha germinativa também contida nos conjuntos de leitura do RNAseq. Estudos que não aproveitam essas informações podem ser vulneráveis a vieses e confusões, como a estratificação populacional, o que pode afetar a transcrição entre grupos4,5,6,7. Para superar esse problema, os pesquisadores normalmente contam com dados de matriz genômica ampla ou de sequência do genoma completo (WGS) correspondentes aos mesmos indivíduos com RNAseq. Isso permite que os pesquisadores implantem abordagens para controlar a estratificação populacional, como o cálculo de componentes principais genéticos (PCs) e seu uso como covariáveis em modelos de associação estatística subsequentes8,9,10. Os PCs genéticos são considerados como representando a estrutura genética latente dentro e entre populações, o que introduz confusão devido a diferenças no ambiente social ou (no caso de expressão gênica diferencial) devido à heterogeneidade de loci de características quantitativas entre grupos. No entanto, a necessidade de uma matriz genómica ampla ou WGS corresponder aos dados do RNAseq é potencialmente desnecessária e, na verdade, pode não ser possível em locais onde os recursos são limitados, como os países de rendimento baixo e médio baixo (PBMR) com populações altamente diversificadas e pouco estudadas.

Foi demonstrado que chamadas de genótipos podem ser feitas a partir de dados de RNAseq usando ferramentas como GATK12,13,14. A abordagem de utilização de dados RNAseq para capturar a estrutura genética tem sido aplicada para fins pecuários e agrícolas15,16,17,18, por exemplo, para investigar a estrutura populacional, história e adaptação da cevada domesticada (Hordeum vulgare)17. Embora a prova de conceito e a subsequente utilidade de genótipos baseados em RNAseq tenham sido demonstradas, como para variantes específicas de tecidos19, sua aplicação para inferir a estrutura da população humana mostra-se promissora, mas permanece relativamente subexplorada20.

Os objetivos deste estudo são (i) demonstrar que os genótipos baseados em RNAseq podem capturar a estrutura genética da população de uma população humana diversa, mas pouco estudada, e (ii) mostrar que o uso de componentes principais genéticos baseados em RNAseq (RG-PCs) pode controlar efetivamente a estrutura populacional na análise de associação. Aqui, recrutamos e geramos dados de RNAseq de sangue total de 376 indivíduos do Nepal, um país sem litoral situado no Himalaia com mais de 125 grupos étnicos21,22. Desenvolvemos um pipeline de análise RNAseq (RGStraP) para calcular os principais componentes genéticos diretamente dos dados do RNAseq e, em seguida, validamos o desempenho do RGStraP com dados genotípicos de todo o genoma dos mesmos indivíduos nepaleses. Também testamos o pipeline em amostras do consórcio Geuvadis, que contém 465 amostras com dados pareados de genótipo-RNAseq de cinco das 1000 populações do Genoma . Finalmente, mostramos a validade do ajuste para RG-PCs em uma análise de associação para identificar a expressão gênica específica do sexo. No geral, nosso estudo estabelece que a estrutura da população humana, particularmente de uma população pouco estudada, mas diversificada, pode ser efetivamente capturada e controlada diretamente usando dados de RNAseq.

0.05 and a pairwise LD threshold of r2 < 0.05 struck the optimal balance of offering the most variants for analysis and the highest correlation between RNAseq- and array-based genetic PCs (Supplementary Fig. 2). From the total of 4,921,472 genetic variants, 152,072 SNPs passed the MAF filter (MAF > 0.05), and 36,440 SNPs further passed the LD filter (LD < 0.05). Genetic variants from paired genomic data are available for 299 out of the initial 376 individuals; a total of 552,758 SNPs were identified and passed initial quality control filters (Methods), of which 315,615 SNPs and 29,943 SNPs then passed MAF > 0.05 and further LD < 0.05 filters, respectively. Out of the 299 samples with both RNAseq and paired array genotypes, 280 of them passed quality control and were used for further downstream analyses./p>0.90 concordances. b Canonical correlation analysis between ten RG-PCs and ten array PCs showed significant (Wilks’ Lambda, p-value < 0.05) correlations for the first 7 canonical variates (CVs) between the two sets. The first 3 CVs from 10 RG-PCs strongly captured the genetic information from array PCs (Rc1 = 0.946, Rc2 = 0.864, Rc3 = 0.853), in which the cumulative proportion of shared variance between the two sets reached up to 0.956 from just the 3 CVs./p> 0.05) variants, of which 4887 passed the LD filter (LD < 0.05) and were used to calculate RG-PCs. We also calculated genetic PCs from the 29,943 paired genotype array SNPs as a measure of true genetic structure to be compared against RG-PCs. To assess the consistency of inferred population structure between the two approaches, we calculated Spearman correlation between genetic PCs from paired genotype array SNPs and the RG-PCs. PC1 of both RNAseq and array sets correlated strongly with each other (|ρ| = 0.93), followed by RG-PC3 and PC2 from array data (|ρ| = 0.61) and RG-PC2 and PC3 from array data (|ρ| = 0.6) (Supplementary Fig. 4). As expected, the genetic PCs of one approach do not exclusively correspond to only one PC of the other approach, as can be seen with significant correlations of a single array PC with several RG-PCs. To investigate this further, we performed canonical correlation analysis between the top 10 array PCs and the RG-PCs and found that the RG-PCs fully explained the variance of the top 10 array PCs (Fig. 2b)./p> 0.05) to account for differences in sequencing depths. Only autosomal genes were included in the analyses./p> 1) in the set without considering genetic PCs, and the number decreased to 3 when including either array or RG-PCs. This demonstrates how RG-PCs control for population stratification in downstream RNAseq analysis similar to the genetic PCs calculated from paired array genotypes, reducing significant associations that reflected variations in population structure instead of the biology of interest./p>38.5 °C temperature or history of fever for >72 h. From the total blood sample volumes (≤16 mL for patients >16 years of age, ≤7 mL for ≤16 years), aliquots were subjected to (i) bacteriological culture to identify presence of Salmonella enterica serovars Typhi (S. Typhi); (ii) storage in PAXgene tubes for later RNA extraction; and (iii) DNA extraction and subsequent human genotyping. Blood was also collected from healthy participants in the serosurvey (≤8 mL for patients >16 years of age, ≤7 mL for ≤16 years), from which aliquots were also subjected to (i) serological analysis; (ii) PAXgene storage for RNA analysis; and (iii) DNA extraction./p> 0.05 in at least 20% of the samples from the analyses. Differential gene expression (DGE) analyses was done contrasting males and females using edgeR43,44, taking into account age, disease group, and sequencing batches; we ran the analyses with and without populations structure PCs as an additional covariate to then compare how genetic structure may stratify gene expression. From both results, we also plotted the Q-Q plot and calculated the systematic inflation (m), which is the ratio of the median of the empirically observed chi-squared test statistics (in our case, results of DGE analysis with RG-PCs) to the expected median chi-squared test statistics (results of DGE analysis without RG-PCs), to quantify the stratification due to population structure in gene expression data./p>

Notícias

Inferência direta e controle da estrutura genética da população a partir de dados de sequenciamento de RNA