A maioria dos cerca de 40 trilhões de células do seu corpo tem cópias quase idênticas do seu genoma – o DNA herdado de seus pais, contendo instruções para tudo, desde converter alimentos em energia até combater infecções. As células saudáveis tornam-se cancerosas através de mutações nocivas no genoma. Se o genoma de uma célula for danificado pela luz ultravioleta, por exemplo, isso pode resultar em mutações que dizem à célula para crescer descontroladamente e formar um tumor.
Identificar as alterações genéticas que fazem com que as células saudáveis se tornem malignas pode ajudar os médicos a selecionar as terapias que visam especificamente o tumor. Por exemplo, cerca de 25% dos cânceres de mama são HER2-positivos , o que significa que as células desse tipo de tumor têm mutações que as fazem produzir mais de uma proteína chamada HER2 que as ajuda a crescer. Os tratamentos que visam especificamente o HER2 aumentaram drasticamente as taxas de sobrevivência para esse tipo de câncer de mama.
Os cientistas agora podem ler prontamente o DNA celular para identificar mutações. O desafio é que o genoma humano é enorme e as mutações são uma parte normal da evolução. O genoma humano é longo o suficiente para preencher um livro de 1,2 milhão de páginas , e quaisquer duas pessoas podem ter cerca de 3 milhões de diferenças genéticas . Encontrar uma mutação causadora de câncer em um tumor é como encontrar uma agulha em uma pilha de agulhas.
Sou um cientista da computação que explora grandes e complexos conjuntos de dados genéticos para responder a questões fundamentais sobre biologia e doenças. Minha equipe de pesquisa e eu publicamos recentemente um estudo usando DNA de milhares de pessoas saudáveis para ajudar a identificar mutações causadoras de doenças usando o princípio da seleção natural.
USANDO BIG DATA PARA ENCONTRAR MUTAÇÕES CANCERÍGENAS
Ao determinar que tipo de mutação de câncer um paciente possui, o padrão-ouro é comparar duas amostras do paciente : uma do tumor e outra do tecido saudável (normalmente sangue). Como ambas as amostras vieram da mesma pessoa, a maior parte de seu DNA é idêntica; focalizar apenas as regiões genéticas que diferem umas das outras reduz drasticamente a localização de uma possível mutação causadora de câncer.
O problema é que o tecido saudável nem sempre é coletado de pacientes, por razões que vão desde custos clínicos até protocolos de pesquisa restritos.
A maioria dos cerca de 40 trilhões de células do seu corpo tem cópias quase idênticas do seu genoma – o DNA herdado de seus pais, contendo instruções para tudo, desde converter alimentos em energia até combater infecções. As células saudáveis tornam-se cancerosas através de mutações nocivas no genoma. Se o genoma de uma célula for danificado pela luz ultravioleta, por exemplo, isso pode resultar em mutações que dizem à célula para crescer descontroladamente e formar um tumor.
Identificar as alterações genéticas que fazem com que as células saudáveis se tornem malignas pode ajudar os médicos a selecionar as terapias que visam especificamente o tumor. Por exemplo, cerca de 25% dos cânceres de mama são HER2-positivos , o que significa que as células desse tipo de tumor têm mutações que as fazem produzir mais de uma proteína chamada HER2 que as ajuda a crescer. Os tratamentos que visam especificamente o HER2 aumentaram drasticamente as taxas de sobrevivência para esse tipo de câncer de mama.
Os cientistas agora podem ler prontamente o DNA celular para identificar mutações. O desafio é que o genoma humano é enorme e as mutações são uma parte normal da evolução. O genoma humano é longo o suficiente para preencher um livro de 1,2 milhão de páginas , e quaisquer duas pessoas podem ter cerca de 3 milhões de diferenças genéticas . Encontrar uma mutação causadora de câncer em um tumor é como encontrar uma agulha em uma pilha de agulhas.
Sou um cientista da computação que explora grandes e complexos conjuntos de dados genéticos para responder a questões fundamentais sobre biologia e doenças. Minha equipe de pesquisa e eu publicamos recentemente um estudo usando DNA de milhares de pessoas saudáveis para ajudar a identificar mutações causadoras de doenças usando o princípio da seleção natural.
USANDO BIG DATA PARA ENCONTRAR MUTAÇÕES CANCERÍGENAS
Ao determinar que tipo de mutação de câncer um paciente possui, o padrão-ouro é comparar duas amostras do paciente : uma do tumor e outra do tecido saudável (normalmente sangue). Como ambas as amostras vieram da mesma pessoa, a maior parte de seu DNA é idêntica; focalizar apenas as regiões genéticas que diferem umas das outras reduz drasticamente a localização de uma possível mutação causadora de câncer.
O problema é que o tecido saudável nem sempre é coletado de pacientes, por razões que vão desde custos clínicos até protocolos de pesquisa restritos.
Uma maneira de contornar isso é olhar para grandes bancos de dados públicos de DNA. Como as mutações causadoras de câncer são prejudiciais à sobrevivência, a seleção natural tende a eliminá-las ao longo do tempo em gerações sucessivas. De todas as mutações em um tumor, as que ocorrem com menos frequência em uma determinada população são mais propensas a serem prejudiciais do que as alterações compartilhadas por muitas pessoas. Ao contar com que frequência uma mutação ocorre nesses bancos de dados, os pesquisadores podem distinguir entre alterações genéticas que são comuns e provavelmente benignas e aquelas que são raras e potencialmente cancerígenas.
Dado o poder dessa abordagem, houve uma onda recente de projetos para coletar e compartilhar as sequências de DNA de centenas a milhares de indivíduos. Esses projetos incluem o 1000 Genomes Project , Simons Genome Diversity Project , GnomAD e All of Us . Provavelmente haverá muitos mais no futuro.
Estimar a probabilidade de uma mutação causar doença pela frequência com que ela aparece em um genoma é comum para pequenas alterações genéticas chamadas variantes de nucleotídeo único (SNVs) . Os SNVs afetam apenas uma posição no genoma humano de 3 bilhões de neuclotídeos . Poderia, por exemplo, mudar uma timina T para uma citosina C.
A maioria dos pesquisadores e patologistas clínicos usa um catálogo de variantes que foram detectadas em milhares de amostras. Se um SNV identificado em um tumor não estiver listado no catálogo, podemos supor que é raro e possivelmente causa câncer. Isso funciona bem para SNVs porque a detecção dessas mutações geralmente é precisa, com poucos falsos negativos.
No entanto, esse processo se decompõe por alterações genéticas em fitas mais longas de DNA chamadas variantes estruturais (SVs) . Os SVs são mais complexos porque incluem a adição, remoção, inversão ou duplicação de sequências. Em comparação com SNVs muito mais simples, os SVs têm taxas de erro mais altas na detecção . Os falsos negativos são relativamente frequentes, resultando em catálogos incompletos que dificultam a comparação de mutações com eles. Encontrar um tumor SV que não esteja listado em um catálogo pode significar que é raro e um candidato a câncer, ou que foi perdido quando o catálogo foi criado.
FOCO NA VERIFICAÇÃO
Meus colegas e eu resolvemos esses problemas passando de um processo focado na detecção para outro focado na verificação. A detecção é difícil – requer o processamento de dados complexos para determinar se há evidências suficientes para apoiar a existência de uma mutação. Por outro lado, a verificação limita a tomada de decisão apenas ao fato de a evidência disponível apoiar ou não a existência de um evento específico. Em vez de procurar uma agulha em uma pilha de agulhas, agora estamos simplesmente considerando se a agulha que temos é a que queremos.
A maioria dos cerca de 40 trilhões de células do seu corpo tem cópias quase idênticas do seu genoma – o DNA herdado de seus pais, contendo instruções para tudo, desde converter alimentos em energia até combater infecções. As células saudáveis tornam-se cancerosas através de mutações nocivas no genoma. Se o genoma de uma célula for danificado pela luz ultravioleta, por exemplo, isso pode resultar em mutações que dizem à célula para crescer descontroladamente e formar um tumor.
Identificar as alterações genéticas que fazem com que as células saudáveis se tornem malignas pode ajudar os médicos a selecionar as terapias que visam especificamente o tumor. Por exemplo, cerca de 25% dos cânceres de mama são HER2-positivos , o que significa que as células desse tipo de tumor têm mutações que as fazem produzir mais de uma proteína chamada HER2 que as ajuda a crescer. Os tratamentos que visam especificamente o HER2 aumentaram drasticamente as taxas de sobrevivência para esse tipo de câncer de mama.
Os cientistas agora podem ler prontamente o DNA celular para identificar mutações. O desafio é que o genoma humano é enorme e as mutações são uma parte normal da evolução. O genoma humano é longo o suficiente para preencher um livro de 1,2 milhão de páginas , e quaisquer duas pessoas podem ter cerca de 3 milhões de diferenças genéticas . Encontrar uma mutação causadora de câncer em um tumor é como encontrar uma agulha em uma pilha de agulhas.
Sou um cientista da computação que explora grandes e complexos conjuntos de dados genéticos para responder a questões fundamentais sobre biologia e doenças. Minha equipe de pesquisa e eu publicamos recentemente um estudo usando DNA de milhares de pessoas saudáveis para ajudar a identificar mutações causadoras de doenças usando o princípio da seleção natural.
USANDO BIG DATA PARA ENCONTRAR MUTAÇÕES CANCERÍGENAS
Ao determinar que tipo de mutação de câncer um paciente possui, o padrão-ouro é comparar duas amostras do paciente : uma do tumor e outra do tecido saudável (normalmente sangue). Como ambas as amostras vieram da mesma pessoa, a maior parte de seu DNA é idêntica; focalizar apenas as regiões genéticas que diferem umas das outras reduz drasticamente a localização de uma possível mutação causadora de câncer.
O problema é que o tecido saudável nem sempre é coletado de pacientes, por razões que vão desde custos clínicos até protocolos de pesquisa restritos.
Uma maneira de contornar isso é olhar para grandes bancos de dados públicos de DNA. Como as mutações causadoras de câncer são prejudiciais à sobrevivência, a seleção natural tende a eliminá-las ao longo do tempo em gerações sucessivas. De todas as mutações em um tumor, as que ocorrem com menos frequência em uma determinada população são mais propensas a serem prejudiciais do que as alterações compartilhadas por muitas pessoas. Ao contar com que frequência uma mutação ocorre nesses bancos de dados, os pesquisadores podem distinguir entre alterações genéticas que são comuns e provavelmente benignas e aquelas que são raras e potencialmente cancerígenas.
Dado o poder dessa abordagem, houve uma onda recente de projetos para coletar e compartilhar as sequências de DNA de centenas a milhares de indivíduos. Esses projetos incluem o 1000 Genomes Project , Simons Genome Diversity Project , GnomAD e All of Us . Provavelmente haverá muitos mais no futuro.
Estimar a probabilidade de uma mutação causar doença pela frequência com que ela aparece em um genoma é comum para pequenas alterações genéticas chamadas variantes de nucleotídeo único (SNVs) . Os SNVs afetam apenas uma posição no genoma humano de 3 bilhões de neuclotídeos . Poderia, por exemplo, mudar uma timina T para uma citosina C.
A maioria dos pesquisadores e patologistas clínicos usa um catálogo de variantes que foram detectadas em milhares de amostras. Se um SNV identificado em um tumor não estiver listado no catálogo, podemos supor que é raro e possivelmente causa câncer. Isso funciona bem para SNVs porque a detecção dessas mutações geralmente é precisa, com poucos falsos negativos.
No entanto, esse processo se decompõe por alterações genéticas em fitas mais longas de DNA chamadas variantes estruturais (SVs) . Os SVs são mais complexos porque incluem a adição, remoção, inversão ou duplicação de sequências. Em comparação com SNVs muito mais simples, os SVs têm taxas de erro mais altas na detecção . Os falsos negativos são relativamente frequentes, resultando em catálogos incompletos que dificultam a comparação de mutações com eles. Encontrar um tumor SV que não esteja listado em um catálogo pode significar que é raro e um candidato a câncer, ou que foi perdido quando o catálogo foi criado.
FOCO NA VERIFICAÇÃO
Meus colegas e eu resolvemos esses problemas passando de um processo focado na detecção para outro focado na verificação. A detecção é difícil – requer o processamento de dados complexos para determinar se há evidências suficientes para apoiar a existência de uma mutação. Por outro lado, a verificação limita a tomada de decisão apenas ao fato de a evidência disponível apoiar ou não a existência de um evento específico. Em vez de procurar uma agulha em uma pilha de agulhas, agora estamos simplesmente considerando se a agulha que temos é a que queremos.
Nosso método aproveita essa estratégia pesquisando dados brutos de milhares de amostras de DNA para qualquer evidência que suporte SV específico. Além dos benefícios de eficiência de olhar apenas para os dados que flanqueiam a variante alvo, se não houver tal evidência, podemos concluir com confiança que a variante alvo é rara e potencialmente causadora de doenças.
Usando nosso método, examinamos os SVs identificados em estudos anteriores de câncer e descobrimos que milhares de SVs anteriormente associados a cânceres também aparecem em amostras normais e saudáveis. Isso indica que essas variantes são mais propensas a serem sequências hereditárias benignas, em vez de causadoras de doenças.
Mais importante ainda, nosso método teve um desempenho tão bom quanto a estratégia tradicional que requer amostras tumorais e saudáveis, abrindo as portas para reduzir o custo e aumentar a acessibilidade da análise de mutações de câncer de alta qualidade.
Minha equipe e eu estamos explorando a expansão de nossas pesquisas para incluir grandes coleções de tumores de diferentes tipos de câncer, como mama e pulmão. Determinar de qual órgão um tumor se originou é fundamental para o prognóstico e tratamento, pois pode indicar se o câncer metastatizou ou não. Como a maioria dos tumores tem assinaturas mutacionais específicas, a recuperação de evidências de um SV em uma amostra de tumor específica pode ajudar a identificar o tipo de tumor do paciente e levar a um tratamento mais rápido.
Ryan Layer é professor assistente de ciência da computação na University of Colorado Boulder.
Este artigo é republicado de The Conversation sob uma licença Creative Commons. Leia o artigo original .