Busca avançada
Ano de início
Entree

Predição de sítios de inserção de elementos móveis por aprendizado de máquina: estudo de caso em fagos da família Microviridae e casposons

Processo: 23/12164-0
Modalidade de apoio:Bolsas no Brasil - Iniciação Científica
Vigência (Início): 01 de março de 2024
Vigência (Término): 28 de fevereiro de 2025
Área do conhecimento:Ciências Biológicas - Microbiologia - Biologia e Fisiologia dos Microorganismos
Pesquisador responsável:Arthur Gruber
Beneficiário:Giuliana Lopes Pola
Instituição Sede: Instituto de Ciências Biomédicas (ICB). Universidade de São Paulo (USP). São Paulo , SP, Brasil
Assunto(s):Aprendizado computacional   Biologia computacional   Sequências repetitivas dispersas   Prófagos   Virologia   Microviridae
Palavra(s)-Chave do Pesquisador:Aprendizado de Máquina | bioinformática | Casposons | Elementos genéticos móveis | Microviridae | Profagos | Virologia

Resumo

A família Microviridae compreende vírus com capsídeos icosaédricos e genomas de ssDNA circulares que infectam uma variedade de hospedeiros bacterianos. Com exceção da subfamília Alpavirinae, não foram descritos profagos e suas regiões de inserção nos genomas hospedeiros. Recentemente, nosso grupo fez um levantamento de profagos de Microviridae usando uma coleção de mais de 550.000 genomas bacterianos do banco de dados PATRIC. Todas os profagos encontrados foram anotados funcionalmente e os sítios de inserção nos genomas hospedeiros determinados com ferramentas de bioinformática desenvolvidas pelo nosso grupo. De forma semelhante, também fiezmos um levantamento de casposons, elementos transponíveis autossintetizáveis presentes em bactérias e arqueas. Neste projeto, pretende-se desenvolver uma metodologia de predição de sítios de inserção de elementos genéticos móveis usando-se inicialmente profagos de Microviridae e estendendo-se posteriormente para os elementos casposons. Os conjuntos de dados de profagos de Microviridae e de casposons serão usados para o treinamento e sequências negativas serão geradas partir dos dados de sequências positivas por meio da redistribuição em ordem aleatória dos nucleotídeos dessas sequências. Em uma segunda abordagem, será feita a seleção de trechos aleatórios de mesmo tamanho das sequências positivas e oriundas dos mesmos organismos das sequências positivas. As características serão selecionadas por um algoritmo de seleção de atributos e usadas com diferentes classificadores, incluindo SVM (Support Vector Machine), Floresta Aleatória e Multilayer Perceptron. A avaliação da qualidade da classificação será feita por validação-cruzada com 10 subconjuntos, utilizando-se métricas de acurácia, precisão, revocação e medida F1.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)