Busca avançada
Ano de início
Entree

Melhorando a efetividade de consultas por similaridade em dados médicos por meio de considerações de diversidade

Processo: 21/06564-0
Linha de fomento:Bolsas no Brasil - Pós-Doutorado
Vigência (Início): 01 de agosto de 2021
Vigência (Término): 31 de julho de 2022
Área do conhecimento:Ciências da Saúde - Medicina - Radiologia Médica
Pesquisador responsável:Paulo Mazzoncini de Azevedo Marques
Beneficiário:Marcos Vinicius Naves Bêdo
Instituição-sede: Faculdade de Medicina de Ribeirão Preto (FMRP). Universidade de São Paulo (USP). Ribeirão Preto , SP, Brasil
Vinculado ao auxílio:16/17078-0 - Mineração, indexação e visualização de Big Data no contexto de sistemas de apoio à decisão clínica (MIVisBD), AP.TEM
Assunto(s):Ciência de dados   Consultas por similaridade   Processamento de imagens

Resumo

Explorar grandes repositórios de dados médicos com critérios baseados em distância é particularmente difícil sempre que os objetos consultados estiverem muito próximos entre si. Por exemplo, estudos prévios sugerem que recuperar imagens muito parecidas pode prejudicar tanto a semântica quanto a aplicabilidade de programas de Recuperação de Imagens Médicas por Conteúdo (CBIR). A principal desvantagem semântica é que imagens muito próximas provavelmente não adicionam (quase) nenhuma novidade com relação ao objeto de consulta, o que pode atrapalhar o procedimento de tomada de decisão, seja por embaralhar a relevância dos resultados retornados ou por reforçar o viés de confirmação. Além disso, os especialistas também não conseguem explorar globalmente o conjunto de imagens parecidas em uma única busca, o que pode levar à execução de diversos ciclos de realimentação de relevância ou induzir o usuário a desistir da busca, assumindo que o repositório não contém sugestões adicionais interessantes. Devido ao fenômeno de concentração de distâncias, um cenário particular onde espera-se que objetos estejam muito próximos é o de espaços de alta dimensionalidade, que é o domínio usual de dados médicos representados por descritores baseados em redes de aprendizado profundo. Operadores de similaridade, como abrangência ou kNN, perdem o seu viés de discernir entre objetos "próximos" e "afastados" em espaços de alta dimensionalidade, o que implica que eles não apenas têm dificuldade em ordenar objetos próximos, mas também que os conjuntos-resposta obtidos passam a ter maior chance de incluir diversos elementos similares entre si. Adicionar um "nível de diversidade" na recuperação é uma alternativa para melhorar o desempenho dos operadores por distância, que passam a poder usar tanto similaridade quanto diversidade para estender o significado de proximidade. Nesse projeto, modela-se diversidade de acordo com as separações dinâmicas de distância produzidas pelos critérios de influência de tal forma que os objetos recuperados não são só similares ao elemento de consulta mas também dissimilares entre si. Embora a diversidade baseada em influência já tenha sido empregada como um complemento para tarefas orientadas à similaridade, seu uso para consultar dados médicos de alta dimensionalidade é uma questão de pesquisa em aberto. Esse projeto pretende completar essa lacuna ao estender os operadores por similaridade atuais para que possam manipular dados médicos imersos em espaços de alta dimensionalidade evitando recuperar uma grande quantidade de objetos muito similares entre si. A hipótese de pesquisa é que consultas por diversidade baseadas em influência podem suavizar o problema de concentração de distância ao adicionar novos critérios na busca além da "proximidade para o objeto de consulta". Portanto, a primeira contribuição esperada para essa proposta é projetar uma integração completa e sem emendas da diversidade baseada em influência em operadores por similaridade existentes, incluindo o projeto de algoritmos eficientes para aplicações CBIR. A segunda contribuição esperada para a pesquisa é a caracterização teórica e empírica dos operadores estendidos de acordo com a dimensionalidade intrínseca local (LID) dentro de conjuntos de dados médicos, além de seus vieses e limitações. O esforço de pesquisa será direcionado para: (i) discutir possíveis ajustes dos algoritmos de busca por diversidade para LIDs variados; (ii) comparar consultas por diversidade e similaridade com relação à qualidade e custo computacional para os diferentes intervalos de LIDs dentro de conjuntos de dados médicos; (iii) analisar o relacionamento entre diversidade e LID para determinar se a resposta de uma consulta está vinculada com a quantidade de diversidade no repositório; e (iv) implementar uma aplicação prática CBIR com um modelo de custo orientado à LID que possa escolher os algoritmos e estruturas de dados mais adequados para a execução de consultas por diversidade. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Matéria(s) publicada(s) em Outras Mídias (0 total):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)