Aprendizado ativo efetivo e eficiente para análise de imagens em patologia utilizando aprendizado profundo

Meirelles, André Lauar Sampaio

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/46272

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2022_AndréLauarSampaioMeirelle.pdf		28,98 MB	Adobe PDF	Visualizar/Abrir

Título:	Aprendizado ativo efetivo e eficiente para análise de imagens em patologia utilizando aprendizado profundo
Autor(es):	Meirelles, André Lauar Sampaio
E-mail do autor:	alsmeirelles@gmail.com
Orientador(es):	Teodoro, George Luiz Medeiros
Assunto:	Aprendizado ativo Patologia Convolutional Neural Networks (CNNs)
Data de publicação:	10-Ago-2023
Data de defesa:	14-Out-2022
Referência:	MEIRELLES, André Lauar Sampaio. Aprendizado ativo efetivo e eficiente para análise de imagens em patologia utilizando aprendizado profundo. 2022. xv, 123 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2022.
Resumo:	Modelos de aprendizado profundo demonstraram notável desempenho em tarefas de segmentação e classificação de imagens de patologia. Entretanto, esses modelos demandam grandes quantidades de dados anotados para seu treinamento. A geração dessa massa de dados em patologia é um processo intensivo em mão de obra, comprometendo muitas horas de trabalho por parte de patologistas experientes. O Aprendizado Ativo, ou Active Learning (AL), oferece uma abordagem iterativa para a geração dessas bases de dados, reduzindo o custo das anotações. Nesse trabalho, foi proposta uma nova solução de aprendizado ativo, denominada Diversity-Aware Data Acquisition (DADA), e foi avaliada sua efetividade na classificação baseada em patches de regiões de tecido de histopatologia. O DADA usa uma lógica de agrupamento que leva em consideração as características das imagens, extraídas de modelos de aprendizado profundo, e a incerteza preditiva desses modelos para selecionar exemplos de treinamento significativos. Além de produzir conjuntos de treinamento reduzidos, os custos de anotação também são diminuídos com ganhos de tempo de processamento, com o uso de uma solução de simplificação de CNNs também desenvolvida neste trabalho, o Network Auto-Reduction (NAR). Com o NAR, tanto o custo de cálculo das incertezas preditivas, quanto de treinamento de modelos, são fortemente reduzidos. Adicionalmente, para viabilizar a utilização da solução na prática, uma interface gráfica Web foi adaptada para uso com o DADA. O DADA e o NAR foram avaliados experimentalmente sobre uma coleção de imagens de tecido cancerígeno e demonstraram que: (i) são selecionados patches que aceleram o processo de treinamento ao reduzir o número deles necessários para se atingir um dado nível de Area Under the Curve (AUC); (ii) com o uso de subpooling o DADA apresenta significativa redução dos tempos de cada iteração de aquisição; e (iii) a combinação do DADA com NAR traz os tempos de execução de cada iteração a patamares práticos, mantendo a capacidade preditiva dos modelos de deep learning alvo. A generalização tanto do DADA quanto do NAR a outros contextos e aplicações são trabalhos futuros previstos, incluindo áreas como sensoriamento remoto e problemas de segmentação.
Abstract:	Deep learning methods have demonstrated remarkable performance in pathology image segmentation and classification tasks. However, these models require a large amount of annotated training data. Training data generation is a labor intensive process in digital pathology, often requiring substantial time commitment from expert pathologists. Active learning (AL) offers an iterative approach to generate training data needed by deep learning models, reducing the cost of manual data annotation. In this work, a new AL acquisition method, named Diversity-Aware Data Aquisition (DADA), is proposed and evaluated regarding its effectiveness in patch-based detection and classification of tissue image regions. The proposed method uses a clustering logic that takes into account image features, extracted from the deep learning model being trained, and model prediction uncertainty to select meaningful training samples (image patches). Besides reducing training set sizes, annotation costs are also diminished by computation time gains using a CNN simplification solution also developed in this work, the Network Auto-Reduction (NAR). With NAR, both uncertainty calculation costs and model training times are strongly reduced. Additionally, to make these solutions viable in practice, a Web based graphical interface was adapted to be used with DADA. The DADA/NAR solutions were experimentally evaluated with a collection of cancer tissue images and are able to: (i) select image patches that accelerate the training process by reducing the number of patches required to attain a given Area Under the Curve (AUC) value; (ii) using a subpooling approach, DADA dramatically reduces iteration times needed to select a new annotation set; and (iii) the combination of DADA and NAR brings down the execution times even more, reaching practical levels while keeping the predictive capacity of models. The generalisation of both DADA and NAR to other contexts and applications are expected future work, including application in areas such as remote sensing and image segmentation problems.
Unidade Acadêmica:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Informações adicionais:	Tese (doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022.
Programa de pós-graduação:	Programa de Pós-Graduação em Informática
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas