Enhancing accuracy through an efficient ensemble of geographically fine-tuned positional encoder graph neural networks

Seabra, Vívia de Alencar

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/51122

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2024_ViviaDeAlencarSeabra_DISSERT.pdf		929,17 kB	Adobe PDF	Visualizar/Abrir

Título:	Enhancing accuracy through an efficient ensemble of geographically fine-tuned positional encoder graph neural networks
Outros títulos:	Melhorando a acurácia por meio de um ensemble eficiente de redes neurais em grafos com codificadores posicionais ajustados geograficamente
Autor(es):	Seabra, Vívia de Alencar
Orientador(es):	Rodrigues, Guilherme Souza
Assunto:	Dados geográficos Redes neurais (Computação)
Data de publicação:	9-Dez-2024
Data de defesa:	5-Set-2024
Referência:	SEABRA, Vívia de Alencar. Enhancing accuracy through an efficient ensemble of geographically fine-tuned positional encoder graph neural networks. 2024. 48 f., il. Dissertação (Mestrado em Estatística) — Universidade de Brasília, Brasília, 2024.
Resumo:	A presente pesquisa investiga uma nova abordagem para melhorar a precisão preditiva e a capacidade de generalização de redes neurais em grafos (Graph Neural Networks - GNNs) aplicadas a dados espaciais. Dados espaciais oferecem insights valiosos sobre fenômenos geográficos e relações espaciais, apresentando desafios únicos que requerem metodologias analíticas dedicadas. Características como autocorrelação espacial, heterogeneidade espacial e nãoestacionaridade espacial dificultam a aplicação de técnicas convencionais de aprendizado de máquina, que geralmente assumem a independência dos pontos de dados ou relações lineares. Baseados no algoritmo estado da arte para regressão em dados espaciais proposto por (Klemmer, Safir, and Neill, 2023), as inovações propostas nesta pesquisa são as seguintes: primeiramente, introduzimos uma Função de Perda Ponderada, que implementa um mecanismo de ponderação na função de perda, permitindo que o modelo priorize o aprendizado de pontos de dados com base em sua proximidade espacial. Em segundo lugar, é proposto a Escolha Eficiente de Modelos Localizados, onde, baseados em mecanismos de clusterização, modelos locais são criados reduzindo o número de modelos necessários e aumentando a eficiência computacional. Em terceiro, é utilizado um Ensemble de Modelos Locais, combinando previsões dos múltiplos modelos localizados para suavizar erros e reduzir o impacto de imprecisões de qualquer modelo individual. Quarto, a Utilização de Pesos Pré-Treinados inicializa modelos locais com pesos de um modelo global previamente treinado, melhorando a eficiência do treinamento e fornecendo uma base robusta. Por fim, introduzimos uma Matriz de Distância com Redução Dimensional, que usa distâncias entre clusters em vez de entre todos os pontos, simplificando a carga computacional. Para avaliar a eficácia da abordagem proposta, utilizamos dois conjuntos de dados reais que contêm informações geográficas. O primeiro é o California Housing, que inclui preços de mais de 20.000 casas na Califórnia, coletados a partir do censo dos EUA de 1990 e com objetivo de previsão dos preços das casas com base em características como idade da casa e número de quartos, além de suas localizações geográficas. O segundo conjunto de dados é o Air Temperature, que contém coordenadas de 3.000 estações meteorológicas ao redor do mundo. Neste caso, a tarefa de regressão é prever as temperaturas médias a partir da precipitação média e da localização das estações. A função de perda ponderada, que prioriza o aprendizado a partir de pontos de dados com base em sua proximidade espacial, mostrou-se eficaz em melhorar a sensibilidade às variações locais, aumentando significativamente o desempenho do modelo para o conjunto de dados Air temperature. Além disso, a análise de sensibilidade revelou que aumentar o número de clusters ou a largura de banda geralmente melhora a precisão do modelo, mas até certo ponto, após o qual as melhorias se estabilizam ou diminuem. Esses achados indicam que a simples elevação desses parâmetros sem considerar suas interações pode resultar em resultados subótimos, destacando a necessidade de métodos mais sofisticados para a seleção desses valores.
Abstract:	Spatial data analysis presents unique challenges due to the inherent properties of spatial autocorrelation, heterogeneity, and non-stationarity. Traditional approaches often struggle with these complexities, leading to models that either underfit or misinterpret spatial dynamics. This work introduces an innovative approach to enhance the predictive power and generalizability of spatial data models by integrating localized modeling techniques with the advanced capabilities of Graph Neural Networks (GNNs). Our method incorporates the clustering of geographical coordinates to train localized models effectively. This approach leverages the strength of GNNs to capture and utilize complex spatial relationships. By segmenting the data into clusters, we create localized models that learn from specific spatial contexts, aiming to improve model accuracy and performance. We introduce a novel weighted loss function that prioritizes geographical proximity between clusters. Additionally, we employ pre-trained weights from a global model to initialize these localized models, which speeds up the training process and gives the models a comprehensive understanding of spatial relationships before adjusting them to fit specific local data. This work contributes to the field of spatial data analysis by providing a scalable, efficient, and effective framework for modeling complex spatial relationships.
Unidade Acadêmica:	Instituto de Ciências Exatas (IE) Departamento de Estatística (IE EST)
Informações adicionais:	Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2024.
Programa de pós-graduação:	Programa de Pós-Graduação em Estatística
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Agência financiadora:	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas