Deep Reinforcement Learning e Hiper-Heurística aplicados à alocação de recursos em sistemas de comunicações 6G com comunicações D2D e sensoreamento

Cardoso, Gabriel Pimenta de Freitas

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Gondim, Paulo Roberto de Lira	-
dc.contributor.author	Cardoso, Gabriel Pimenta de Freitas	-
dc.date.accessioned	2024-11-14T12:08:23Z	-
dc.date.available	2024-11-14T12:08:23Z	-
dc.date.issued	2024-11-14	-
dc.date.submitted	2024-05-28	-
dc.identifier.citation	CARDOSO, Gabriel Pimenta de Freitas. Deep Reinforcement Learning e Hiper-Heurística aplicados à alocação de recursos em sistemas de comunicações 6G com comunicações D2D e sensoreamento. 2024. 123 f., il. Dissertação (Mestrado em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2024.	pt_BR
dc.identifier.uri	http://repositorio.unb.br/handle/10482/50917	-
dc.description	Dissertação (mestrado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2024.	pt_BR
dc.description.abstract	Este trabalho propõe uma estratégia para a realização conjunta da alocação de espectro e do controle de potências em sistemas de comunicações móveis de 5G e gerações futuras com sensoreamento integrado. A aplicação tratada neste trabalho se situa em um contexto relacionado à Indústria 4.0, abarcando um cenário industrial com comunicações primárias, comunicações D2D e sensores. A solução proposta para realizar a alocação de recursos no uplink desse sistema é composta pela conjunção de duas técnicas no estado da arte: algoritmos de Deep Reinforcement Learning (DRL) e Hiper-Heurísticas (HH). O primeiro algoritmo que forma a estratégia conjunta proposta neste trabalho foi desenvolvido utilizando-se redes neurais treinadas por meio de técnicas de DRL para controle de potências. O segundo algoritmo, que completa a estratégia proposta, foi desenvolvido através de técnicas relacionadas à aplicação de HHs em conjunção com algoritmos de DRL, para realização da alocação do espectro disponível. A estratégia conjunta teve como objetivos principais: proteger as comunicações primárias, almejando-se reduzir a taxa de outage para garantia de uma comunicação de qualidade, além de proteger os sensores do sistema, objetivando-se reduzir a taxa de outage dos sensores para garantir que a probabilidade de detecção estivesse acima de um limiar pré definido. Como objetivo secundário, o algoritmo proposto buscou maximizar a taxa de transmissão das comunicações D2D. Os resultados mostraram que o algoritmo de controle de potências que obteve o melhor desempenho, em comparação com outros algoritmos da área no estado da arte, foi o Proximal Policy Optimization (PPO). Esse algoritmo proposto, separadamente ao de alocação do espectro, foi capaz, em um Resource Block (RB), de reduzir a taxa de outage das comunicações primárias de 64.35% para 11.75%, reduzir a taxa de outage dos sensores de 38.5% para 4.4% e aumentar a SNIR das comunicações D2Ds de -25.6 dB para -7.5 dB, se comparado com os resultados obtidos por um algoritmo aleatório. Para a estratégia completa, isto é, com algoritmos de DRL e HH realizando tanto o controle de potências quanto a alocação do espectro, os resultados indicaram que, em comparação com uma alocação de recursos baseada em escolhas aleatórias, a estratégia conjunta foi capaz de reduzir a taxa de outage das comunicações primárias de 65.8% para 13.3%, reduzir a taxa de outage dos sensores de 48.1% para 3.3% e aumentar a SNIR das comunicações D2Ds de -24.3 dB para -11.2 dB em sistemas com múltiplos RBs. Além disso, o algoritmo se mostrou escalável para sistemas com diferentes quantidades de comunicações, sensores e RBs, sendo aplicável em diferentes configurações do sistema.	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Deep Reinforcement Learning e Hiper-Heurística aplicados à alocação de recursos em sistemas de comunicações 6G com comunicações D2D e sensoreamento	pt_BR
dc.title.alternative	Deep Reinforcement Learning and Hyper-Heuristic applied to resource allocation in 6G communications systems with D2D communications and sensing	pt_BR
dc.type	Dissertação	pt_BR
dc.subject.keyword	Indústria 4.0	pt_BR
dc.subject.keyword	Aprendizagem por reforço	pt_BR
dc.subject.keyword	Comunicação D2D	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.	pt_BR
dc.description.abstract1	This work proposes a strategy for the joint execution of spectrum allocation and power control in 5G mobile communication systems and future generations with integrated sensing. The application addressed in this work is situated in a context related to Industry 4.0, encompassing an industrial scenario with primary communications, D2D communications, and sensors. The proposed solution for resource allocation in this system consists of the conjunction of two state-of-the-art techniques: Deep Reinforcement Learning (DRL) algorithms and Hyper-Heuristics (HH). The first algorithm that forms the proposed joint strategy in this work was developed using neural networks trained through DRL techniques for power control. The second algorithm, which completes the proposed strategy, was developed using techniques related to the application of HHs in conjunction with DRL algorithms for the allocation of available spectrum. The main objectives of the joint strategy were: to protect primary communications, aiming to reduce the outage rate to ensure quality communication; and to protect the system’s sensors, aiming to reduce the sensor outage rate to ensure that the detection probability was above a predefined threshold. As a secondary objective, the proposed algorithm sought to maximize the transmission rate of D2D communications. The results showed that the power control algorithm that performed best, compared to other state-of-the-art algorithms in the area, was Proximal Policy Optimization (PPO). This proposed algorithm, separately from the spectrum allocation algorithm, was able, in a Resource Block (RB), to reduce the primary communications outage rate from 64.35% to 11.75%, reduce the sensor outage rate from 38.5% to 4.4%, and increase the SNIR of D2D communications from -25.6 dB to -7.5 dB, compared with the results obtained by a random algorithm. For the complete strategy, that is, with DRL and HH algorithms performing both power control and spectrum allocation, the results showed that, compared to a resource allocation based on random choices, the joint strategy was able to reduce the primary communications outage rate from 65.8% to 13.3%, reduce the sensor outage rate from 48.1% to 3.3%, and increase the SNIR of D2D communications from -24.3 dB to -11.2 dB in systems with multiple RBs. Additionally, the algorithm proved scalable for systems with varying amounts of communications, sensors, and RBs, being applicable in different system configurations.	pt_BR
dc.description.unidade	Faculdade de Tecnologia (FT)	pt_BR
dc.description.unidade	Departamento de Engenharia Elétrica (FT ENE)	pt_BR
dc.description.ppg	Programa de Pós-Graduação em Engenharia Elétrica	pt_BR
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado