The emergence of an information bottleneck teory of deep learning

Guth, Frederico

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/43742

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2022_FredericoGuth.pdf		42,02 MB	Adobe PDF	Visualizar/Abrir

Título:	The emergence of an information bottleneck teory of deep learning
Autor(es):	Guth, Frederico
E-mail do autor:	fredguth@fredguth.com
Orientador(es):	Campos, Teófilo Emídio de
Assunto:	Aprendizagem profunda Inteligência artificial
Data de publicação:	18-Mai-2022
Data de defesa:	20-Jan-2022
Referência:	GUTH, Frederico. The emergence of an information bottleneck teory of deep learning. 2022. xxv, 179 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2022.
Resumo:	Na última década, assistimos estupefatos uma miríade de sucessos em Aprendizagem Profunda (Deep Learning (DL)). Apesar de tamanho sucesso, talvez estejamos subindo um pico de expectativas infiadas. No passado, incorremos no erro de tentar resolver problemas com maior poder computacional, hoje estamos fazendo o mesmo tentando usar cada vez mais dados. Tal comportamento desencadeou uma corrida por bases de dados de treinamento entre grandes corporações, suscitando preocupações sobre privacidade e concentração de poder. É fato, entretanto, que aprender com muito menos dados é possível: humanos demonstram uma habilidade de generalização muito superior ao estado-da-arte atual em Inteligência Artificial. Para atingir tal capacidade, precisamos entender melhor como o aprendizado ocorre em Deep Learning. A prática tem se desenvolvido mais rapidamente que a teoria na área. Em particular, Zhang et al. demonstraram que modelos de deep learning são capazes de memorizar rótulos aleatórios, ainda assim apresentam alto poder de generalização [Zha+16]. A atual teoria de aprendizado de máquinas não explica tal poder de generalização em modelos superparametrizados. Em 2015, Na ali Tishby e Noga Zaslavsky publicaram uma teoria de aprendizado baseado no princípio do gargalo de informação (information bottleneck) [TZ15a]. Tal teoria sucitou interesse e desconfiança pela academia, tendo vários de seus artigos primordiais sido contestados em artigos posteriores. Esta dissertação visa investigar esforços esparços do uso do princípio do gargalo para explicar a capacidade de generalização de redes neurais profundas e consolidar tal conhecimento em um compêndio deste novo desenvolvimento teórico denominado Teoria do Gargalo de Informação (Information Bottleneck Teory (IBT)) que mostre seus pontos fortes e fracos e oportunidades de pesquisa. a busca dos fundamentos Nesta investigação, partimos de uma discussão filosófica sobre o que é inteligência e o que significa aprender (Capítulo 2) e, passo a passo (Capítulos 3 a 5), mostramos em que fundamentos a teoria vingente de aprendizado de máquinas (Machine Learning Teory (MLT)), assim como a emergente (Information Bottleneck Teory (IBT)) se apoiam. Pudemos assim perceber que ambas teorias se baseiam em um conjunto muito similar de premissas. A maior diferença é que Information Bottleneck Teory (IBT) assume o uso de variáveis aleatórias discretas de espaços finitos. Entretanto, tal limitação não é significativa, uma vez que pesquisas já demonstraram que é possível tornar o erro de quantização arbitrariamente pequeno conquanto haja memória para tanto [Ris86; HVC93]. Além disso, Information Bottleneck Teory (IBT) não invalida nenhum resultado de Machine Learning Teory (MLT), pelo contrário, apresenta uma nova narrativa que nos permite conciliar os resultados teóricos com os fenômenos observados, quando medimos complexidade como a quantidade de informação nos pesos de um modelo, e não a sua quantidade de parâmetros. Essa investigação nos permitiu sintetizar o desenvolvimento teórico em Teoria da Informação (Information Teory (IT)) e Machine LearningTeory (MLT) em uma abodagem que denominamos PAC-Shannon (Capítulo 6) em que partimos dos teoremas fundamentais de Shannon em Information Teory (IT) e provamos limites para erro de generalização em aprendizado. explicando a nova teoria Tishby propôs que vejamos aprendizado como um problema de codi- ficação (Capítulo 7). Nessa perspectiva, os dados de entrada contém informação de um alvo, uma variável rótulo, a qual não temos acesso; o problema de aprendizado é encontrar o codificador-decodificador que explique nossos nossos dados de treinamento; o conjunto de dados (dataset) de treinamento é a definição da tarefa (padronagem estrutural dos dados) que se quer aprender. Em Information Bottleneck Teory (IBT), generalização não depende do espaço de hipóteses do modelo, mas apenas dos limites de compressibilidade do dataset. Limites esses definidos pelos teoremas de Shannon (Capítulo 5). Enquanto Teoria do Aprendizado de Máquina (MLT) é agnóstica à distribuição dos dados e modelo-dependente, Information Bottleneck Teory (IBT) é agnóstica ao modelo e distribuição-dependente. Esta perspectiva, se relaciona perfeitamente com a teoria algorítimica da informação (complexidade de Kolmogorov-Chaitin) (Seção 5.8.1). Essa visão de informação como medida de complexidade, nos permite analisar o treinamento enquanto ele acontece. Ou seja, para aqueles que se sentem desconfotáveis com o fato da teoria corrente ver modelos como uma caixa-preta, onde só se analisa a entrada e a saída, medidas de informação nos permitem entender o que ocorre durante o treinamento. Essa análise leva à surpreendente conclusão de que o aprendizado tem duas fases distintas: uma fase de ajuste e outra de compressão. Primeiro, na fase de ajuste, o modelo memoriza os dados, minimizando rapidamente o erro e usando muita informação que é peculiar apenas ao dataset utilizado e não à variável-alvo; na fase posterior de compressão, o modelo tenta esquecer o máximo possível sobre os dados de entrada enquanto mantém a informação sobre o alvo, reduzindo a quantidade de informação no modelo. pontos fortes e fracos e de oportunidade em ibt Partindo do princípio do gargalo de Teoria da Informação demonstramos a coesão interna desta narrativa alternativa (Capítulo 8), e mostramos o embasamento teórico de práticas em Aprendizagem Profunda, como o uso de Entropia Cruzada como função custo na otimização de modelos; e seus fenômenos, como a generalização de modelos superparametrizados e períodos críticos de aprendizado [ARS17](Capítulo 9). A Information Bottleneck Teory (IBT), entretanto, está longe de ser um desenvolvimento teórico completo. Falta de rigor, definição e objetivos claros em alguns dos seus artigos científicos primeiros deram razão ao ceticismo e até discrédito em que a teoria passou a ser vista. O trabalho de Achille e Soatto (Capítulos 8 e 9) foi menos ambicioso em suas alegações e mais rigoroso, resolvendo alguns dos problemas da apresentação inicial da teoria, mas não se propõe a ser completo. A presente dissertação também presta a esse papel de dar um pouco mais de rigor e clareza aos princípios assumidos, mas há ainda muito o que se desenvolver: Formulação PAC: seria possível criar uma formulação PAC que dependa apenas de β, uma vez que esse parâmetro representa um único limite (є, δ). Novas estratégias de otimização: se o treinamento tem duas fases como preconiza Information Bottleneck Teory (IBT), isso nos permite usar estratégias de otimização diferenciadas para cada uma. Transferência de Aprendizado: se, em Information Bottleneck Teory (IBT), complexidade depende apenas da compressibilidade do dataset e de um nível desejado de performance e generalização (β), podemos analisar a complexidade de datasets e montar uma topologia de tarefas com a predição da similariedade (distância) entre datasets e relacionar tais resultados teóricos com resultados empíricos como os obtidos por Zamir et al. [Zam+18]. Processos ergódicos: os princípios de teoria da informação não requerem amostragem independentes e identicamente distribuídas, mas apenas que sejam processos ergódicos. Conexão com mecânica estatística: a área de Mecânica Estatística já se desenvolve em Física há mais de um século. A conexão de aprendizado de máquina com teoria da informação permite a exploração de resultados nessa área de Física (como fizeram [CS18; Cha+19a]). Em resumo, a presente dissertação foi capaz de estabelecer que Information Bottleneck Teory (IBT) está longe de ser uma teoria rigorosa e completa, mas que é uma interessante teoria emergente que apresenta ainda muitas oportunidades de pesquisa e merece atenção.
Abstract:	In the last decade, we have witnessed a myriad of astonishing successes in Deep Learning. Despite those many successes, we may again be climbing a peak of in ated expectations. In the past, the false solution was to “add computation power on problems”, today we try “piling data”. Such behaviour has triggered a winner-takes-all rush for data among a handful of large corporations, raising concerns about privacy and concentration of power. It is a known fact, however, that learning from way fewer samples is possible: humans show a much better generalisation ability than the current state of the art arti cial intelligence. To achieve such a feat, a better understanding of how generalisation works is needed, in particular in deep neural networks. However, the practice of modern machine learning has outpaced its theoretical development. In particular, “traditional measures of model complexity struggle to explain the generalization ability of large arti cial neural networks” [Zha+16]. ¿ere is yet no established new general theory of learning which handles this pseudo-paradox. In 2015, Na ali Tishby and Noga Zaslavsky published a seminal theory of learning based on the information-theoretical concept of the bottleneck principle with the potential of lling this gap. ¿is dissertation aims to investigate the e orts using the information bottleneck principle to explain the generalisation capabilities of deep neural networks, consolidate them into a comprehensive digest and analyse its relation to current machine learning theory.
Unidade Acadêmica:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Informações adicionais:	Dissertação (Mestrado em Informática) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Brasília, 2022.
Programa de pós-graduação:	Programa de Pós-Graduação em Informática
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Agência financiadora:	Fundação de Apoio à Pesquisa do Distrito Federal (FAP/DF).
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas