http://repositorio.unb.br/handle/10482/49052
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
AhmedAbdelfattahSalehSherif_TESE.pdf | 3,67 MB | Adobe PDF | Visualizar/Abrir |
Título: | Language Independent Text Summarizer and Deep Self-Organizing Cube |
Autor(es): | Sherif, Ahmed Abdelfattah Saleh |
E-mail do autor: | Language Independent Text Summarizer and Deep Self-Organizing Cube |
Orientador(es): | Weigang, Li |
Assunto: | Linguagem natural - processamento Aprendizagem profunda Aprendizado de máquina |
Data de publicação: | 18-Jul-2024 |
Data de defesa: | 1-Dez-2022 |
Referência: | SHERIF, Ahmed Abdelfattah Saleh Sherif. Language Independent Text Summarizer and Deep Self-Organizing Cube. 2022. 136 f., il. Tese (Doutorado em Sistemas Mecatrônicos) — Universidade de Brasília, Brasília, 2022. |
Resumo: | O rápido desenvolvimento da Internet e o crescimento exponencial de dados em texto na web trouxe desafios consideráveis para tarefas relacionadas ao gerenciamento de texto, classificação e recuperação de informações. Nesta tese, propomos dois novos modelos independents de domínio, com o objetivo de melhorar o desempenho da generalização nas áreas de Processamento de Linguagem Natural (NLP) e Deep Learning (DL), para enfrentar os desafios impostos pelo grande crescimento de dados e a necessidade de extrair informação adequada e melhorar a inferência de conhecimento. Ambos os modelos adotam uma abordagem direta, porém eficiente, que depende da extração de características intrínsecas nos dados modelados, a fim de realizar sua tarefa pretendida de forma totalmente independente do domínio. A estratégia de avaliação de desempenho aplicada nesta tese visa testar o modelo em um conjunto de dados de referência e então comparar os resultados obtidos com os modelos padrão existentes. Além disso, os modelos propostos são testados contra modelos de última geração apresentados na literature, para o mesmo conjunto de dados de referência.No domínio da NLP, a maioria das técnicas de resumo de texto na literatura dependem, de uma forma ou de outra, de léxicos pré-estruturados dependentes da linguagem, bancos de dados, marcadores (taggers) e/ou parsers. Tais técnicas requerem um conhecimento prévio da linguagem do texto que está sendo resumido. Nesta tese, propomos uma nova ferramenta de resumo, UnB Language Independent Text Summarizer (UnB-LITS), que é capaz de resumir um texto de maneira independente do idioma. O modelo proposto baseia-se em características intrínsecas do texto que está sendo resumido e não de seu idioma e, portanto, elimina a necessidade de léxicos, bancos de dados, e marcadores ou parsers que dependem do idioma. Dentro dessa ferramenta, desenvolvemos uma forma inovadora de codificar as formas dos elementos do texto (palavras, n-grams, frases e parágrafos), além de propor algoritmos independentes de linguagem, capazes de normalizar palavras e performar derivações relativas ou lematização. Os algoritmos propostos e sua rotina Shape-Coding permitem que a ferramenta UnB-LITS extraia características intrínsecas dos elementos do documento e os pontue estatisticamente para obter um resumo extrativo representativo independente da linguagem do documento. O modelo proposto foi aplicado em diferentes conjuntos de dados referência, em inglês e português, e os resultados foram comparados com doze abordagens consideradas de ponta pela literatura recente. Além disso, o modelo foi aplicado em conjuntos de dados de notícias em francês e espanhol, e os resultados foram comparados aos obtidos por ferramentas comerciais padrão. O UnB-LITS apresentou uma melhor performance do que todas as abordagens de última geração, bem como quando comparado às outras ferramentas comerciais nos quatro idiomas, mantendo a sua natureza independente à linguagem. O rápido desenvolvimento da Internet e o crescimento exponencial de dados em texto na web trouxe desafios consideráveis para tarefas relacionadas ao gerenciamento de texto, classificação e recuperação de informações. Nesta tese, propomos dois novos modelos independents de domínio, com o objetivo de melhorar o desempenho da generalização nas áreas de Processamento de Linguagem Natural (NLP) e Deep Learning (DL), para enfrentar os desafios impostos pelo grande crescimento de dados e a necessidade de extrair informação adequada e melhorar a inferência de conhecimento. Ambos os modelos adotam uma abordagem direta, porém eficiente, que depende da extração de características intrínsecas nos dados modelados, a fim de realizar sua tarefa pretendida de forma totalmente independente do domínio. A estratégia de avaliação de desempenho aplicada nesta tese visa testar o modelo em um conjunto de dados de referência e então comparar os resultados obtidos com os modelos padrão existentes. Além disso, os modelos propostos são testados contra modelos de última geração apresentados na literature, para o mesmo conjunto de dados de referência.No domínio da NLP, a maioria das técnicas de resumo de texto na literatura dependem, de uma forma ou de outra, de léxicos pré-estruturados dependentes da linguagem, bancos de dados, marcadores (taggers) e/ou parsers. Tais técnicas requerem um conhecimento prévio da linguagem do texto que está sendo resumido. Nesta tese, propomos uma nova ferramenta de resumo, UnB Language Independent Text Summarizer (UnB-LITS), que é capaz de resumir um texto de maneira independente do idioma. O modelo proposto baseia-se em características intrínsecas do texto que está sendo resumido e não de seu idioma e, portanto, elimina a necessidade de léxicos, bancos de dados, e marcadores ou parsers que dependem do idioma. Dentro dessa ferramenta, desenvolvemos uma forma inovadora de codificar as formas dos elementos do texto (palavras, n-grams, frases e parágrafos), além de propor algoritmos independentes de linguagem, capazes de normalizar palavras e performar derivações relativas ou lematização. Os algoritmos propostos e sua rotina Shape-Coding permitem que a ferramenta UnB-LITS extraia características intrínsecas dos elementos do documento e os pontue estatisticamente para obter um resumo extrativo representativo independente da linguagem do documento. O modelo proposto foi aplicado em diferentes conjuntos de dados referência, em inglês e português, e os resultados foram comparados com doze abordagens consideradas de ponta pela literatura recente. Além disso, o modelo foi aplicado em conjuntos de dados de notícias em francês e espanhol, e os resultados foram comparados aos obtidos por ferramentas comerciais padrão. O UnB-LITS apresentou uma melhor performance do que todas as abordagens de última geração, bem como quando comparado às outras ferramentas comerciais nos quatro idiomas, mantendo a sua natureza independente à linguagem.O rápido desenvolvimento da Internet e o crescimento exponencial de dados em texto na web trouxe desafios consideráveis para tarefas relacionadas ao gerenciamento de texto, classificação e recuperação de informações. Nesta tese, propomos dois novos modelos independents de domínio, com o objetivo de melhorar o desempenho da generalização nas áreas de Processamento de Linguagem Natural (NLP) e Deep Learning (DL), para enfrentar os desafios impostos pelo grande crescimento de dados e a necessidade de extrair informação adequada e melhorar a inferência de conhecimento. Ambos os modelos adotam uma abordagem direta, porém eficiente, que depende da extração de características intrínsecas nos dados modelados, a fim de realizar sua tarefa pretendida de forma totalmente independente do domínio. A estratégia de avaliação de desempenho aplicada nesta tese visa testar o modelo em um conjunto de dados de referência e então comparar os resultados obtidos com os modelos padrão existentes. Além disso, os modelos propostos são testados contra modelos de última geração apresentados na literature, para o mesmo conjunto de dados de referência.No domínio da NLP, a maioria das técnicas de resumo de texto na literatura dependem, de uma forma ou de outra, de léxicos pré-estruturados dependentes da linguagem, bancos de dados, marcadores (taggers) e/ou parsers. Tais técnicas requerem um conhecimento prévio da linguagem do texto que está sendo resumido. Nesta tese, propomos uma nova ferramenta de resumo, UnB Language Independent Text Summarizer (UnB-LITS), que é capaz de resumir um texto de maneira independente do idioma. O modelo proposto baseia-se em características intrínsecas do texto que está sendo resumido e não de seu idioma e, portanto, elimina a necessidade de léxicos, bancos de dados, e marcadores ou parsers que dependem do idioma. Dentro dessa ferramenta, desenvolvemos uma forma inovadora de codificar as formas dos elementos do texto (palavras, n-grams, frases e parágrafos), além de propor algoritmos independentes de linguagem, capazes de normalizar palavras e performar derivações relativas ou lematização. Os algoritmos propostos e sua rotina Shape-Coding permitem que a ferramenta UnB-LITS extraia características intrínsecas dos elementos do documento e os pontue estatisticamente para obter um resumo extrativo representativo independente da linguagem do documento. O modelo proposto foi aplicado em diferentes conjuntos de dados referência, em inglês e português, e os resultados foram comparados com doze abordagens consideradas de ponta pela literatura recente. Além disso, o modelo foi aplicado em conjuntos de dados de notícias em francês e espanhol, e os resultados foram comparados aos obtidos por ferramentas comerciais padrão. O UnB-LITS apresentou uma melhor performance do que todas as abordagens de última geração, bem como quando comparado às outras ferramentas comerciais nos quatro idiomas, mantendo a sua natureza independente à linguagem.O rápido desenvolvimento da Internet e o crescimento exponencial de dados em texto na web trouxe desafios consideráveis para tarefas relacionadas ao gerenciamento de texto, classificação e recuperação de informações. Nesta tese, propomos dois novos modelos independents de domínio, com o objetivo de melhorar o desempenho da generalização nas áreas de Processamento de Linguagem Natural (NLP) e Deep Learning (DL), para enfrentar os desafios impostos pelo grande crescimento de dados e a necessidade de extrair informação adequada e melhorar a inferência de conhecimento. Ambos os modelos adotam uma abordagem direta, porém eficiente, que depende da extração de características intrínsecas nos dados modelados, a fim de realizar sua tarefa pretendida de forma totalmente independente do domínio. A estratégia de avaliação de desempenho aplicada nesta tese visa testar o modelo em um conjunto de dados de referência e então comparar os resultados obtidos com os modelos padrão existentes. Além disso, os modelos propostos são testados contra modelos de última geração apresentados na literature, para o mesmo conjunto de dados de referência.No domínio da NLP, a maioria das técnicas de resumo de texto na literatura dependem, de uma forma ou de outra, de léxicos pré-estruturados dependentes da linguagem, bancos de dados, marcadores (taggers) e/ou parsers. Tais técnicas requerem um conhecimento prévio da linguagem do texto que está sendo resumido. Nesta tese, propomos uma nova ferramenta de resumo, UnB Language Independent Text Summarizer (UnB-LITS), que é capaz de resumir um texto de maneira independente do idioma. O modelo proposto baseia-se em características intrínsecas do texto que está sendo resumido e não de seu idioma e, portanto, elimina a necessidade de léxicos, bancos de dados, e marcadores ou parsers que dependem do idioma. Dentro dessa ferramenta, desenvolvemos uma forma inovadora de codificar as formas dos elementos do texto (palavras, n-grams, frases e parágrafos), além de propor algoritmos independentes de linguagem, capazes de normalizar palavras e performar derivações relativas ou lematização. Os algoritmos propostos e sua rotina Shape-Coding permitem que a ferramenta UnB-LITS extraia características intrínsecas dos elementos do documento e os pontue estatisticamente para obter um resumo extrativo representativo independente da linguagem do documento. O modelo proposto foi aplicado em diferentes conjuntos de dados referência, em inglês e português, e os resultados foram comparados com doze abordagens consideradas de ponta pela literatura recente. Além disso, o modelo foi aplicado em conjuntos de dados de notícias em francês e espanhol, e os resultados foram comparados aos obtidos por ferramentas comerciais padrão. O UnB-LITS apresentou uma melhor performance do que todas as abordagens de última geração, bem como quando comparado às outras ferramentas comerciais nos quatro idiomas, mantendo a sua natureza independente à linguagem.Por outro lado, a tarefa de classificação multidimensional (MDC) pode ser considerada a descrição mais abrangente de todas as tarefas de classificação, pois une vários espaços de classe e seus vários membros de classe em um único problema de classificação composta. Os desafios no MDC surgem das possíveis dependências de classe em diferentes espaços. E também do desequilíbrio de rótulos em conjuntos de dados de treinamento devido à falta de todas as combinações possíveis. Nesta tese, propomos um classificador de aprendizado profundo MDC que conta com uma natureza simples mas eficiente, chamado “Deep Self-Organizing Cube” ou “DSOC” que pode modelar dependências entre classes, enquanto consolida sua capacidade de classificar combinações raras de rótulos. O DSOC é formado por dois componentes n dimensionais: o classificador de hipercubo (hypercube) e as múltiplas redes neurais DSOC conectadas ao hipercubo. O componente de múltiplas redes neurais é responsável pela seleção de recursos e segregação de classes, enquanto o classificador hipercubo é responsável por criar a semântica entre vários espaços de classe e acomodar o modelo para classificação de amostras raras. O DSOC é um algoritmo de aprendizado de várias saídas que classifica amostras com sucesso em todos os espaços de classe, de maneira simultanea. Para desafiar o modelo DSOC proposto, realizamos uma avaliação em dezessete conjuntos de dados de referência nos quatro tipos de tarefas de classificação: binário, multiclasse, multi-rótulo e multidimensional. Os resultados obtidos foram comparados com quatro classificadores padrão e oito abordagens competitivas de última geração relatadas na literatura. O DSOC alcançou desempenho superior em relação aos classificadores padrão, bem como as abordagens de última geração em todas as quatro tarefas de classificação. Além disso, em termos de métricas de precisão exata (Exact Match), o DSOC performou melhor do que todas as abordagens de última geração em 77,8% dos casos, o que reflete a capacidade superior do DSOC de modelar dependências e classificar, com sucesso, as amostras raras em todas as dimensões de maneira simultanea. |
Abstract: | The rapid development of the Internet and the massive exponential growth in web textual data has brought considerable challenges to tasks related to text management, classification and information retrieval. In this thesis, we propose two novel domain agnostic models, aiming at improving the generalization performance in the fields of Natural Language Processing (NLP) and Deep Learning (DL), to address the challenges imposed by the massive growth in data and the need for proper information retrieval and knowledge inference. Both models adopt a straightforward, yet efficient, approaches that depend on extracting intrinsic features in the modeled data, in order to perform their intended task in a totally domain agnostic manner. The performance evaluation strategy applied in this thesis aims at testing the model on benchmark dataset and then compare the obtained results against those obtained by the standard models. Moreover, the proposed models are challenged against state-of-the-art models presented in literature for the same benchmark dataset.In NLP domain, the majority of text summarization techniques in literature depend, in one way or another, on language dependent pre-structured lexicons, databases, taggers and/or parsers. Such techniques require a prior knowledge of the language of the text being summarized. In this thesis, we propose a novel extractive text summarization tool, UnB Language Independent Text Summarizer (UnB-LITS), which is capable of performing text summarization in a language agnostic manner. The proposed model depends on intrinsic characteristics of the text being summarized rather than its language and thus eliminates the need for language dependent lexicons, databases, taggers or parsers. Within this tool, we develop an innovative way of coding the shapes of text elements (words, n-grams, sentences and paragraphs), in addition to proposing language independent algorithms that are capable of normalizing words and performing relative stemming or lemmatization. The proposed algorithms and itsShape-Coding routine enable the UnB-LITS tool to extract intrinsic features of document elements and score them statistically to extract a representative summary independent of the document language. The proposed model was applied on an English and Portuguese benchmark datasets, and the results were compared to twelve state-of the-art approaches presented in recent literature. Moreover, the model was applied on French and Spanish news datasets, and the results were compared to those obtained by standard commercial summarization tools. UnB-LITS has outperformed all the state-of the-art approaches as well as the commercial tools in all four languages while maintaining its language agnostic nature. On the other hand, Multi-dimensional classification (MDC) task can be considered the most comprehensive description of all classifications tasks, as it joins multiple class spaces and their multiple class members into a single compound classification problem. The challenges in MDC arise from the possible class dependencies across different class spaces, as well as the imbalance of labels in training datasets due to lack of all possible combinations. In this thesis, we propose a straightforward, yet efficient, MDC deep learning classifier, named “Deep Self Organizing Cube” or “DSOC” that can model dependencies among classes in multiple class spaces, while consolidating its ability to classify rare combinations of labels. DSOC is formed of two n-dimensional components, namely the Hypercube Classifier and the multiple DSOC Neural Networks connected to the hypercube. The multiple neural networks component is responsible for feature selection and segregation of classes, while the Hypercube classifier is responsible for creating the semantics among multiple class spaces and accommodate the model for rare sample classification. DSOC is a multiple-output learning algorithm that successfully classify samples across all class spaces simultaneously. To challenge the proposed DSOC model, we conducted an assessment on seventeen benchmark datasets in the four types of classification tasks, binary, multi-class, multi-label and multi-dimensional. The obtained results were compared to four standard classifiers and eight competitive state-of-the-art approaches reported in literature. The DSOC has achieved superior performance over standard classifiers as well as the state-of-the-art approaches in all the four classification tasks. Moreover, in terms of Exact Matchaccuracy metrics, DSOC has outperformed all state-of-the-art approaches in 77.8% of the cases, which reflects the superior ability of DSOC to model dependencies and successfully classify rare samples across all dimensions simultaneously. |
Unidade Acadêmica: | Faculdade de Tecnologia (FT) Departamento de Engenharia Mecânica (FT ENM) |
Informações adicionais: | Tese (doutorado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Mecânica, Programa de Pós-Graduação em Sistemas Mecatrônicos, 2022. |
Programa de pós-graduação: | Programa de Pós-Graduação em Sistemas Mecatrônicos |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.