http://repositorio.unb.br/handle/10482/44283
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
2022_ShayanedosSantosCordeiro.pdf | 452,43 kB | Adobe PDF | Visualizar/Abrir |
Título: | Symmetric generalized Heckman models |
Autor(es): | Cordeiro, Shayane dos Santos |
E-mail do autor: | shayane.cordeiro@gmail.com |
Orientador(es): | Santos, Helton Saulo Bezerra dos |
Assunto: | Modelos de Heckman Distribuições simétricas Dispersão variável Correlação variável |
Data de publicação: | 19-Jul-2022 |
Data de defesa: | 25-Abr-2022 |
Referência: | CORDEIRO, Shayane dos Santos. Symmetric generalized Heckman models. 2022. xii, 27 f., il. Dissertação (Mestrado em Estatística) — Universidade de Brasília, Brasília, 2022. |
Resumo: | O problema de viés de seleção amostral surge quando uma variável de interesse está correlacionada com uma variável latente, e envolve situações em que a variável de interesse tem parte das suas observações censuradas. A censura é uma espécie de limitação na amostra em que determinadas observações da variável resposta não são verificadas, não por sua ausência, mas por vezes porque o objeto de estudo não sofreu o evento de interesse, porém outras informações que ajudam a explicar o evento foram obtidas. Esse problema ocorre, em diversas áreas da Economia, Ciências Políticas, Estatística, Sociologia entre outras. Para evitar problemas de seleção amostral o recomendado é utilizar toda a amostra de dados, uma vez que as variáveis explicativas foram observadas e a variável resposta censurada pode transmitir informação sobre todo o conjunto de dados. Uma forma de verificar se a variável de interesse censurada transmite informação é utilizar uma covariável que capture o viés ao se considerar uma amostra, em que apenas as variáveis dependentes foram observadas. Caso esse viés seja significativo, deve-se trabalhar com a base de dados completa O matemático e economista James Joseph Heckman foi o primeiro a estudar dados com de viés de seleção amostral e em 1976 propôs um modelo de seleção amostral baseado na distribuição normal bivariada que considera tanto a variável de interesse quanto a variável latente, apesar do seu empenho o método utilizava a estimação por máxima verossimilhança e foi bastante criticado devido a dificuldade de sua implementação e suposições do modelo, o que o levou a propor um modelo alternativo mais simples denominado método dos dois passos, também conhecido como modelo Tobit tipo 2, na literatura econométrica. Estudos propostos, tais como Nelson (1984), Paarsch (1984), Manning, Duan, and Rogers (1987), Stolzenberg and Relles (1990) and Leung and Yu (1996) sugerem que o modelo pode reduzir ou eliminar o viés de seleção quando seus pressupostos são atendidos. Contudo o desvio de normalidade pode ocasionar uma distorção nos resultados ou mesmo inviabilizar o ajuste. A suposição de normalidade tem sido relaxada por modelos mais flexíveis, ao sugerir o uso de outras distribuições bivariadas em substituição a distribuição normal tais como a Student-t aplicada por Marchenko and Genton (2012) and Lachos, Prates, and Dey (2021) que apresenta caudas mais pesadas e permite ajustes mais robustos, Skew-normal (Ogundimu and Hutton, 2016), abordagem Bayesiana Ding (2014) e baseada em cópulas Lee (1983). Abordagens semiparamétricas (Ahn and Powell, 1993) e não-paramétricas (M. Das and Vella, 2003) também foram consideradas, contudo as abordagens paramétricas permitem identificar o intercepto do modelo o que pode ser útil em análises com predições. No modelo de Heckman Clássico os erros são normalmente distribuídos, com parâmetros de dispersão e correlação constantes, a generalização do modelo clássico consiste em introduzir covariáveis aos parâmetros de dispersão e correlação, a fim de modelar dados reais que frequentemente apresentam dispersão variável, possibilitando a identificação de covariáveis responsáveis pela variabilidade dos dados e o viés de seleção. Nesse sentido este trabalho tem como objetivo propor modelos de seleção amostral Heckman generalizados baseados nas distribuições simétricas (Fang, Kotz, and Ng, 1990). Trata-se de uma nova classe de modelo de seleção amostral em que são acrescidas covariáveis aos parâmetros de dispersão e de correlação, que possibilitam explicar a heterocedasticidade e o viés de seleção amostral respectivamente. Neste estudo, na seção 1.2 introduzimos o modelo de Heckman generalizado simétrico, obtendo sua função densidade de probabilidade, que apresenta dois componentes um discreto e outro contínuo, que é utilizada para a estimação dos parâmetros do modelo através da função de log-verossimilhança. Na seção 1.3 derivamos o modelo de Heckman-Student-t generalizado que é um caso especial do modelo de Heckman generalizado simétrico, obtendo a função densidade de probabilidade e estimando os parâmetros do modelo. Na seção 1.4, um estudo de simulação de Monte Carlo realizado para avaliar o comportamento do método de estimação de parâmetros dos modelos de Heckman-normal generalizado e Heckman-Student-t utilizando o viés e o Erro Quadrático Médio (EQM), considerando quatro cenários mostrou bons resultados, na presença de altas/baixas taxas de censura e correlação. Dois conjuntos de dados reais, gastos ambulatoriais da base Medical Expenditure Panel Survey (MEPS) de 2001, também utilizados por Cameron and Trivedi (2009), Marchenko and Genton (2012), M. Zhelonkin and Ronchetti (2016) e Bastos and Barreto-Souza (2020), disponível no software R via pacote ssmrob de M. Zhelonkin et al. (2016) e as bases públicas dos governos dos Estados de São Paulo e Minas Gerais, com covariáveis que explicam o Investimento em Educação (IE) no ano de 2018, são analisados, na seção 1.5, para ilustrar a abordagem proposta e revelaram o bom ajuste do modelo de Heckman-t generalizado comparado com o modelo normal generalizado, além estimação dos parâmetros, também foram obtidos os resíduos do tipo-martingale (MT) e o ajuste dos respectivos quantis favoreceram o modelo proposto no estudo que se ajusta melhor a dados com valores extremos. |
Abstract: | The sample selection bias problem arises when a variable of interest is correlated with a latent variable, and involves situations in which the response variable had part of its observations censored. Heckman (1976) proposed a sample selection model based on the bivariate normal distribution that fits both the variable of interest and the latent variable. Recently, this assumption of normality has been relaxed by more flexible models such as the Student-t distribution (Marchenko and Genton, 2012; Lachos, Prates, and Dey, 2021). The aim of this work is to propose generalized Heckman sample selection models based on symmetric distributions (Fang, Kotz, and Ng, 1990). This is a new class of sample selection models, in which variables are added to the dispersion and correlation parameters. A Monte Carlo simulation study is performed to assess the behavior of the parameter estimation method. Two real data sets are analyzed to illustrate the proposed approach. |
Unidade Acadêmica: | Instituto de Ciências Exatas (IE) Departamento de Estatística (IE EST) |
Informações adicionais: | Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2022. |
Programa de pós-graduação: | Programa de Pós-Graduação em Estatística |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.