Thursday, 13 June 2019

Transformação do log de variáveis no stata forex


Stata: análise de dados e software estatístico Allen McDowell, StataCorp Nicholas J. Cox, Universidade de Durham, Reino Unido Uma solução tradicional para este problema é realizar uma transformação de logit nos dados. Suponha que sua variável dependente seja chamada y e suas variáveis ​​independentes sejam chamadas de X. Então, assume-se que o modelo que descreve y é. Se um então executa a transformação do logit, o resultado é que agora mapeamos a variável original, que foi delimitada por 0 e 1, para a linha real. Pode-se agora ajustar este modelo usando OLS ou WLS, por exemplo, usando regressão. Claro, não é possível realizar a transformação em observações onde a variável dependente é zero ou uma, o resultado será um valor faltante, e essa observação seria subsequentemente retirada da amostra de estimação. Uma alternativa melhor é estimar o uso de glm com a família (binômio). Link (logit). E robusto, este é o método proposto por Papke e Wooldridge (1996). No momento em que este artigo foi publicado, o comando Statarsquos Glm não poderia caber em tais modelos, e esse fato é notado no artigo. O glm foi desde então aprimorado especificamente para lidar com dados de resposta fracionada. Em ambos os casos, pode haver uma questão substantiva de interpretação. Concentremo-nos em interpretar zeros: o mesmo tipo de problema pode surgir para aqueles. Suponha que a variável y seja proporção de dias em que os trabalhadores passam doentes. Existem duas possibilidades extremas. O primeiro extremo é que todos os zeros observados estão efetivamente a zeros de amostragem: cada trabalhador tem alguma probabilidade diferente de ficar doente e é apenas que alguns trabalhadores não estavam, de fato, doentes no período da amostra. Aqui, muitas vezes queremos incluir os zeros observados em nossa análise e a rota glm é atraente. O segundo extremo é que alguns ou possivelmente todos os zeros observados devem ser considerados como zeros estruturais: esses trabalhadores nunca se reportarão doentes, devido à saúde robusta e à dedicação exemplar. Estes são extremos, e os casos intermediários também são comuns. Na prática, muitas vezes é útil analisar a distribuição de freqüência: um pico marcado em zero ou um pode muito bem aumentar a dúvida sobre um único modelo instalado em todos os dados. Um segundo exemplo pode ser dados sobre as relações comerciais entre países. Suponha que a variável y seja proporção das importações de um determinado país. Aqui, um zero pode ser estrutural se dois países nunca trocam, digam por motivos políticos ou culturais. Um modelo que se encaixa tanto nos zeros quanto nos não-comércios pode não ser aconselhável, de modo que um tipo diferente de modelo deve ser considerado. Para uma excelente discussão mais ampla, veja Baum (2008). Referências Baum, C. F. 2008. Proporções de modelagem. Stata Journal 8: 299ndash303. Papke, L. E. e J. Wooldridge. 1996. Métodos econométricos para variáveis ​​de resposta fracionada com uma aplicação para 401 (k) taxas de participação do plano. Journal of Applied Econometrics 11: 619ndash632.Para perguntas rápidas, envie um email para dataprinceton. edu. Não há appts. Necessário durante as horas de caminhada. Nota: o laboratório DSS está aberto enquanto o Firestone estiver aberto, sem compromissos necessários para usar os computadores do laboratório para sua própria análise. Transformações de logs Se a distribuição de uma variável tiver uma inclinação positiva, assumir um logaritmo natural da variável às vezes ajuda a ajustar a variável em um modelo. As transformações de log tornam a distribuição do ponto de vista mais equilibrada mais normal. Além disso, quando uma alteração na variável dependente está relacionada com a variação percentual em uma variável independente, ou vice-versa, a relação é melhor modelada tomando o log natural de uma ou ambas as variáveis. Por exemplo, estimar as pessoas com salário baseadas em educação, experiência e região de residência usando dados da amostra de Statas nlsw88, um extrato do Estudo Logualinal Nacional de Mulheres Jovens de 1988. Parece ok, mas quando olho para a distribuição de posse, parece um pouco distorcido. Então eu computo um registro natural de posse. Parece ter superado um pouco, mas parece um tanto normal. Eu tento uma regressão com o mandato registrado. O R-squared ficou um pouco mais alto, então, tomar o log natural parece ter ajudado a ajustá-lo melhor ao modelo. Quando a variável independente, mas não a variável dependente, é registrada, uma alteração de porcentagem na variável independente é associada a 1100 vezes a alteração do coeficiente na variável dependente. Salário previsto. -1.6390.681GRADE0.774LNTENURE-1.134SOUTH Portanto, um aumento percentual na posse está associado a um aumento no salário de 0,01x0,774 ou cerca de 0,0077. Agora eu examino o salário, e acho que é muito distorcido. Então pego um log natural de salários e analise a distribuição do salário registrado. A distribuição parece muito mais normal. Agora eu lanço a mesma regressão com o salário registrado como variável dependente. Quando a variável dependente, mas não uma variável independente, é registrada, uma variação de uma unidade na variável independente está associada a uma mudança de porcentagem de coeficiente de 100 vezes na variável dependente. Nesses dados, a posse é medida em anos: então, um aumento de um ano na posse aumenta o salário em 100x0.026 ou cerca de 2.6. Se registramos as variáveis ​​dependentes e independentes, então estamos olhando a elasticidade: a variação percentual em X resulta em variação percentual em Y. lança prevista 0,659 0,084GRADE0.136LNTENURA-0.151SOUTH Um aumento de um por cento na posse é estimado em aproximadamente Aumento de 0.136 no salário. Copie 2007 The Truestees of Princeton University. Todos os direitos reservados. Dataprinceton. edu Esta página foi atualizada pela última vez em 28 de agosto de 2008

No comments:

Post a Comment