Sunday, 14 May 2017

Interpretação De Resultados De Regressão Em Stata Forex


AVISO: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria Stat ao oferecer um presente Análise de Regressão de Saída Anotada da Stata Esta página mostra um exemplo de análise de regressão com notas de rodapé explicando o resultado. Esses dados foram coletados em 200 alunos do ensino médio e são pontuações em vários testes, incluindo ciência, matemática, leitura e estudos sociais (socst). A variável feminina é uma variável dicotômica codificada 1 se o estudante fosse do sexo feminino e 0 se fosse do sexo masculino. Anova Table a. Fonte: no que diz respeito à desagregação da variância na variável de resultado, estas são as categorias que examinaremos: Modelo, Residual e Total. A variância Total é particionada na variância que pode ser explicada pelas variáveis ​​independentes (Modelo) e a variância que não é explicada pelas variáveis ​​independentes (Residual, às vezes chamado Erro). B. SS - São a Soma de Quadrados associada às três fontes de variância, Total, Modelo e Residual. C. Df - Estes são os graus de liberdade associados às fontes de variância. A variância total tem N-1 graus de liberdade. O modelo de graus de liberdade corresponde ao número de coeficientes estimados menos 1. Incluindo a intercepção, existem 5 coeficientes, então o modelo tem 5-14 graus de liberdade. Os graus de liberdade residuais são o DF total menos o modelo DF, 199 - 4 195. d. MS - Estes são os quadrados médios, a soma dos quadrados divididos pelo respectivo DF. Global Model Fit e. Número de obs - Este é o número de observações utilizadas na análise de regressão. F. F (4, 195) - Esta é a F-estatística é o modelo quadrado médio (2385.93019) dividido pelo Mean Square Residual (51.0963039), produzindo F46.69. Os números entre parênteses são os graus de liberdade Modelo e Residual da tabela ANOVA acima. G. Prob gt F - Este é o valor p associado à estatística F acima. Ele é usado para testar a hipótese nula de que todos os coeficientes do modelo são 0. h. R-quadrado - R-Squared é a proporção de variância na variável dependente (ciência) que pode ser explicada pelas variáveis ​​independentes (matemática, fêmea, socst e leitura). Esta é uma medida geral da força da associação e não reflete a extensão em que qualquer variável independente particular está associada à variável dependente. Eu. Adj R-squared - Este é um ajuste do R-squared que penaliza a adição de preditores estranhos ao modelo. O R-quadrado ajustado é calculado usando a fórmula 1 - ((1 - Rsq) ((N - 1) (N - k - 1)) onde k é o número de preditores. J. Root MSE - Root MSE é o desvio padrão Do termo de erro e é a raiz quadrada do Mean Square Residual (ou Error). Parâmetro Estimativas k. Science - Esta coluna mostra a variável dependente no topo (ciência) com as variáveis ​​preditoras abaixo dela (matemática, fêmea). Leitura e contras). A última variável (contras) representa a constante ou o intercepto. L. Coef. - Estes são os valores da equação de regressão para prever a variável dependente da variável independente. A equação de regressão é apresentada de várias maneiras diferentes , Por exemplo: Ypredicted b0 b1x1 b2x2 b3x3 b4x4 A coluna de estimativas fornece os valores para b0, b1, b2, b3 e b4 para esta equação. Math - O coeficiente é .3893102. Assim, para cada aumento de unidade em matemática a .3893102 O aumento da unidade na ciência é previsto, mantendo todas as outras variáveis ​​constantes. Feminino - Para Cada aumento de unidade em mulheres. Esperamos uma diminuição da unidade de 2.009765 na pontuação da ciência, mantendo todas as outras variáveis ​​constantes. Uma vez que a mulher é codificada 01 (0male, 1female), a interpretação é mais simples: para as mulheres, a pontuação científica prevista seria 2 pontos menor do que para os homens. Socst - O coeficiente para socst é .0498443. Então, para cada aumento de unidade no socst. Esperamos um aumento de aproximadamente 0,05 pontos na pontuação científica, mantendo todas as outras variáveis ​​constantes. Ler - O coeficiente para leitura é .3352998. Então, para cada aumento de unidade em leitura. Esperamos um aumento de 34 pontos no índice de ciência. M. Std. Errar. - Estes são os erros padrão associados aos coeficientes. N. T - Estas são as estatísticas t utilizadas para testar se um determinado coeficiente é significativamente diferente de zero. O. Pgtt - Esta coluna mostra os p-valores de 2 colas utilizados no teste da hipótese nula de que o coeficiente (parâmetro) é 0. Usando um alfa de 0,05: O coeficiente para matemática é significativamente diferente de 0 porque seu valor de p é 0,000, Que é menor do que 0,05. O coeficiente para a fêmea (-2,01) não é estáticamente significativo no nível de 0,05, uma vez que o valor de p é maior do que 0,05. O coeficiente para socst (.0498443) não é estatisticamente significativamente diferente de 0 porque seu valor de p é definitivamente maior do que 0,05. O coeficiente de leitura (.3352998) é estatisticamente significativo porque o seu valor p de 0.000 é inferior a .05. O constante (contras) é significativamente diferente de 0 no nível alfa 0,05. P. 95 Conf. Intervalo - Estes são os 95 intervalos de confiança para os coeficientes. Os intervalos de confiança estão relacionados aos valores de p de modo que o coeficiente não seja estatisticamente significante em alfa .05 se o intervalo de confiança 95 incluir zero. Esses intervalos de confiança podem ajudá-lo a colocar a estimativa do coeficiente em perspectiva ao verificar quanto o valor pode variar. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia. Para perguntas rápidas, envie um email para dataprinceton. edu. Não há appts. Necessário durante horas walk-in. Nota: o laboratório DSS está aberto enquanto o Firestone estiver aberto, sem compromissos necessários para usar os computadores do laboratório para sua própria análise. Interpretação da saída de regressão Introdução Este guia pressupõe que você tenha pelo menos um pouco de familiaridade com os conceitos de regressão múltipla linear e seja capaz de executar uma regressão em algum pacote de software, como Stata, SPSS ou Excel. Você pode querer ler nossa página complementar Introdução à Regressão primeiro. Para obter assistência na execução de regressão em pacotes de software específicos, existem alguns recursos no UCLA Statistical Computing Portal. Breve revisão da regressão Lembre-se que a análise de regressão é usada para produzir uma equação que irá prever uma variável dependente usando uma ou mais variáveis ​​independentes. Esta equação tem a forma onde Y é a variável dependente que você está tentando prever, X1. X2 e assim por diante são as variáveis ​​independentes que você está usando para prever isso, b1. B2 e assim por diante são os coeficientes ou multiplicadores que descrevem o tamanho do efeito que as variáveis ​​independentes estão tendo na sua variável dependente Y. E A é o valor Y previsto quando todas as variáveis ​​independentes são iguais a zero. Na regressão de Stata mostrada abaixo, a equação de previsão é preço -294.1955 (mpg) 1767.292 (estrangeiro) 11905.42 - dizendo que esse preço prevê aumento de 1767.292 quando a variável estrangeira aumenta em um, diminua até 294.1955 quando o mpg sobe por um , E prevê-se que seja 11905,42 quando o mpg e o estrangeiro são zero. Vindo com uma equação de previsão como esta é apenas um exercício útil, se as variáveis ​​independentes em seu conjunto de dados tiverem alguma correlação com sua variável dependente. Assim, além dos componentes de predição de sua equação - os coeficientes em suas variáveis ​​independentes (betas) e a constante (alfa) - você precisa de alguma medida para dizer quão forte cada variável independente está associada à sua variável dependente. Ao executar sua regressão, você está tentando descobrir se os coeficientes em suas variáveis ​​independentes são realmente diferentes de 0 (então as variáveis ​​independentes estão tendo um efeito genuíno na sua variável dependente) ou se, alternativamente, quaisquer diferenças aparentes de 0 são apenas devidas a aleatórias chance. A hipótese nula (padrão) é sempre que cada variável independente não tem absolutamente nenhum efeito (tem um coeficiente de 0) e você está procurando uma razão para rejeitar essa teoria. P, t e erro padrão A estatística t é o coeficiente dividido pelo seu erro padrão. O erro padrão é uma estimativa do desvio padrão do coeficiente, a quantidade que varia de acordo com os casos. Pode-se pensar como uma medida da precisão com a qual o coeficiente de regressão é medido. Se um coeficiente for grande em comparação com seu erro padrão, provavelmente é diferente de 0. Qual o tamanho do seu grande tamanho O seu software de regressão compara a estatística t na sua variável com valores na distribuição Student t para determinar o valor P, que é o número Que você realmente precisa estar olhando. A distribuição de Student t descreve como a média de uma amostra com um certo número de observações (seu n) deverá se comportar. Se 95 da distribuição t estiver mais perto da média do valor t no coeficiente que você está observando, então você tem um valor P de 5. Isso também é referenciado a um nível de significância de 5. O valor P é a probabilidade De ver um resultado tão extremo como o que você está recebendo (em valor tão grande quanto o seu) em uma coleção de dados aleatórios em que a variável não teve efeito. Um P de 5 ou menos é o ponto geralmente aceito em que rejeitar a hipótese nula. Com um valor de P de 5 (ou .05), há apenas uma chance de que os resultados que você verá surgiram em uma distribuição aleatória, então você pode dizer com uma probabilidade de 95 de ser correto que a variável está tendo algum efeito, Supondo que seu modelo esteja especificado corretamente. O intervalo de confiança 95 para seus coeficientes mostrado por muitos pacotes de regressão oferece a mesma informação. Você pode confiar que o valor real, subjacente ao coeficiente que você está estimando, cai em algum lugar nesse intervalo de confiança 95, então, se o intervalo não contiver 0, seu valor de P será 0,05 ou menos. Observe que o tamanho do valor P para um coeficiente não diz nada sobre o tamanho do efeito que a variável está tendo em sua variável dependente - é possível ter um resultado altamente significativo (muito pequeno valor P) para um efeito minúsculo. Coeficientes Na regressão linear simples ou múltipla, o tamanho do coeficiente para cada variável independente dá-lhe o tamanho do efeito que a variável está tendo na sua variável dependente e o sinal no coeficiente (positivo ou negativo) dá-lhe a direção do efeito. Na regressão com uma única variável independente, o coeficiente indica o quanto a variável dependente deverá aumentar (se o coeficiente for positivo) ou diminuir (se o coeficiente for negativo) quando essa variável independente aumentar em um. Na regressão com múltiplas variáveis ​​independentes, o coeficiente indica o quanto a variável dependente deve aumentar quando essa variável independente aumenta em um, mantendo todas as demais variáveis ​​independentes constantes. Lembre-se de ter em mente as unidades nas quais suas variáveis ​​são medidas. Nota: nas formas de regressão que não a regressão linear, como logística ou probit, os coeficientes não possuem essa interpretação direta. Explicar como lidar com isso está além do escopo de um guia introdutório. R-quadrado e significado geral da regressão O R-quadrado da regressão é a fração da variação em sua variável dependente que é contabilizada (ou predita por) suas variáveis ​​independentes. (Em regressão com uma única variável independente, é o mesmo que o quadrado da correlação entre sua variável dependente e independente.) O R-quadrado é geralmente de importância secundária, a menos que sua principal preocupação seja usar a equação de regressão para fazer previsões precisas . O valor P indica o quão confiante é que cada variável individual tenha alguma correlação com a variável dependente, o que é o importante. Outro número a ser ciente é o valor de P para a regressão como um todo. Como suas variáveis ​​independentes podem estar correlacionadas, uma condição conhecida como multicolinearidade, os coeficientes em variáveis ​​individuais podem ser insignificantes quando a regressão como um todo é significante. Intuitivamente, isto é porque as variáveis ​​independentes altamente correlacionadas estão explicando a mesma parte da variação na variável dependente, de modo que seu poder explicativo e a significância de seus coeficientes são divididos entre eles. Leitura adicional copia 2007 The Trustees of Princeton University. Todos os direitos reservados. Dataprinceton. edu NOTA: A informação é para a Universidade de Princeton. Sinta-se livre para usar a documentação, mas não podemos responder perguntas fora de Princeton Esta página foi atualizada pela última vez em:

No comments:

Post a Comment