A Significância Estatística de um Modelo de Regressão Linear

Apresentamos o terceiro de nove artigos gentilmente disponibilizados pelo Eng. Mário Pinho Miranda, que versam uma temática muito importante para a abordagem de mercado, a inferência estatística. A literatura disponível para o perito avaliador de imóveis certificado sobre a inferência estatística aplicada à avaliação imobiliária é escassa.


Os dois primeiros artigos foram:


-A Amostra na Regressão Linear;

-A Capacidade Explicativa do Modelo


Recordo que o Eng. Mário Pinho Miranda é coautor, juntamente com o Eng. Rui Camposinos, do mais completo manual sobre avaliação imobiliária existente em português:


"3 – A Significância do Modelo


Mário Pinho Miranda


Resumo

O objectivo deste artigo é mostrar como se analisa, sob diversos aspectos, a significância estatística de um modelo de regressão linear.



1. Análise da Significância Estatística do Modelo

    O que se entende por «significância estatística» de um modelo de regressão linear? Sinteticamente pode dizer-se que é a verificação da existência de discrepâncias entre as hipóteses de partida e os resultados obtidos.


    Uma dessas hipóteses é estabelecida pelo Avaliador logo no início da construção do modelo quando arbitra o nível de confiança exigido (por exemplo, quando se utiliza o EXCEL, por defeito, esta aplicação propõe o nível de 95%, podendo o utilizador atribuir outra qualquer).


    Nos quadros de resultados da regressão há um conjunto de estatísticas aferidoras da existência das referidas discrepâncias que reportam, precisamente, ao nível de confiança. São eles o F de significância e os valores-p de cada um dos coeficientes da regressão.


2. O «valor-p» e o «F de significância»

        Quer o «valor-p» quer o «F de significância» são estatísticas que permitem aferir da significância do modelo: o primeiro, dos coeficientes dos regressores e, o segundo, globalmente do modelo. Tanto um como o outro configuram um teste de hipóteses.

 

    Para se entender o que se seguirá são cruciais algumas breves noções sobre o significado de um teste de hipóteses (Para um estudo mais profundo sobre esta matéria consultar [3, 4])

 

    Suponha-se que se quer verificar qual a significância do coeficiente b_2 relativo ao atributo «Garagens» (Figura 1) sabendo-se que a regressão foi feita exigindo um nível de confiança de 95\%. Se $b_2=0$ obviamente que este atributo não teria qualquer significado para a regressão


Figura 1: Quadro de resultados de uma regressão múltipla


    Portanto, há todo o interesse em saber em que condições esse coeficiente se poderá anular. O teste a fazer deverá então ser capaz de responder às seguintes questões: i) qual a maior probabilidade do coeficiente se anular? e ii) essa probabilidade respeita o nível de confiança exigido?


    Para se poder responder a estas perguntas estabelece-se uma hipótese, chamada hipótese nula, representada por H_0, em que se admite precisamente a anulação do coeficiente b_2 e uma hipótese alternativa, identificada como H_a, que corresponde a b_2 poder ser diferente de zero. Ou seja:


H_0 ∶  b_2=0    Hipótese nula

H_a ∶  b_2≠0    Hipótese alternativa


    Na Figura 2 está representado o gráfico da função Densidade de Probabilidade da Distribuição t de Student para 7 graus de liberdade (o valor 7 é retirado da linha «Residual», coluna «gl» do quadro ANOVA da mesma figura). A soma das duas áreas sombreadas nas caudas é igual a 0,05≡5% (porque o nível de confiança exigido para a regressão foi de 95%) e têm abcissas t=-2,36 e t=2,36. Estes valores de t são os valores da variável t de Student que se podem obter recorrendo a tabelas estatísticas, a máquinas de cálculo avançadas ou ao EXCEL usando a função «INV.T.2C(1-95%;gl)» ou «T.INV.2T» nas versões em inglês do aplicativo.


Figura 2- Análise da Hipótese Nula


    Este intervalo é um intervalo de confiança para a média de b_2=0 o que significa que temos 95% de certeza que b_2=0 – e, consequentemente, de não podermos rejeitar a hipótese nula H_0 – para todo o t∈ [-2,36;2,36]. Em contrapartida, se t∉ [-2,36;2,36] há 5% de certeza de b_2≠ 0 e temos razão para rejeitar a hipótese nula e admitir, consequentemente, a significância do coeficiente b_2.


    Do último quadro da Figura 1 retira-se o valor t – designado por «Stat t» – relativo ao coeficiente b_2: t=0,6549 (este valor é o quociente entre os valores do coeficiente e o erro-padrão respectivos). Como este valor está no intervalo [-2,36;2,36] não devemos rejeitar a hipótese nula, logo, o coeficiente b_2 não tem significância estatística.


    A forma de tornar prática esta conclusão, sem necessidade de calcular os valores de t que correspondem aos limites do intervalo de confiança, é recorrer ao «valor-p» do coeficiente. Da linha do coeficiente b_2 na coluna «valor P» tira-se que valor-p=0,5334. Pois bem, a soma das áreas das duas caudas tracejadas da Figura 3 é precisamente igual a este valor-p. Como esta área se sobrepõe às áreas tracejadas da Figura 2 não se pode rejeitar a hipótese nula. Então a regra a aplicar é:


Figura 3: O valor-p do coeficiente 𝑏2

    − Se valor-p>1-NC o coeficiente não é estatisticamente significante e o atributo não deve ser considerado;

     Em caso contrário não se pode concluir a insignificância estatística do coeficiente e, portanto, o atributo pode ser considerado.

em que NC é o nível de confiança.


Um comentário ao facto de o termo independente ser ou não ser significante: não é grave a insignificância deste coeficiente. Se ele for igual a zero só significa que a recta passa pela origem.


Relativamente à estatística F de significância – coluna da direita do quadro ANOVA da Figura 1– a interpretação é semelhante. Não apresentarei aqui a justificação porque é mais extensa, mas pode ser consultada em [1]. Considerando uma vez mais NC como o nível de confiança exigido para o modelo, se esta estatística for superior a 1- NC, globalmente, o modelo não é estatisticamente significante. Caso contrário, pelo menos, um dos atributos tem significância estatística



3. Referências

[1] M. P. MIRANDA e R. S. CAMPOSINHOS, Avaliação Imobiliária, Porto: Edição dos Autores, 2022. 

[2] J. V. LISBOA, M. G. AUGUSTO e P. L. FERREIRA , Estatística Aplicada à Gestão, Porto: Vida Económica, 2012. 

[3] R. GUIMARÃES e J. CABRAL, Estatística, Lisboa: Verlag Dashofer, 2010. 

[4] Rui C. Guimarães e José S. Cabral (2010) Estatística, 2ª edição, Lisboa: Verlag Dashofer” Porto: Vida Económica"



 



 


Sem comentários:

Com tecnologia do Blogger.