A Significância Estatística de um Modelo de Regressão Linear
Apresentamos o terceiro de nove artigos gentilmente disponibilizados pelo Eng. Mário Pinho Miranda, que versam uma temática muito importante para a abordagem de mercado, a inferência estatística. A literatura disponível para o perito avaliador de imóveis certificado sobre a inferência estatística aplicada à avaliação imobiliária é escassa.
Os dois primeiros artigos foram:
-A Amostra na Regressão Linear;
-A Capacidade Explicativa do Modelo
Recordo que o Eng. Mário Pinho Miranda é coautor, juntamente com o Eng. Rui Camposinos, do mais completo manual sobre avaliação imobiliária existente em português:
"3 – A Significância do Modelo
Mário Pinho Miranda
Resumo
O objectivo deste artigo é mostrar como se analisa, sob diversos aspectos, a significância estatística de um modelo de regressão linear.
1. Análise da Significância Estatística do Modelo
O que se entende por «significância estatística» de um modelo de regressão linear? Sinteticamente pode dizer-se que é a verificação da existência de discrepâncias entre as hipóteses de partida e os resultados obtidos.
Uma dessas hipóteses é estabelecida pelo Avaliador logo no início da construção do modelo quando arbitra o nível de confiança exigido (por exemplo, quando se utiliza o EXCEL, por defeito, esta aplicação propõe o nível de 95%, podendo o utilizador atribuir outra qualquer).
Nos quadros de resultados da regressão há um conjunto de estatísticas aferidoras da existência das referidas discrepâncias que reportam, precisamente, ao nível de confiança. São eles o F de significância e os valores-p de cada um dos coeficientes da regressão.
2. O «valor-p» e o «F de significância»
Quer o «valor-p» quer o «F de significância» são estatísticas que permitem aferir da significância do modelo: o primeiro, dos coeficientes dos regressores e, o segundo, globalmente do modelo. Tanto um como o outro configuram um teste de hipóteses.
Para se entender o que se seguirá são cruciais algumas breves noções sobre o significado de um teste de hipóteses (Para um estudo mais profundo sobre esta matéria consultar
Suponha-se que se quer verificar qual a significância do coeficiente b_2 relativo ao atributo «Garagens» (Figura 1) sabendo-se que a regressão foi feita exigindo um nível de confiança de 95\%. Se $b_2=0$ obviamente que este atributo não teria qualquer significado para a regressão
Para se poder responder a estas perguntas estabelece-se uma hipótese, chamada hipótese nula, representada por H_0, em que se admite precisamente a anulação do coeficiente b_2 e uma hipótese alternativa, identificada como H_a, que corresponde a b_2 poder ser diferente de zero. Ou seja:
H_0 ∶ b_2=0 Hipótese nula
H_a ∶ b_2≠0 Hipótese alternativa
Na Figura 2 está representado o gráfico da função Densidade de Probabilidade da Distribuição t de Student para 7 graus de liberdade (o valor 7 é retirado da linha «Residual», coluna «gl» do quadro ANOVA da mesma figura). A soma das duas áreas sombreadas nas caudas é igual a 0,05≡5% (porque o nível de confiança exigido para a regressão foi de 95%) e têm abcissas t=-2,36 e t=2,36. Estes valores de t são os valores da variável t de Student que se podem obter recorrendo a tabelas estatísticas, a máquinas de cálculo avançadas ou ao EXCEL usando a função «INV.T.2C(1-95%;gl)» ou «T.INV.2T» nas versões em inglês do aplicativo.
Figura 2- Análise da Hipótese Nula
Este intervalo é um intervalo de confiança para a média de b_2=0 o que significa que temos 95% de certeza que b_2=0 – e, consequentemente, de não podermos rejeitar a hipótese nula H_0 – para todo o t∈ [-2,36;2,36]. Em contrapartida, se t∉ [-2,36;2,36] há 5% de certeza de b_2≠ 0 e temos razão para rejeitar a hipótese nula e admitir, consequentemente, a significância do coeficiente b_2.
Do último quadro da Figura 1 retira-se o valor t – designado por «Stat t» – relativo ao coeficiente b_2: t=0,6549 (este valor é o quociente entre os valores do coeficiente e o erro-padrão respectivos). Como este valor está no intervalo [-2,36;2,36] não devemos rejeitar a hipótese nula, logo, o coeficiente b_2 não tem significância estatística.
A forma de tornar prática esta conclusão, sem necessidade de calcular os valores de t que correspondem aos limites do intervalo de confiança, é recorrer ao «valor-p» do coeficiente. Da linha do coeficiente b_2 na coluna «valor P» tira-se que valor-p=0,5334. Pois bem, a soma das áreas das duas caudas tracejadas da Figura 3 é precisamente igual a este valor-p. Como esta área se sobrepõe às áreas tracejadas da Figura 2 não se pode rejeitar a hipótese nula. Então a regra a aplicar é:
Figura 3: O valor-p do coeficiente 𝑏2
− Se valor-p>1-NC o coeficiente não é estatisticamente significante e o atributo não deve ser considerado;
− Em caso contrário não se pode concluir a insignificância estatística do coeficiente e, portanto, o atributo pode ser considerado.
em que NC é o nível de confiança.
Um comentário ao facto de o termo independente ser ou não ser significante: não é grave a insignificância deste coeficiente. Se ele for igual a zero só significa que a recta passa pela origem.
Relativamente à estatística F de significância – coluna da direita do quadro ANOVA da Figura 1– a interpretação é semelhante. Não apresentarei aqui a justificação porque é mais extensa, mas pode ser consultada em [1]. Considerando uma vez mais NC como o nível de confiança exigido para o modelo, se esta estatística for superior a 1- NC, globalmente, o modelo não é estatisticamente significante. Caso contrário, pelo menos, um dos atributos tem significância estatística
3. Referências
[1] M. P. MIRANDA e R. S. CAMPOSINHOS, Avaliação Imobiliária, Porto: Edição dos Autores, 2022.
[2] J. V. LISBOA, M. G. AUGUSTO e P. L. FERREIRA , Estatística Aplicada à Gestão, Porto: Vida Económica, 2012.
[3] R. GUIMARÃES e J. CABRAL, Estatística, Lisboa: Verlag Dashofer, 2010.
[4] Rui C. Guimarães e José S. Cabral (2010) Estatística, 2ª edição, Lisboa: Verlag Dashofer” Porto: Vida Económica"
Sem comentários: