Análise de Resíduos na avaliação de um modelo de regressão linear
Apresentamos o quarto de nove artigos gentilmente disponibilizados pelo Eng. Mário Pinho Miranda, que versam uma temática muito importante para a abordagem de mercado, a inferência estatística. A literatura disponível para o perito avaliador de imóveis certificado sobre a inferência estatística aplicada à avaliação imobiliária é escassa.
Os dois primeiros artigos foram:
-A Amostra na Regressão Linear;
-A Capacidade Explicativa do Modelo
-A Significância Estatística de um Modelo de Regressão Linear
Recordo que o Eng. Mário Pinho Miranda é coautor, juntamente com o Eng. Rui Camposinos, do mais completo manual sobre avaliação imobiliária existente em português:
"4 – Análise de Resíduos
Mário Pinho Miranda
Resumo
O objectivo deste artigo é mostrar em que consiste a análise
de resíduos, apresentar as razões que a tornam indispensável na avaliação de um
modelo de regressão linear e mostrar como pode ser realizada.
1. Introdução
A aplicação da regressão linear exige como pressupostos:
1.
A média dos resíduos deve ser igual a zero;
2.
Os resíduos devem ter distribuição normal;
3.
As variáveis explicativas devem ser
independentes;
4.
A variância dos resíduos deve ser constante;
5.
Não deve existir autocorrelação.
2. Análise de Resíduos
Seguidamente vamos ver como se verificam estes pressupostos. Habitualmente
a média dos resíduos é nula ou muito próxima disso, não necessitando de
cuidados especiais.
2.1. Normalidade dos Resíduos
A verificação analítica faz-se comparando as percentagens de ocorrências dos valores observados padronizados com as percentagens equivalentes de uma distribuição normal entre valores características das variáveis padronizadas. Por exemplo, designando por s o desvio padrão na regressão cujos resíduos padronizados deram origem à Figura 1, comparam-se os valores «Observado» comparam com os valores «Normal» em 3 intervalos distintos (Tabela 1).
Tabela
1 - Valores Normais e Valores
Observados
Intervalo |
Normal |
Observado |
[-s;s] |
68% |
81% |
[-1,64 s;1,64 s] |
90% |
93% |
[-1,96 s;1,96 s] |
95% |
96% |
Os valores desta Tabela confirmam a concentração de
observações junto de zero. Manifestamente que o modelo representado não
respeita muito bem a normalidade dos resíduos. Todavia, principalmente em amostras
pequenas, como é o caso da presente a qual conta com 27 comparáveis, é
frequente a dificuldade em conseguir melhores resultados neste teste.
2.2. Multicolinearidade
Uma das hipóteses de base do modelo estabelece que não deve
existir relação linear exacta ou aproximada entre quaisquer dos atributos.
Quando duas variáveis explicativas são muito correlacionadas depara-se o
problema da colinearidade; quando são mais do que duas variáveis, diz-se
que ocorre a multicolinearidade. A violação desta hipótese implica a
impossibilidade de isolar os efeitos de cada uma das variáveis explicativas
sobre a explicada. Por exemplo, se x2 for uma função de x1 cada mudança de x1 será acompanhada por uma mudança em x2 tornando difícil ou mesmo impossível
separar as variações ocorridas na variável explicada causada pelas alterações
em x1 daquelas devido à influência de x2.
As consequências da multicolinearidade em uma regressão são
a de erros-padrão elevados no caso de multicolinearidade moderada ou
severa e a impossibilidade de qualquer estimação se a multicolinearidade for
perfeita.
Alguns sintomas da presença da multicolinearidade são
1. Valor elevado de R2 e nenhum dos
coeficientes dos regressores ser estatisticamente significativo;
2.
Sinais algébricos dos coeficientes dos
regressores contrários aos expectáveis;
3. Alterações significativas dos coeficientes, ou
dos seus sinais, quando se acrescenta ou elimina uma das varáveis explicativas;
4. Correlação entre variáveis explicativas elevada. Admite-se que a correlação é relevante quando |Rij |≥0,8.
Um teste formal para medir a multicolinearidade é o Factor
Inflacionário da Variância (FIV) aplicado a cada uma das variáveis
explicativas. Neste teste calcula-se o FIV para cada variável explicativa, j, pela fórmula:
onde Rj^2 representa o coeficiente de determinação de um modelo de regressão que utiliza a variável explicativa Xj como variável explicada e todas as restantes variáveis explicativas (e só essas) como variáveis independentes.
Os resultados do teste são:
−FIVj=1→Xj não está correlacionada com qualquer uma das restantes variáveis explicativas;
−FIVj>1→Xj está correlacionado com alguma ou algumas das restantes variáveis explicativas.
O limite do FIV a partir do qual deve ser considerada a
multicolinearidade não é consensual. Por exemplo
Refira-se que a multicolinearidade não afecta a capacidade
preditiva do modelo se este for interpretado como uma «caixa negra»
A eliminação da multicolinearidade pode ser feita, por
exemplo, por uma das seguintes formas
1. Expurgar do modelo a variável correlacionada,
com o inconveniente de podermos estar a eliminar uma variável relevante;
2. Efectuar transformações ou agregações de
variáveis. Por exemplo, substituir duas variáveis correlacionadas por uma
combinação linear delas.
2.3. Homocedasticidade
A verificação da constância da variância dos resíduos (ou homocedasticidade)
é importante porque a heterocedasticidade (resíduos de variância não
constante) origina que a minimização do somatório dos quadrados dos resíduos (b)
não gera respostas de variância mínima. Daqui resulta que as previsões
para um dado valor das variáveis explicativas terão grande variância e não
serão eficientes porque provocam erros muito grandes nos valores previstos.
Note-se que, nessas situações, os testes de que já falámos anteriormente, quer
do «valor-p» dos coeficientes dos regressores quer do «F de significância» do
modelo, não são confiáveis porque essas variâncias entram no seu cálculo.
Tenha-se em atenção que a heterocedasticidade é
frequente nos mercados imobiliários. É comum que nestes mercados haja variações
dos preços em torno do seu valor médio na ordem dos 10 a 15%. Considerem-se,
por exemplo, dois segmentos de mercado numa mesma zona: um composto por
apartamentos com ±100 m2 e outro em que os apartamentos têm uma
área de ±200
m2. Se o preço médio de venda nesse local for igual a 2 500 €/m2 pode
dizer-se que os preços de venda do primeiro segmento têm oscilações de ±12 500 €
enquanto os do segundo têm oscilações iguais a ±25 000 €, em
relação às respectivas médias. As variâncias dos dois segmentos são, portanto,
completamente diferentes e um modelo construído com componentes retirados
desses dois segmentos seria heterocedástico. Daqui compreender-se que os
elementos recolhidos para as amostras não devem ter características tão
díspares que possam conduzir à sua heterocedasticidade.
A detecção da heterocedasticidade pode ser feita pela
análise dos resíduos. A Figura 2
e a Figura 3
apresentam os gráficos que relacionam os valores previstos por dois modelos de
regressão com os respectivos resíduos padronizados. Como se disse, o
comportamento homocedástico manifesta-se pela constância das variâncias
dos resíduos o que se traduz por gráficos de resíduos profundamente
aleatórios. Pelo contrário, o comportamento heterocedástico é
indiciado por gráficos de resíduos que denotam comportamentos não aleatórios
mostrando comportamentos sistemáticos.
Assim, é notório que o gráfico da Figura 2
corresponde a um modelo heterocedástico: é visível que os resíduos são
tendencialmente positivos para preços reduzidos entre 3 990 e 4 010 €/m2
e negativos para valores dos preços reduzidos superiores a
4 010 €/m2.
Por sua vez, o gráfico da Figura 3
é aceitavelmente aleatório para toda a gama dos preços reduzidos podendo, por
isso, considerar-se que o modelo que lhe deu origem é homocedástico.
2.4. Autocorrelação
O fenómeno da autocorrelação é típico das séries
temporais pelo que não é comum na avaliação imobiliária aonde não se utilizam
normalmente estas séries.
3. Referências
[1] |
M. P. MIRANDA e R. S.
CAMPOSINHOS, Avaliação Imobiliária, Porto: Edição dos Autores, 2022. |
[2] |
J. V. LISBOA, M. G. AUGUSTO
e P. L. FERREIRA , Estatística Aplicada à Gestão, Porto: Vida Económica,
2012. |
_____________________
Observações:
(a) Sejam yi e y ̂_i , respectivamente, o valor observado e o valor estimado pelo modelo do componente i da amostra. Designe-se o resíduo de ordem i:r_i=y_i-y ̂_i. Seja μ≅0 a média dos resíduos r_i e o ε da regressão. O resíduo padronizado r ̅_i é dado pela expressão: r ̅_i=r_i⁄ε.
(b) Relembre-se que é precisamente a minimização do
somatório do quadrado dos resíduos que define os coeficientes b_0⋯b_n da regressão.
_____________________
Sem comentários: