Análise de Resíduos na avaliação de um modelo de regressão linear

Apresentamos o quarto de nove artigos gentilmente disponibilizados pelo Eng. Mário Pinho Miranda, que versam uma temática muito importante para a abordagem de mercado, a inferência estatística. A literatura disponível para o perito avaliador de imóveis certificado sobre a inferência estatística aplicada à avaliação imobiliária é escassa.


Os dois primeiros artigos foram:


-A Amostra na Regressão Linear;

-A Capacidade Explicativa do Modelo

-A Significância Estatística de um Modelo de Regressão Linear


Recordo que o Eng. Mário Pinho Miranda é coautor, juntamente com o Eng. Rui Camposinos, do mais completo manual sobre avaliação imobiliária existente em português:


"4 – Análise de Resíduos

 

Mário Pinho Miranda

 

Resumo

O objectivo deste artigo é mostrar em que consiste a análise de resíduos, apresentar as razões que a tornam indispensável na avaliação de um modelo de regressão linear e mostrar como pode ser realizada.

 

 

1. Introdução

A aplicação da regressão linear exige como pressupostos:

1.       A média dos resíduos deve ser igual a zero;

2.       Os resíduos devem ter distribuição normal;

3.       As variáveis explicativas devem ser independentes;

4.       A variância dos resíduos deve ser constante;

5.       Não deve existir autocorrelação.


2. Análise de Resíduos

Seguidamente vamos ver como se verificam estes pressupostos. Habitualmente a média dos resíduos é nula ou muito próxima disso, não necessitando de cuidados especiais.


2.1. Normalidade dos Resíduos



A verificação analítica faz-se comparando as percentagens de ocorrências dos valores observados padronizados com as percentagens equivalentes de uma distribuição normal entre valores características das variáveis padronizadas. Por exemplo, designando por o desvio padrão na regressão cujos resíduos padronizados deram origem à Figura 1, comparam-se os valores «Observado» comparam com os valores «Normal» em 3 intervalos distintos (Tabela 1).


Tabela 1 - Valores Normais e Valores Observados

Intervalo

Normal

Observado

[-s;s]

68%

81%

[-1,64 s;1,64 s]

90%

93%

[-1,96 s;1,96 s]

95%

96%


Os valores desta Tabela confirmam a concentração de observações junto de zero. Manifestamente que o modelo representado não respeita muito bem a normalidade dos resíduos. Todavia, principalmente em amostras pequenas, como é o caso da presente a qual conta com 27 comparáveis, é frequente a dificuldade em conseguir melhores resultados neste teste.


2.2. Multicolinearidade

Uma das hipóteses de base do modelo estabelece que não deve existir relação linear exacta ou aproximada entre quaisquer dos atributos. Quando duas variáveis explicativas são muito correlacionadas depara-se o problema da colinearidade; quando são mais do que duas variáveis, diz-se que ocorre a multicolinearidade. A violação desta hipótese implica a impossibilidade de isolar os efeitos de cada uma das variáveis explicativas sobre a explicada. Por exemplo, se x2 for uma função de x1 cada mudança de x1 será acompanhada por uma mudança em x2 tornando difícil ou mesmo impossível separar as variações ocorridas na variável explicada causada pelas alterações em x1 daquelas devido à influência de x2.


As consequências da multicolinearidade em uma regressão são a de erros-padrão elevados no caso de multicolinearidade moderada ou severa e a impossibilidade de qualquer estimação se a multicolinearidade for perfeita.


Alguns sintomas da presença da multicolinearidade são [1]:

1. Valor elevado de R2 e nenhum dos coeficientes dos regressores ser estatisticamente significativo;

2.    Sinais algébricos dos coeficientes dos regressores contrários aos expectáveis;

3. Alterações significativas dos coeficientes, ou dos seus sinais, quando se acrescenta ou elimina uma das varáveis explicativas;

4. Correlação entre variáveis explicativas elevada. Admite-se que a correlação é relevante quando |Rij |≥0,8. 


Um teste formal para medir a multicolinearidade é o Factor Inflacionário da Variância (FIV) aplicado a cada uma das variáveis explicativas. Neste teste calcula-se o FIV para cada variável explicativa, j, pela fórmula:


onde Rj^2 representa o coeficiente de determinação de um modelo de regressão que utiliza a variável explicativa Xj como variável explicada e todas as restantes variáveis explicativas (e só essas) como variáveis independentes.


Os resultados do teste são:

FIVj=1→Xj não está correlacionada com qualquer uma das restantes variáveis explicativas;

FIVj>1→Xj está correlacionado com alguma ou algumas das restantes variáveis explicativas.


O limite do FIV a partir do qual deve ser considerada a multicolinearidade não é consensual. Por exemplo [2] considera que só para valores de FIV > 5 ela deve ser considerada.


Refira-se que a multicolinearidade não afecta a capacidade preditiva do modelo se este for interpretado como uma «caixa negra» [2] e não houver preocupação com a sua significância.


A eliminação da multicolinearidade pode ser feita, por exemplo, por uma das seguintes formas [1]:

1.  Expurgar do modelo a variável correlacionada, com o inconveniente de podermos estar a eliminar uma variável relevante;

2.  Efectuar transformações ou agregações de variáveis. Por exemplo, substituir duas variáveis correlacionadas por uma combinação linear delas.


2.3. Homocedasticidade

A verificação da constância da variância dos resíduos (ou homocedasticidade) é importante porque a heterocedasticidade (resíduos de variância não constante) origina que a minimização do somatório dos quadrados dos resíduos (b) não gera respostas de variância mínima. Daqui resulta que as previsões para um dado valor das variáveis explicativas terão grande variância e não serão eficientes porque provocam erros muito grandes nos valores previstos. Note-se que, nessas situações, os testes de que já falámos anteriormente, quer do «valor-p» dos coeficientes dos regressores quer do «F de significância» do modelo, não são confiáveis porque essas variâncias entram no seu cálculo.


Tenha-se em atenção que a heterocedasticidade é frequente nos mercados imobiliários. É comum que nestes mercados haja variações dos preços em torno do seu valor médio na ordem dos 10 a 15%. Considerem-se, por exemplo, dois segmentos de mercado numa mesma zona: um composto por apartamentos com  ±100 m2 e outro em que os apartamentos têm uma área de ±200 m2. Se o preço médio de venda nesse local for igual a 2 500 €/m2 pode dizer-se que os preços de venda do primeiro segmento têm oscilações de ±12 500 € enquanto os do segundo têm oscilações iguais a ±25 000 €, em relação às respectivas médias. As variâncias dos dois segmentos são, portanto, completamente diferentes e um modelo construído com componentes retirados desses dois segmentos seria heterocedástico. Daqui compreender-se que os elementos recolhidos para as amostras não devem ter características tão díspares que possam conduzir à sua heterocedasticidade.


A detecção da heterocedasticidade pode ser feita pela análise dos resíduos. A Figura 2 e a Figura 3 apresentam os gráficos que relacionam os valores previstos por dois modelos de regressão com os respectivos resíduos padronizados. Como se disse, o comportamento homocedástico manifesta-se pela constância das variâncias dos resíduos o que se traduz por gráficos de resíduos profundamente aleatórios. Pelo contrário, o comportamento heterocedástico é indiciado por gráficos de resíduos que denotam comportamentos não aleatórios mostrando comportamentos sistemáticos.


Assim, é notório que o gráfico da Figura 2 corresponde a um modelo heterocedástico: é visível que os resíduos são tendencialmente positivos para preços reduzidos entre 3 990 e 4 010 €/m2 e negativos para valores dos preços reduzidos superiores a 4 010 €/m2.


Por sua vez, o gráfico da Figura 3 é aceitavelmente aleatório para toda a gama dos preços reduzidos podendo, por isso, considerar-se que o modelo que lhe deu origem é homocedástico.


2.4. Autocorrelação

O fenómeno da autocorrelação é típico das séries temporais pelo que não é comum na avaliação imobiliária aonde não se utilizam normalmente estas séries.


Figura 2 - Modelo heterocedástico

Figura 3 - Modelo homocedástico


3. Referências

[1]

M. P. MIRANDA e R. S. CAMPOSINHOS, Avaliação Imobiliária, Porto: Edição dos Autores, 2022.

[2]

J. V. LISBOA, M. G. AUGUSTO e P. L. FERREIRA , Estatística Aplicada à Gestão, Porto: Vida Económica, 2012.

 

_____________________

Observações:

(a) Sejam yi  e y ̂_i  , respectivamente, o valor observado e o valor estimado pelo modelo do componente i da amostra. Designe-se o resíduo de ordem i:r_i=y_i-y ̂_i. Seja μ≅0  a média dos resíduos r_i e  o ε da regressão. O resíduo padronizado r ̅_i é dado pela expressão: r ̅_i=r_i⁄ε.

(b) Relembre-se que é precisamente a minimização do somatório do quadrado dos resíduos que define os coeficientes b_0⋯b_n da regressão.

_____________________

 


Sem comentários:

Com tecnologia do Blogger.