A Amostra na Regressão Linear

 

A espaços, eu tenho escrito sobre inferência estatística e, em boa verdade, sobre muitos outros assuntos de avaliação imobiliária, em diversas plataformas.


Nestes entretantos, eu tenho tido a felicidade de ter o Eng. Mário Pinho Miranda como leitor, que, amavelmente, comenta os meus artigos. Num desses comentários, surgiu-me a ideia de o desafiar a escrever sobre regressão linear, tendo aceitado.


O Eng. Mário Pinho Miranda, de entre todas as pessoas que conheci na minha atividade de perito avaliador de imóveis certificado, é a que tem conhecimentos mais sólidos sobre todas as matérias conexas com a avaliação imobiliária. É, definitivamente, uma Autoridade em tudo o que diz respeito a esta atividade.


E assim se inicia um ciclo de 9 artigos:


"1 – A Amostra na Regressão Linear

Mário Pinho Miranda

Resumo

Neste artigo expõem-se alguns dos cuidados a ter na construção da amostra que se vai utilizar na Regressão Linear.

 

1 Introdução

A regressão linear é uma ferramenta para modelar e explorar relações entre variáveis que estão relacionadas de maneira não determinística. As respostas da regressão linear, exactamente por as relações entre variáveis não serem determinísticas, também não o são. E, por isso mesmo, têm associadas estatísticas várias, tais como médias, erros-padrão, intervalos de confiança, intervalos de predição, etc.


A regressão linear é uma ferramenta poderosa, mas, para ser útil, deve ser aplicada criteriosamente. O maior problema da regressão linear é poder ser utilizada não tendo em atenção as suas limitações e sem respeitar as regras subjacentes à construção do modelo.


Um modelo de regressão é um modelo matemático que descreve a relação entre duas ou mais variáveis de tipo quantitativo. Se o estudo incidir unicamente sobre duas variáveis designa-se por regressão simples e incidindo sobre três ou mais variáveis toma o nome de regressão múltipla ou multivariada. Será linear quando as relações forem do tipo linear. As regressões não lineares são tratadas após a sua linearização e, por isso, faz sentido falar-se somente em regressão linear.


Assim, se o avaliador considera que determinada grandeza — preço, preço reduzido, renda, renda reduzida, etc. — é uma função desconhecida de um conjunto de atributos — área, localização, número de espaços anexos, exposição solar, etc. — pode recorrer ao modelo de regressão para encontrar uma expressão linear que reproduz aproximadamente a função desconhecida. Ou seja, sendo 𝑦 a variável representativa da grandeza e 𝑥1, 𝑥2, · · · , 𝑥𝑛 as variáveis representativas dos atributos, o avaliador procura uma aproximação da função desconhecida 𝑦 = 𝑓 (𝑥1, 𝑥2, · · · , 𝑥𝑛):


ˆ𝑦 = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + · · · + 𝑛𝑛 𝑥𝑛


onde ˆ𝑦 representa um valor aproximado de 𝑦.


Esta expressão representa uma recta na regressão simples, um plano na regressão com dois atributos e um hiper-plano nas restantes e os valores dos coeficientes 𝑏𝑖 são aqueles que minimizam o somatório dos quadrados dos desvios entre valores observados e valores estimados [1, 3, 4] .


À variável dependente 𝑦 dá-se o nome de variável explicada e os atributos que são as variáveis independentes, chamam-se variáveis explicativas ou regressores.


2 A Amostra

O primeiro passo na construção de um modelo de regressão é a recolha de uma amostra da qual se possa extrair a informação procurada. Para cada um dos elementos dessa amostra é recolhida a informação sobre os atributos formadores do valor que o avaliador julga pertinentes para os objectivos que persegue.


Os atributos podem ter forma numérica (por exemplo, a área bruta privativa, o número de espaços anexos, etc.) ou ter expressão qualitativa (por exemplo, ≪Muito bom≫, ≪Bom≫, ≪Regular≫). Para serem utilizados na regressão, todos os atributos têm de apresentar expressão numérica. A quantificação numérica dos atributos com expressão qualitativa não é objecto deste artigo e será apresentada em artigo posterior.


2.1 A Dimensão da Amostra (𝑛)

A dimensão da amostra tem grande impacto nos resultados obtidos. Por um lado, ela não deve ser pequena para evitar o “overfitting” nem ser excessivamente grande que atributos desprezáveis se constituam regressores com capacidade explicativa.


O “overfitting”é o ajuste forçado. Por exemplo, usar um polinómio do 3◦ grau dispondo de uma amostra com 4 elementos é forçar o ajustamento porque tal polinómio é univocamente definido exactamente por 4 parâmetros. A consequência é que os resultados da aplicação do modelo a variáveis de teste normalmente são maus.


Por outro lado, aumentando muito a amostra corre-se o risco de se lhe acrescentar elementos muito divergentes do universo em análise e, por pouco que seja, aumentar sempre o valor do coeficiente de determinação (𝑅2).


É comum fixar-se como limite mínimo da dimensão da amostra:


𝑛 ≥ 4 · (𝑘 + 1)


onde 𝑘 é o número de regressores da regressão.

 

2.2 Selecção da Amostra

O facto da dimensão da amostra ser considerado ideal não significa que ela seja adequada porque a selecção dos seus elementos não deve introduzir enviesamentos.


Dito de outro modo, a amostra deve ser aleatoriamente seleccionada.


Existem várias técnicas de amostragem a que se pode recorrer para se obter uma amostra aleatória. A sua abordagem faria estender demasiado este artigo pelo que não falarei delas. Além disso, reconheça-se, é normalmente difícil dispor-se de tantos exemplares quantos os necessários para recorrer a esses métodos de amostragem.


No entanto, tal não significa que não se tenham alguns cuidados especiais na composição das amostras para evitar os enviesamentos.


Assim, a amostra deve ter todos os seus atributos bem distribuídos e deixar as características do activo objecto da avaliação no centroide das características da amostra. Por exemplo, se o avaliando tiver uma área de 120 m2 e tiver uma localização considerada ≪Boa≫ os componentes da amostra devem ter áreas distribuídas em torno desse valor considerado sensivelmente como valor mediano e número semelhante de localizações ≪Razoável≫, ≪Boa≫ e ≪Muito boa≫. Outra situação: deve ser evitada a concentração na amostra de elementos, por exemplo, de uma mesma urbanização e, por maioria de razão, de elementos dum mesmo prédio! Tais concentrações introduzem sempre um viés.


Esta questão da distribuição da amostra está relacionada com uma posição imperativa: ≪a regressão linear não justifica extrapolações≫.


Na figura evidencia-se o erro que se pode cometer com a extrapolação de valores.


Suponha-se que o universo dos apartamentos em determinado local é representado pelos pontos a cinza e a verde claro o gráfico. O preço nesse universo que se supõe caracterizado exclusivamente pela área de cada apartamento mostra existir uma relação entre o preço e a área graficamente representada pela curva a tracejado.


João Fonseca | Perito Avaliador de Imóveis

 Figura 1: Erro cometido com a extrapolação de valores


Um avaliador foi encarregado de avaliar um apartamento com 200 m2 tendo recolhido a amostra composta por todos os apartamentos com área não superior a 140 𝑚2, representados a verde e cpontos de maiores dimensões.


A recta de regressão a traço continuo preto na figura fê-lo concluir que o valor do apartamento com 200 m2 era 458 000 €. Todavia o valor real deveria ser o que se encontra sobre a linha tracejada igual a 430 000 €. Este erro é uma consequência da extrapolação. Note-se que ele é independente de 𝑅2 que tem um valor elevadíssimo!


A regressão linear capta de forma aproximada o comportamento das variáveis dentro dos domínios conhecidos. Fora deles nada se sabe e consequentemente é errado extrapolar valores.


2.3 Analise da Coerência do Modelo

Não quero terminar sem referir à análise que deve ser sempre feita ao modelo construído. Refiro-me à verificação dos valores dos regressores comparando-os com as expectativas do Avaliador.


Por exemplo, todos sabemos que os preços reduzidos, tendencialmente, decrescem com as áreas. Isto implica que, por norma, numa regressão dos preços reduzidos sobre as áreas, o coeficiente deste atributo deverá ser negativo.


Outra situação é classificar-se uma dada localização como ≪Muito boa≫ e o valor do respectivo regressor ser inferior ao da localização ≪Boa≫.


Estas situações e todas aquelas que contrariem as nossas expectativas devem ser analisadas em pormenor para investigar a existência de qualquer erro na construção da amostra.


Referências

[1] Mário P. Miranda e Rui S. Camposinhos (2022) Avaliação Imobiliária, Porto: Edição dos Autores

[2] Radegaz Nasser, Jr (2013) Avaliação de Bens – Princípios Básicos e Aplicações, São Paulo: Livraria e Editora Universitária de Direito

[3] J.V.Lisboa, M.Gomes, P.Ferreira (2012) Estatística Aplicada `a Gestão, Porto: Vida Económica

[4] Rui C. Guimarães e José S. Cabral (2010) Estatística, 2ª edição, Lisboa: Verlag Dashofer"

Sem comentários:

Com tecnologia do Blogger.