A Amostra na Regressão Linear
A espaços, eu tenho escrito sobre inferência estatística e, em boa verdade,
sobre muitos outros assuntos de avaliação imobiliária, em diversas plataformas.
Nestes entretantos, eu tenho tido a felicidade de ter o Eng. Mário
Pinho Miranda como leitor, que, amavelmente, comenta os meus artigos. Num desses comentários, surgiu-me a ideia de o desafiar a escrever
sobre regressão linear, tendo aceitado.
O Eng. Mário Pinho Miranda, de entre todas as pessoas que conheci na minha
atividade de perito avaliador de imóveis
certificado, é a que tem conhecimentos mais sólidos sobre todas as
matérias conexas com a avaliação imobiliária. É, definitivamente, uma Autoridade em tudo o que diz respeito a esta atividade.
E assim se inicia um ciclo de 9 artigos:
"1 – A Amostra na Regressão Linear
Mário Pinho
Miranda
Resumo
Neste artigo expõem-se alguns dos cuidados a ter na construção da amostra que se vai utilizar na Regressão Linear.
1 Introdução
A regressão linear é uma ferramenta para modelar e
explorar relações entre variáveis que estão relacionadas de maneira não determinística.
As respostas da regressão linear, exactamente por as relações entre variáveis não
serem determinísticas, também não o são. E, por isso mesmo, têm associadas estatísticas
várias, tais como médias, erros-padrão, intervalos de confiança, intervalos de predição,
etc.
A regressão linear é uma ferramenta poderosa, mas, para
ser útil, deve ser aplicada criteriosamente. O maior problema da regressão
linear é poder ser utilizada não tendo em atenção as suas limitações e sem
respeitar as regras subjacentes à construção do modelo.
Um modelo de regressão é um modelo matemático que
descreve a relação entre duas ou mais variáveis de tipo quantitativo. Se o
estudo incidir unicamente sobre duas variáveis designa-se por regressão
simples e incidindo sobre três ou mais variáveis toma o nome de regressão
múltipla ou multivariada. Será linear quando as relações forem do
tipo linear. As regressões não lineares são tratadas após a sua linearização e,
por isso, faz sentido falar-se somente em regressão linear.
Assim, se o avaliador considera que determinada grandeza
— preço, preço reduzido, renda, renda reduzida, etc. — é uma função
desconhecida de um conjunto de atributos — área, localização, número de espaços
anexos, exposição solar, etc. — pode recorrer ao modelo de regressão para
encontrar uma expressão linear que reproduz aproximadamente a função
desconhecida. Ou seja, sendo 𝑦 a variável representativa da
grandeza e 𝑥1, 𝑥2, · · · , 𝑥𝑛 as variáveis
representativas dos atributos, o avaliador procura uma aproximação da função desconhecida
𝑦 = 𝑓 (𝑥1, 𝑥2, · · · , 𝑥𝑛):
ˆ𝑦 = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + · · · + 𝑛𝑛 𝑥𝑛
onde ˆ𝑦 representa um valor aproximado
de 𝑦.
Esta expressão representa uma recta na regressão simples,
um plano na regressão com dois atributos e um hiper-plano nas restantes e os
valores dos coeficientes 𝑏𝑖 são aqueles
que minimizam o somatório dos quadrados dos desvios entre valores observados e
valores estimados [1, 3, 4] .
À variável dependente 𝑦 dá-se o nome
de variável explicada e os atributos que são as variáveis independentes,
chamam-se variáveis explicativas ou regressores.
2 A Amostra
O primeiro passo na construção de um modelo de regressão é
a recolha de uma amostra da qual se possa extrair a informação procurada. Para
cada um dos elementos dessa amostra é recolhida a informação sobre os atributos
formadores do valor que o avaliador julga pertinentes para os objectivos que
persegue.
Os atributos podem ter forma numérica (por
exemplo, a área bruta privativa, o número de espaços anexos, etc.) ou ter
expressão qualitativa (por exemplo, ≪Muito bom≫, ≪Bom≫, ≪Regular≫). Para serem utilizados na regressão, todos os atributos
têm de apresentar expressão numérica. A quantificação numérica dos atributos
com expressão qualitativa não é objecto deste artigo e será apresentada em
artigo posterior.
2.1 A Dimensão da Amostra (𝑛)
A dimensão da amostra tem grande impacto nos resultados
obtidos. Por um lado, ela não deve ser pequena para evitar o “overfitting” nem
ser excessivamente grande que atributos desprezáveis se constituam regressores
com capacidade explicativa.
O “overfitting”é o ajuste forçado. Por exemplo, usar um polinómio
do 3◦ grau dispondo de uma amostra com 4 elementos é forçar o ajustamento
porque tal polinómio é univocamente definido exactamente por 4 parâmetros. A consequência
é que os resultados da aplicação do modelo a variáveis de teste normalmente são
maus.
Por outro lado, aumentando muito a amostra corre-se o
risco de se lhe acrescentar elementos muito divergentes do universo em análise
e, por pouco que seja, aumentar sempre o valor do coeficiente de determinação (𝑅2).
É comum fixar-se como limite mínimo da dimensão da
amostra:
𝑛 ≥ 4 · (𝑘 + 1)
onde 𝑘 é o número de
regressores da regressão.
2.2 Selecção da Amostra
O facto da dimensão da amostra ser considerado ideal não
significa que ela seja adequada porque a selecção dos seus elementos não deve
introduzir enviesamentos.
Dito de outro modo, a amostra deve ser aleatoriamente
seleccionada.
Existem várias técnicas de amostragem a que se pode
recorrer para se obter uma amostra aleatória. A sua abordagem faria estender
demasiado este artigo pelo que não falarei delas. Além disso, reconheça-se, é
normalmente difícil dispor-se de tantos exemplares quantos os necessários para
recorrer a esses métodos de amostragem.
No entanto, tal não significa que não se tenham alguns
cuidados especiais na composição das amostras para evitar os enviesamentos.
Assim, a amostra deve ter todos os seus atributos bem distribuídos
e deixar as características do activo objecto da avaliação no centroide das características
da amostra. Por exemplo, se o avaliando tiver uma área de 120 m2 e tiver uma localização
considerada ≪Boa≫ os
componentes da amostra devem ter áreas distribuídas em torno desse valor
considerado sensivelmente como valor mediano e número semelhante de localizações
≪Razoável≫, ≪Boa≫ e ≪Muito boa≫. Outra situação:
deve ser evitada a concentração na amostra de elementos, por exemplo, de uma
mesma urbanização e, por maioria de razão, de elementos dum mesmo prédio! Tais concentrações
introduzem sempre um viés.
Esta questão da distribuição da amostra está relacionada
com uma posição imperativa: ≪a regressão
linear não justifica extrapolações≫.
Na figura evidencia-se o erro que se pode cometer com a extrapolação
de valores.
Suponha-se que o universo dos apartamentos em determinado
local é representado pelos pontos a cinza e a verde claro o gráfico. O preço
nesse universo que se supõe caracterizado exclusivamente pela área de cada
apartamento mostra existir uma relação entre o preço e a área graficamente
representada pela curva a tracejado.
Um avaliador foi encarregado de avaliar um apartamento
com 200 m2 tendo recolhido a amostra composta por todos os apartamentos com área
não superior a 140 𝑚2, representados a verde e
cpontos de maiores dimensões.
A recta de regressão a traço continuo preto na figura fê-lo
concluir que o valor do apartamento com 200 m2 era 458 000 €. Todavia o valor
real deveria ser o que se encontra sobre a linha tracejada igual a 430 000 €.
Este erro é uma consequência da extrapolação. Note-se que ele é independente de
𝑅2 que tem um valor elevadíssimo!
A regressão linear capta de forma aproximada o
comportamento das variáveis dentro dos domínios conhecidos. Fora deles nada
se sabe e consequentemente é errado extrapolar valores.
2.3 Analise da Coerência do Modelo
Não quero terminar sem referir à análise que deve ser
sempre feita ao modelo construído. Refiro-me à verificação dos valores dos
regressores comparando-os com as expectativas do Avaliador.
Por exemplo, todos sabemos que os preços reduzidos,
tendencialmente, decrescem com as áreas. Isto implica que, por norma, numa regressão
dos preços reduzidos sobre as áreas, o coeficiente deste atributo deverá ser
negativo.
Outra situação é classificar-se uma dada localização como
≪Muito boa≫ e o valor do
respectivo regressor ser inferior ao da localização ≪Boa≫.
Estas situações e todas aquelas que contrariem as nossas
expectativas devem ser analisadas em pormenor para investigar a existência de
qualquer erro na construção da amostra.
Referências
[1] Mário P. Miranda e Rui S. Camposinhos (2022) Avaliação
Imobiliária, Porto: Edição dos Autores
[2] Radegaz Nasser, Jr (2013) Avaliação de Bens – Princípios
Básicos e Aplicações, São Paulo: Livraria e Editora Universitária de Direito
[3] J.V.Lisboa, M.Gomes, P.Ferreira (2012) Estatística Aplicada
`a Gestão, Porto: Vida Económica
[4] Rui C. Guimarães e José S. Cabral (2010) Estatística,
2ª edição, Lisboa: Verlag Dashofer"
Sem comentários: