Variáveis Qualitativas na avaliação de imóveis
Apresentamos o quarto de nove artigos gentilmente disponibilizados pelo Eng. Mário Pinho Miranda, que versam uma temática muito importante para a abordagem de mercado, a inferência estatística. A literatura disponível para o perito avaliador de imóveis certificado sobre a inferência estatística aplicada à avaliação imobiliária é escassa.
Os quatro primeiros artigos foram:
-A Amostra na Regressão Linear;
-A Capacidade Explicativa do Modelo
-A Significância Estatística de um Modelo de Regressão Linear
-Análise de Resíduos na avaliação de um modelo de regressão linear
Recordo que o Eng. Mário Pinho Miranda é coautor, juntamente com o Eng. Rui Camposinos, do mais completo manual sobre avaliação imobiliária existente em português:
"5 – Variáveis Qualitativas
Mário Pinho Miranda
Resumo
Este artigo tem por objectivo apresentar diversas alternativas para a incorporação de atributos qualitativos na regressão linear.
-
Introdução
Como se disse no primeiro artigo desta série, com o título «A Amostra na Regressão Linear», todos os atributos a serem utilizados como regressores têm de ter expressão numérica.
No presente artigo far-se-á referência às diferentes formas de se encarar a quantificação das varáveis qualitativas.
Uma variável qualitativa pode assumir um conjunto finito de valores com expressão não numérica. Ao número de valores diferentes que ela assume dá-se o nome de graus de liberdade (GdL) dessa variável. Por exemplo, se para uma determinada localização o Avaliador considera as possibilidades «Muito boa», «Boa» e «Razoável», diz-se que a variável associada à localização tem 3 graus de liberdade.
-
Variáveis Dicotómicas
A forma mais comum de quantificar atributos qualitativos é recorrer a variáveis dicotómicas. Estas, são variáveis que, como o nome indica, só podem assumir 2 valores. Habitualmente usam––se os valores 0 e 1, embora fosse possível utilizar quaisquer outros pares de valores.
Suponha-se, na avaliação de um espaço comercial, a variável qualitativa «Licença de Utilização» e a possibilidade de esta permitir ou não a utilização do espaço para restauração. As possibilidades da licença de utilização em relação a esta questão são: «Ter autorização» e «Não ter autorização». Uma variável dicotómica seria suficiente. A codificação variável seria, por exemplo:
Licença para Restauração |
Variável dicotómica (R) |
Sem licença |
0 |
Com licença |
1 |
Note-se que se poderiam trocar os valores entre ter e não ter licença; o resultado seria manifestamente o mesmo.
Considere-se agora o exemplo de uma variável para caracterizar uma localização com 3 graus de liberdade: «Muito boa», «Boa» e «Razoável». Uma só variável dicotómica seria insuficiente; serão precisas duas, L1 e L2. Por exemplo:
Localização |
L1 |
L2 |
Muito boa |
1 |
0 |
Boa |
0 |
1 |
Razoável |
0 |
0 |
Suponha-se agora que a localização tem 4 graus de liberdade: «Muito boa», «Boa», «Razoável» e «Má» Poder-se-ia pensar que não há necessidade de uma nova variável. Bastava fazer uso das posições L1=1 e L2=1:
Localização |
L1 |
L2 |
Muito boa |
1 |
0 |
Boa |
0 |
1 |
Razoável |
0 |
0 |
Má |
1 |
1 |
Todavia, esta ideia está errada. Repare-se que o que se está a dizer é que a localização «Má» é uma combinação linear das restantes.
Pode estabelecer-se a seguinte regra:
Cada uma das variáveis dicotómicas só pode atribuir o valor «1» a um dos graus de liberdade; todos os restantes terão o valor «0»;
Portanto, no nosso exemplo, seria necessário acrescentar uma 3ª variável dicotómica:
Localização |
L1 |
L2 |
L3 |
Muito boa |
1 |
0 |
0 |
Boa |
0 |
1 |
0 |
Razoável |
0 |
0 |
1 |
Má |
0 |
0 |
0 |
A regra para a contabilização do nº de variáveis dicotómicas necessárias é a seguinte:
Sendo o número de graus de liberdade de uma variável qualitativa, são necessárias variáveis dicotómicas dadas pela expressão: .
Um exemplo retirado de [1] sobre variáveis dicotómicas e os diferentes aspectos que podem tomar.
As rendas cobradas aos lojistas de um Centro Comercial são calculadas da seguinte forma:
- Uma parcela fixa ou «luvas»;
- Uma parcela adicional proporcional à área A da loja.
A renda paga por cada loja poderia, então, ser explicada pela equação R ̂ = b0 + b1∙A . Considere-se, contudo, que no mesmo Centro Comercial existem 2 pisos e que o pavimento térreo ou 1º piso seja privilegiado relativamente ao 2º piso, podendo ser cobradas rendas diferentes tanto na parcela fixa como na variável. Quer isto dizer que podem ocorrer interacções entre variáveis dicotómicas e as restantes variáveis explicativas. Estas interacções podem dar lugar a 3 modelos de regressão diferentes:
1º Caso: Cobram-se «luvas» (b0) diferentes, mas o mesmo valor unitário (b1) nos 2 pisos.
O modelo tem de prever a possibilidade de o termo independente poder variar o que pode ser feito com uma variável dicotómica P que assumirá os seguintes valores: P = 1 para o 1º piso e P = 0 para o 2º piso. A equação que explicará as rendas será:
R ̂ = (b0 + b2 ∙ P)+ b1∙A
ou desenvolvendo e rearranjando:
R ̂ = b0 + b1∙A + b2∙P (1)
O modelo é representado (Figura 1) por 2 rectas paralelas com diferentes termos independentes. A diferença entre os termos independentes destas rectas é igual ao coeficiente b2 da variável dicotómica P (1).
2º Caso: Cobram-se as mesmas «luvas» (b0) em ambos os pisos e aumenta-se o valor unitário no 1º piso (de b1 para b1 + b2 ).
Neste caso o termo independente mantém-se constante, mas, para indicar que o valor unitário varia com o piso, deve-se associar-lhe a variável dicotómica P. A equação explicativa das rendas será então:
R ̂=b0+(b1+b2∙P)∙A
Desenvolvendo e rearranjando:
R ̂=b0+b1∙A+b2∙A∙P (2)
representada graficamente na Figura 2.
Neste caso o termo independente dos 2 pavimentos é o mesmo, mas o declive das rectas (2) é diferente, sendo maior o da recta representativa das rendas do piso térreo (1º piso).
3º caso: Tanto as «luvas» (b0) como o valor unitário (b1) dependem do piso.
Nesta situação, combinação das duas anteriores, a variável dicotómica terá de influenciar quer o termo independente quer o valor unitário. A equação terá então a seguinte forma:
-
Modelos com Duas ou Mais Variáveis Dicotómicas
-
Variáveis Alocadas
O recurso a variáveis dicotómicas tem um inconveniente quando a variável tem mais de 2 GdL, porque isso determina o aumento da dimensão mínima da amostra (n) . Realmente, seguindo a indicação do meu primeiro artigo, «A Amostra na Regressão Linear»:
n >= 4 (k + 1
onde representa o número de variáveis explicativas (b).
Uma alternativa, embora de menor qualidade, é o recurso às variáveis alocadas. Uma variável alocada é uma variável que assume tantos valores numéricos quantos os graus de liberdade da variável qualitativa. Por exemplo, à variável qualitativa «Localização» com 3 GdL, «Muito bom», «Bom» e «Razoável» pode associar-se a variável alocada «L» com 3 valores [ 3 2 1].
As normas brasileiras [2] permitem a utilização de códigos alocados desde que sejam construídos de acordo com as seguintes regras:
- A descrição de cada código é a necessária e suficiente para permitir o claro enquadramento de cada elemento da amostra assegurando que todos os elementos com a mesma característica estejam agrupados no mesmo item da escala;
- A escala será composta por números naturais consecutivos em ordem crescente (1, 2, 3...), em função da importância das características possíveis na formação do valor, com valor inicial igual a 1;
- Não é necessário que a amostra contenha dados de mercado em cada uma das posições da escala construída (c).
Como com todas as outras variáveis explicativas, também a significância estatística das variáveis alocadas tem de ser verificada.
Suponhamos uma localização com 3 GdL: «Muito boa», «Boa» e «Razoável». Recorrendo a códigos alocados estabelecia-se a seguinte relação:
Localização |
L |
Muito boa |
1 |
Boa |
2 |
Razoável |
3 |
A variável «L» assim definida seria aquela que substituiria a localização.
Observações:
- Note-se que se podia atribuir à localização «Muito boa» o valor L = 3 desde que, simultaneamente, fosse atribuído o valor L = 1 à localização «Razoável»;
- O que não se pode fazer é atribuir o valor L = 1 (ou L = 3) à localização «Boa».
-
Variáveis ajustadas
Admite-se [2] que as variáveis qualitativas sejam quantificadas por variáveis ajustadas extraídas da amostra por recurso a um modelo de regressão com a utilização de variáveis dicotómicas, desde que a amostra tenha pelo menos três componentes por GdL. Quer isto dizer que, retomando o exemplo dado com as variáveis alocadas, a amostra deveria ter, pelo menos, 3 componentes com localização correspondente a cada um dos três GdL.
O procedimento seguido é o seguinte: para uma dada variável qualitativa, a variável ajustada correspondente obtém-se a partir da regressão da variável explicada sobre, e só sobre as variáveis dicotómicas que correspondem à variável qualitativa.
Por exemplo, na Tabela 1 classifica-se a «Localização» que tem 3 GdL com duas variáveis dicotómicas «L1» e «L2».
Tabela 1 – Codificação dicotómica
Área |
Preço |
Localização |
L1 |
L2 |
102 |
265 800 |
Boa |
0 |
1 |
108 |
250 000 |
Razoável |
0 |
0 |
101 |
270 000 |
Muito boa |
1 |
0 |
116 |
260 000 |
Razoável |
0 |
0 |
113 |
285 100 |
Muito boa |
1 |
0 |
103 |
280 000 |
Boa |
0 |
1 |
116 |
275 000 |
Boa |
0 |
1 |
117 |
293 600 |
Muito boa |
1 |
0 |
116 |
270 000 |
Razoável |
0 |
0 |
110 |
275 000 |
Boa |
0 |
1 |
115 |
292 000 |
Muito boa |
1 |
0 |
111 |
290 400 |
Boa |
0 |
1 |
A regressão do «Preço» sobre as variáveis «L1» e «L2» conduz aos resultados que constam da Figura 4.
Depois de ser verificada a significância estatística de «L1» e de «L2» é possível calcular os valores da variável ajustada («L») que substitui as duas variáveis dicotómicas «L1» e «L2».
Localização |
L1 |
L2 |
Resultado |
L |
Muito boa |
1 |
0 |
285 175 |
1,00 |
Boa |
0 |
1 |
277 240 |
0,97 |
Razoável |
0 |
0 |
260 000 |
0,91 |
Os valores da coluna «Resultado» obtêm-se simplesmente a partir dos valores dos «Coeficientes» da Figura 4:
260 000+1×25 175+0×17 240=285 175
260 000+0×25 175+1×17 240=277 420
260 000+0×25 175+0×17 240=260 000
Os valores da coluna «L» obtêm-se a partir dos da coluna «Resultados» dividindo-os pelo maior deles. O único objectivo desta normalização é somente dar um aspecto mais agradável aos valores de «L».
Notas Finais
- Normalmente os valores ajustados são normalizados. Na Tabela 1 fez-se uma normalização dos valores pelo «maior», ou seja, todos os valores obtidos foram divididos pelo maior deles;
- Como todas as outras variáveis explicativas, também a significância estatística de variáveis ajustadas deve ser verificada;
- Se por qualquer motivo a amostra for modificada, o cálculo das variáveis ajustadas terá obrigatoriamente de ser refeito.
_____________________
Observações:
(a) Este modelo bem como o apresentado no 2º caso são modelos não-lineares, assunto que será objecto de artigo posterior.
(b) Tenha-se presente que cada variável dicotómica é uma variável explicativa.
(c) Isto significa que se pode estabelecer uma relação de valor entre os graus de liberdade.
_____________________
-
Referências
[1] |
A. M. OLIVEIRA e P. GRANDISKI, Métodos Científicos e a Engenharia de Avaliações, N. R. P. ALONSO, Ed., São Paulo: Editorial PINI, 2007. |
[2] |
NBR 14653-2, Avaliação de Bens Imóveis - Parte 2: Imóveis urbanos, Rio de Janeiro: Associação Brasileira de Normas Técnicas, 2010. |
[3] |
M. P. MIRANDA e R. S. CAMPOSINHOS, Avaliação Imobiliária, Porto: Edição dos Autores, 2022. |
[4] |
R. GUIMARÃES e J. CABRAL, Estatística, Lisboa: Verlag Dashofer, 2010. |
Sem comentários: