Variáveis Qualitativas na avaliação de imóveis

Apresentamos o quarto de nove artigos gentilmente disponibilizados pelo Eng. Mário Pinho Miranda, que versam uma temática muito importante para a abordagem de mercado, a inferência estatística. A literatura disponível para o perito avaliador de imóveis certificado sobre a inferência estatística aplicada à avaliação imobiliária é escassa.


Os quatro primeiros artigos foram:


-A Amostra na Regressão Linear;

-A Capacidade Explicativa do Modelo

-A Significância Estatística de um Modelo de Regressão Linear

-Análise de Resíduos na avaliação de um modelo de regressão linear


Recordo que o Eng. Mário Pinho Miranda é coautor, juntamente com o Eng. Rui Camposinos, do mais completo manual sobre avaliação imobiliária existente em português:



"5 – Variáveis Qualitativas

 

Mário Pinho Miranda

 

Resumo

Este artigo tem por objectivo apresentar diversas alternativas para a incorporação de atributos qualitativos na regressão linear.

 

 

  1. Introdução

Como se disse no primeiro artigo desta série, com o título «A Amostra na Regressão Linear», todos os atributos a serem utilizados como regressores têm de ter expressão numérica.

No presente artigo far-se-á referência às diferentes formas de se encarar a quantificação das varáveis qualitativas.

Uma variável qualitativa pode assumir um conjunto finito de valores com expressão não numérica. Ao número de valores diferentes que ela assume dá-se o nome de graus de liberdade (GdL) dessa variável. Por exemplo, se para uma determinada localização o Avaliador considera as possibilidades «Muito boa», «Boa» e «Razoável», diz-se que a variável associada à localização tem 3 graus de liberdade.

  1. Variáveis Dicotómicas

A forma mais comum de quantificar atributos qualitativos é recorrer a variáveis dicotómicas. Estas, são variáveis que, como o nome indica, só podem assumir 2 valores. Habitualmente usam––se os valores 0 e 1, embora fosse possível utilizar quaisquer outros pares de valores.

Suponha-se, na avaliação de um espaço comercial, a variável qualitativa «Licença de Utilização» e a possibilidade de esta permitir ou não a utilização do espaço para restauração. As possibilidades da licença de utilização em relação a esta questão são: «Ter autorização» e «Não ter autorização». Uma variável dicotómica seria suficiente. A codificação variável seria, por exemplo:

Licença para Restauração

Variável dicotómica (R)

Sem licença

0

Com licença

1

Note-se que se poderiam trocar os valores entre ter e não ter licença; o resultado seria manifestamente o mesmo.

Considere-se agora o exemplo de uma variável para caracterizar uma localização com 3 graus de liberdade: «Muito boa», «Boa» e «Razoável». Uma só variável dicotómica seria insuficiente; serão precisas duas, L1 e L2. Por exemplo:

Localização

L1

L2

Muito boa

1

0

Boa

0

1

Razoável

0

0

Suponha-se agora que a localização tem 4 graus de liberdade: «Muito boa», «Boa», «Razoável» e «Má» Poder-se-ia pensar que não há necessidade de uma nova variável. Bastava fazer uso das posições L1=1 e L2=1:

Localização

L1

L2

Muito boa

1

0

Boa

0

1

Razoável

0

0

1

1

Todavia, esta ideia está errada. Repare-se que o que se está a dizer é que a localização «Má» é uma combinação linear das restantes.

Pode estabelecer-se a seguinte regra:

Cada uma das variáveis dicotómicas só pode atribuir o valor «1» a um dos graus de liberdade; todos os restantes terão o valor «0»;

Portanto, no nosso exemplo, seria necessário acrescentar uma 3ª variável dicotómica:

Localização

L1

L2

L3

Muito boa

1

0

0

Boa

0

1

0

Razoável

0

0

1

0

0

0

A regra para a contabilização do nº de variáveis dicotómicas necessárias é a seguinte:

Sendo  o número de graus de liberdade de uma variável qualitativa, são necessárias  variáveis dicotómicas dadas pela expressão: .

Um exemplo retirado de [1] sobre variáveis dicotómicas e os diferentes aspectos que podem tomar.

As rendas cobradas aos lojistas de um Centro Comercial são calculadas da seguinte forma:

  • Uma parcela fixa ou «luvas»;
  • Uma parcela adicional proporcional à área A da loja.

A renda paga por cada loja poderia, então, ser explicada pela equação R ̂ = b0 + b1∙A . Considere-se, contudo, que no mesmo Centro Comercial existem 2 pisos e que o pavimento térreo ou 1º piso seja privilegiado relativamente ao 2º piso, podendo ser cobradas rendas diferentes tanto na parcela fixa como na variável. Quer isto dizer que podem ocorrer interacções entre variáveis dicotómicas e as restantes variáveis explicativas. Estas interacções podem dar lugar a 3 modelos de regressão diferentes:


1º Caso: Cobram-se «luvas» (b0) diferentes, mas o mesmo valor unitário (b1) nos 2 pisos.

O modelo tem de prever a possibilidade de o termo independente poder variar o que pode ser feito com uma variável dicotómica P que assumirá os seguintes valores: P = 1 para o 1º piso e P = 0 para o 2º piso. A equação que explicará as rendas será:

              R ̂ = (b0 + b2 ∙ P)+ b1∙A                                      

ou desenvolvendo e rearranjando:

              R ̂ = b0 + b1∙A + b2∙P              (1)


O modelo é representado (Figura 1) por 2 rectas paralelas com diferentes termos independentes. A diferença entre os termos independentes destas rectas é igual ao coeficiente  b2 da variável dicotómica  P (1).


2º Caso: Cobram-se as mesmas «luvas» (b0) em ambos os pisos e aumenta-se o valor unitário no 1º piso (de b1  para b1 + b2 ).

Neste caso o termo independente mantém-se constante, mas, para indicar que o valor unitário varia com o piso, deve-se associar-lhe a variável dicotómica P. A equação explicativa das rendas será então:

                                                    

            R ̂=b0+(b1+b2∙P)∙A

Desenvolvendo e rearranjando:

            R ̂=b0+b1∙A+b2∙A∙P                     (2)

 

representada graficamente na Figura 2.



Neste caso o termo independente dos 2 pavimentos é o mesmo, mas o declive das rectas (2) é diferente, sendo maior o da recta representativa das rendas do piso térreo (1º piso).


3º caso: Tanto as «luvas» (b0) como o valor unitário (b1) dependem do piso.

Nesta situação, combinação das duas anteriores, a variável dicotómica terá de influenciar quer o termo independente quer o valor unitário. A equação terá então a seguinte forma:

                                        


  1. Modelos com Duas ou Mais Variáveis Dicotómicas



  1. Variáveis Alocadas

O recurso a variáveis dicotómicas tem um inconveniente quando a variável tem mais de 2 GdL, porque isso determina o aumento da dimensão mínima da amostra (n) . Realmente, seguindo a indicação do meu primeiro artigo, «A Amostra na Regressão Linear»:

                                                       n >= 4 (k + 1      

onde representa o número de variáveis explicativas (b).

Uma alternativa, embora de menor qualidade, é o recurso às variáveis alocadas. Uma variável alocada é uma variável que assume tantos valores numéricos quantos os graus de liberdade da variável qualitativa. Por exemplo, à variável qualitativa «Localização» com 3 GdL, «Muito bom», «Bom» e «Razoável» pode associar-se a variável alocada «L» com 3 valores [ 3 2 1].

As normas brasileiras [2] permitem a utilização de códigos alocados desde que sejam construídos de acordo com as seguintes regras:

  • A descrição de cada código é a necessária e suficiente para permitir o claro enquadramento de cada elemento da amostra assegurando que todos os elementos com a mesma característica estejam agrupados no mesmo item da escala;
  • A escala será composta por números naturais consecutivos em ordem crescente (1, 2, 3...), em função da importância das características possíveis na formação do valor, com valor inicial igual a 1;
  • Não é necessário que a amostra contenha dados de mercado em cada uma das posições da escala construída (c).

Como com todas as outras variáveis explicativas, também a significância estatística das variáveis alocadas tem de ser verificada.

Suponhamos uma localização com 3 GdL: «Muito boa», «Boa» e «Razoável». Recorrendo a códigos alocados estabelecia-se a seguinte relação:

Localização

L

Muito boa

1

Boa

2

Razoável

3

A variável «L» assim definida seria aquela que substituiria a localização.

Observações:

  1. Note-se que se podia atribuir à localização «Muito boa» o valor L = 3 desde que, simultaneamente, fosse atribuído o valor   L = 1 à localização «Razoável»;
  2. O que não se pode fazer é atribuir o valor L = 1  (ou L = 3) à localização «Boa».
  1. Variáveis ajustadas

Admite-se [2] que as variáveis qualitativas sejam quantificadas por variáveis ajustadas extraídas da amostra por recurso a um modelo de regressão com a utilização de variáveis dicotómicas, desde que a amostra tenha pelo menos três componentes por GdL. Quer isto dizer que, retomando o exemplo dado com as variáveis alocadas, a amostra deveria ter, pelo menos, 3 componentes com localização correspondente a cada um dos três GdL.

O procedimento seguido é o seguinte: para uma dada variável qualitativa, a variável ajustada correspondente obtém-se a partir da regressão da variável explicada sobre, e só sobre as variáveis dicotómicas que correspondem à variável qualitativa.

 

Por exemplo, na Tabela 1 classifica-se a «Localização» que tem 3 GdL com duas variáveis dicotómicas «L1» e «L2».

Tabela 1 – Codificação dicotómica

Área

Preço

Localização

L1

L2

102

265 800

Boa

0

1

108

250 000

Razoável

0

0

101

270 000

Muito boa

1

0

116

260 000

Razoável

0

0

113

285 100

Muito boa

1

0

103

280 000

Boa

0

1

116

275 000

Boa

0

1

117

293 600

Muito boa

1

0

116

270 000

Razoável

0

0

110

275 000

Boa

0

1

115

292 000

Muito boa

1

0

111

290 400

Boa

0

1

A regressão do «Preço» sobre as variáveis «L1» e «L2» conduz aos resultados que constam da Figura 4.


Depois de ser verificada a significância estatística de «L1» e de «L2» é possível calcular os valores da variável ajustada («L») que substitui as duas variáveis dicotómicas «L1» e «L2».

Localização

L1

L2

Resultado

L

Muito boa

1

0

285 175

1,00

Boa

0

1

277 240

0,97

Razoável

0

0

260 000

0,91

Os valores da coluna «Resultado» obtêm-se simplesmente a partir dos valores dos «Coeficientes» da Figura 4:

260 000+1×25 175+0×17 240=285 175

260 000+0×25 175+1×17 240=277 420

260 000+0×25 175+0×17 240=260 000

   
                              
Os valores da coluna «L» obtêm-se a partir dos da coluna «Resultados» dividindo-os pelo maior deles. O único objectivo desta normalização é somente dar um aspecto mais agradável aos valores de «L».

Notas Finais

  1.  Normalmente os valores ajustados são normalizados. Na Tabela 1 fez-se uma normalização dos valores pelo «maior», ou seja, todos os valores obtidos foram divididos pelo maior deles;
  2. Como todas as outras variáveis explicativas, também a significância estatística de variáveis ajustadas deve ser verificada;
  3. Se por qualquer motivo a amostra for modificada, o cálculo das variáveis ajustadas terá obrigatoriamente de ser refeito.

_____________________

Observações:

(a) Este modelo bem como o apresentado no 2º caso são modelos não-lineares, assunto que será objecto de artigo posterior.

(b) Tenha-se presente que cada variável dicotómica é uma variável explicativa.

(c) Isto significa que se pode estabelecer uma relação de valor entre os graus de liberdade.

_____________________

 

  1. Referências

[1] 

A. M. OLIVEIRA e P. GRANDISKI, Métodos Científicos e a Engenharia de Avaliações, N. R. P. ALONSO, Ed., São Paulo: Editorial PINI, 2007. 

[2] 

NBR 14653-2, Avaliação de Bens Imóveis - Parte 2: Imóveis urbanos, Rio de Janeiro: Associação Brasileira de Normas Técnicas, 2010. 

[3] 

M. P. MIRANDA e R. S. CAMPOSINHOS, Avaliação Imobiliária, Porto: Edição dos Autores, 2022. 

[4] 

R. GUIMARÃES e J. CABRAL, Estatística, Lisboa: Verlag Dashofer, 2010. 

 

 

Sem comentários:

Com tecnologia do Blogger.