Regressão Linear Simples: O Que é? Para Que Serve? Como Funciona?

A ciência estatística possui muitas técnicas de análise de dados. Uma delas é conhecida como análise de regressão. O termo regressão foi primeiramente utilizado por Sir Francis Galton (1822 – 1911), que estudou a relação entre as estaturas de crianças e as estaturas de seus pais.

A relação entre as alturas das crianças e de seus pais foi representada por um modelo matemático, que associa a variável dependente com a variável independente, conhecido como modelo de regressão linear simples.

Essa relação entre as variáveis pode ocorrer de duas maneiras:

  1. Utilizando a análise de regressão
  2. Calculando o coeficiente de correlação de Pearson

A análise de regressão avalia a amplitude da variação em uma variável, decorrente da variação em outra variável. Confuso, né? Deixa-me dar alguns exemplos: a variação dos gastos familiares com alimentação em decorrência do quanto de renda a família ganha; a variação da concessão de limite no cartão de crédito em decorrência do salário; o crescimento na taxa de criminalidade, relacionado com o crescimento na taxa de desemprego.

Já o coeficiente de correlação de Pearson informa o quão fortemente duas variáveis estão relacionadas. Essa relação pode variar de -1 a 1 e quanto mais próximo dos extremos, mais forte é a correlação, podendo ser positiva ou negativa. Aquela variável que possui a maior correlação é ideal para usar no modelo.

Neste momento, vamos focar na análise de regressão ou modelo de regressão, que corresponde a uma equação matemática, que descreve a relação entre duas ou mais variáveis.

Quando consideramos os efeitos de duas ou mais variáveis independentes sobre uma variável dependente, utilizamos a análise de regressão múltipla. Quando vamos estudar uma única variável independente (geralmente a mais importante) sobre uma variável dependente, chamamos de regressão simples.

Logo, você pode perceber que é o número de variáveis independentes que se modifica quando se trata de uma regressão simples ou uma regressão múltipla.

Por ora, vamos abordar a regressão linear simples. Nossa! Já coloquei a palavra “linear” no meio. Vem que eu te explico.

Por que regressão simples?

Um modelo de regressão simples inclui somente duas variáveis: uma independente e uma dependente. A variável dependente é aquela que está sendo explicada, enquanto a variável independente é aquela que é utilizada para explicar a variação na variável dependente.

Chega mais e confere esses exemplos:

  • Nota de uma prova pode ser explicada pelo tempo de estudo do aluno.
  • Venda de bolos pode ser explicada pelo número de clientes.
  • Consumo de energia do ar-condicionado pela sensação térmica da cidade.
  • Quantidade de metrôs em relação ao número esperado de pessoas no carnaval do Rio de Janeiro.
  • Frequência de compras e-commerce pelo valor do frete cobrado.

Todos os exemplos citado envolvem apenas duas variáveis. Poderiam envolver mais variáveis que explicassem melhor o modelo de regressão simples? Poderia, mas aí não seria regressão simples e sim regressão múltipla.

Por que regressão linear?

Um modelo de regressão linear é uma equação matemática que fornece uma relação linear, ou seja, de linha reta entre duas variáveis, comumente chamada de x e y. Pelo menos foi assim que aprendemos no ensino médio:

regressão

No entanto, alguns livros ensinam dessa forma aqui:

regressão

Os estatísticos resolveram complicar mais um pouquinho e trocaram as letrinhas. Passaram a usar o alfabeto grego que eles tanto amam.

regressão

Cada um dos conjuntos de valores do estimador de beta zero e estimador de beta 1 fornece uma linha reta diferente. O intercepto é fornecido com base no termo constante na equação e corresponde ao valor do estimador de y quando x é zero.

O coeficiente de x ou inclinação da linha fornece a quantidade de variação em y estimado, que é decorrente da variação correspondente a uma unidade de x. Esse é o modelo de regressão linear simples.

O modelo de regressão linear simples pode ser determinístico ou probabilístico. Um modelo determinístico fornece uma relação exata entre x e y. Esse modelo afirma, simplesmente, que y é determinado exatamente por x, e que para determinado valor de x existe um, e exclusivamente um (único) valor para y.

O modelo pode ser representado por essa equação:

Os betas 0 e 1 são os parâmetros da população. Como os dados da população são difíceis de obter, trabalhamos com os valores estimados, que são calculados utilizando-se de dados gerados pela amostra. Os valores são estimados pela equação:

Entretanto, em muitos casos, a relação entre duas variáveis não é exata. Por causa disso, precisamos levar em consideração a ausência de outras variáveis no modelo e adicionamos o erro aleatório, representado pela letra épsilon. Mais uma letrinha grega para o seu mais novo dicionário.

Quando adicionamos o erro aleatório passamos a ter um modelo probabilístico ou de relação estatística, que representa dois fenômenos:

  1. Variáveis omitidas ou ausentes: o erro aleatório captura os efeitos decorrentes de todas as variáveis que possam não ter sido incluídas no modelo.
  2. Variação aleatória: basicamente causada pelo comportamento humano.

Considerando os dois fenômenos chegamos à uma representação de modelo mais realista.

regressão

O que é regressão linear simples?

Agora que você já sabe o que é regressão linear e regressão simples, juntamos os conceitos e chegamos a essa conclusão: o modelo de regressão linear simples é uma equação matemática que inclui somente duas variáveis e apresenta uma relação em linha reta entre elas. Sacou?

Para que serve?

O modelo de regressão serve para prever comportamentos com base na associação entre duas variáveis que geralmente possuem uma boa correlação.

Se você quisesse apenas saber qual o grau de relação entre as variáveis, calcular o coeficiente de Pearson seria suficiente.

Como funciona?

Você precisa conhecer a essência do dado e quanto mais informação você tiver, maior será a sua capacidade de entender a variabilidade de y em função de x.

Com os dados em mãos, faça um gráfico de dispersão (scatter plot) para cada uma das variáveis independentes, calcule o coeficiente de Pearson para as variáveis disponíveis, selecione a mais importante e calcule o intercepto e a inclinação da reta da sua amostra.

Quando tiver feito essas etapas, seu modelo de regressão estará pronto.

No entanto é preciso validar esse modelo. Como você pode fazer isso? Realizando a análise de resíduos.

Eu não vou entrar nesse assunto agora porque o texto já está bem longo. Mas para testar os resíduos (erro aleatório), você precisa validar as premissas do modelo: o erro precisa ter média zero; ter uma distribuição normal; ser independente e ter variância constante. Ok?

Aplicações

As aplicações são infinitas. Eu já citei algumas no início do texto e você pode voltar lá, se quiser. Mas pense assim: tudo que você quiser prever como resultado e puder ser explicado ao máximo com apenas uma variável, poderá aplicar o modelo de regressão simples.

Então segue mais exemplos para reforçar o conhecimento:

  • Produtividade estimada de sacas de café e altitude de plantio (espera-se que quanto mais alto, maior será a produção de café)
  • Número de mortes por doenças isquêmicas do coração em pessoas acima de 60 anos e vacinas contra o vírus da gripe na mesma população (existe uma relação de que quanto maior o número de vacinas, menor o número de mortes)
  • Venda de pipoca e pessoas que vão ao cinema (quanto mais cinéfilos, mais pipoca).

Podemos ficar aqui pensando em várias aplicações e conseguir gerar muitos insights, mas esse não é o propósito do texto.

Agora que você já sabe um pouco mais sobre modelos de regressão linear simples, compartilha com a gente onde e como você aplicaria esta técnica.

E lembre-se, a estatística é a ciência que estuda a incerteza e os modelos sempre apresentarão erros associados. Isso acontece porque existe variabilidade.

No final das contas, a estatística não foi feita para você acertar; o papel dela é direcionar.