A ciência estatística possui muitas técnicas de análise de dados. Uma delas é conhecida como análise de regressão. O termo regressão foi primeiramente utilizado por Sir Francis Galton (1822 – 1911), que estudou a relação entre as estaturas de crianças e as estaturas de seus pais.
A relação entre as alturas das crianças e de seus pais foi representada por um modelo matemático, que associa a variável dependente com a variável independente, conhecido como modelo de regressão linear simples.
Essa relação entre as variáveis pode ocorrer de duas maneiras:
- Utilizando a análise de regressão
- Calculando o coeficiente de correlação de Pearson
A análise de regressão avalia a amplitude da variação em uma variável, decorrente da variação em outra variável. Confuso, né? Deixa-me dar alguns exemplos: a variação dos gastos familiares com alimentação em decorrência do quanto de renda a família ganha; a variação da concessão de limite no cartão de crédito em decorrência do salário; o crescimento na taxa de criminalidade, relacionado com o crescimento na taxa de desemprego.
Já o coeficiente de correlação de Pearson informa o quão fortemente duas variáveis estão relacionadas. Essa relação pode variar de -1 a 1 e quanto mais próximo dos extremos, mais forte é a correlação, podendo ser positiva ou negativa. Aquela variável que possui a maior correlação é ideal para usar no modelo.
Neste momento, vamos focar na análise de regressão ou modelo de regressão, que corresponde a uma equação matemática, que descreve a relação entre duas ou mais variáveis.
Quando consideramos os efeitos de duas ou mais variáveis independentes sobre uma variável dependente, utilizamos a análise de regressão múltipla. Quando vamos estudar uma única variável independente (geralmente a mais importante) sobre uma variável dependente, chamamos de regressão simples.
Logo, você pode perceber que é o número de variáveis independentes que se modifica quando se trata de uma regressão simples ou uma regressão múltipla.
Por ora, vamos abordar a regressão linear simples. Nossa! Já coloquei a palavra “linear” no meio. Vem que eu te explico.
Por que regressão simples?
Um modelo de regressão simples inclui somente duas variáveis: uma independente e uma dependente. A variável dependente é aquela que está sendo explicada, enquanto a variável independente é aquela que é utilizada para explicar a variação na variável dependente.
Chega mais e confere esses exemplos:
- Nota de uma prova pode ser explicada pelo tempo de estudo do aluno.
- Venda de bolos pode ser explicada pelo número de clientes.
- Consumo de energia do ar-condicionado pela sensação térmica da cidade.
- Quantidade de metrôs em relação ao número esperado de pessoas no carnaval do Rio de Janeiro.
- Frequência de compras e-commerce pelo valor do frete cobrado.
Todos os exemplos citado envolvem apenas duas variáveis. Poderiam envolver mais variáveis que explicassem melhor o modelo de regressão simples? Poderia, mas aí não seria regressão simples e sim regressão múltipla.
Por que regressão linear?
Um modelo de regressão linear é uma equação matemática que fornece uma relação linear, ou seja, de linha reta entre duas variáveis, comumente chamada de x e y. Pelo menos foi assim que aprendemos no ensino médio:
No entanto, alguns livros ensinam dessa forma aqui:
Os estatísticos resolveram complicar mais um pouquinho e trocaram as letrinhas. Passaram a usar o alfabeto grego que eles tanto amam.
Cada um dos conjuntos de valores do estimador de beta zero e estimador de beta 1 fornece uma linha reta diferente. O intercepto é fornecido com base no termo constante na equação e corresponde ao valor do estimador de y quando x é zero.
O coeficiente de x ou inclinação da linha fornece a quantidade de variação em y estimado, que é decorrente da variação correspondente a uma unidade de x. Esse é o modelo de regressão linear simples.
O modelo de regressão linear simples pode ser determinístico ou probabilístico. Um modelo determinístico fornece uma relação exata entre x e y. Esse modelo afirma, simplesmente, que y é determinado exatamente por x, e que para determinado valor de x existe um, e exclusivamente um (único) valor para y.
O modelo pode ser representado por essa equação:
Os betas 0 e 1 são os parâmetros da população. Como os dados da população são difíceis de obter, trabalhamos com os valores estimados, que são calculados utilizando-se de dados gerados pela amostra. Os valores são estimados pela equação:
Entretanto, em muitos casos, a relação entre duas variáveis não é exata. Por causa disso, precisamos levar em consideração a ausência de outras variáveis no modelo e adicionamos o erro aleatório, representado pela letra épsilon. Mais uma letrinha grega para o seu mais novo dicionário.
Quando adicionamos o erro aleatório passamos a ter um modelo probabilístico ou de relação estatística, que representa dois fenômenos:
- Variáveis omitidas ou ausentes: o erro aleatório captura os efeitos decorrentes de todas as variáveis que possam não ter sido incluídas no modelo.
- Variação aleatória: basicamente causada pelo comportamento humano.
Considerando os dois fenômenos chegamos à uma representação de modelo mais realista.
O que é regressão linear simples?
Agora que você já sabe o que é regressão linear e regressão simples, juntamos os conceitos e chegamos a essa conclusão: o modelo de regressão linear simples é uma equação matemática que inclui somente duas variáveis e apresenta uma relação em linha reta entre elas. Sacou?
Para que serve?
O modelo de regressão serve para prever comportamentos com base na associação entre duas variáveis que geralmente possuem uma boa correlação.
Se você quisesse apenas saber qual o grau de relação entre as variáveis, calcular o coeficiente de Pearson seria suficiente.
Como funciona?
Você precisa conhecer a essência do dado e quanto mais informação você tiver, maior será a sua capacidade de entender a variabilidade de y em função de x.
Com os dados em mãos, faça um gráfico de dispersão (scatter plot) para cada uma das variáveis independentes, calcule o coeficiente de Pearson para as variáveis disponíveis, selecione a mais importante e calcule o intercepto e a inclinação da reta da sua amostra.
Quando tiver feito essas etapas, seu modelo de regressão estará pronto.
No entanto é preciso validar esse modelo. Como você pode fazer isso? Realizando a análise de resíduos.
Eu não vou entrar nesse assunto agora porque o texto já está bem longo. Mas para testar os resíduos (erro aleatório), você precisa validar as premissas do modelo: o erro precisa ter média zero; ter uma distribuição normal; ser independente e ter variância constante. Ok?
Aplicações
As aplicações são infinitas. Eu já citei algumas no início do texto e você pode voltar lá, se quiser. Mas pense assim: tudo que você quiser prever como resultado e puder ser explicado ao máximo com apenas uma variável, poderá aplicar o modelo de regressão simples.
Então segue mais exemplos para reforçar o conhecimento:
- Produtividade estimada de sacas de café e altitude de plantio (espera-se que quanto mais alto, maior será a produção de café)
- Número de mortes por doenças isquêmicas do coração em pessoas acima de 60 anos e vacinas contra o vírus da gripe na mesma população (existe uma relação de que quanto maior o número de vacinas, menor o número de mortes)
- Venda de pipoca e pessoas que vão ao cinema (quanto mais cinéfilos, mais pipoca).
Podemos ficar aqui pensando em várias aplicações e conseguir gerar muitos insights, mas esse não é o propósito do texto.
Agora que você já sabe um pouco mais sobre modelos de regressão linear simples, compartilha com a gente onde e como você aplicaria esta técnica.
E lembre-se, a estatística é a ciência que estuda a incerteza e os modelos sempre apresentarão erros associados. Isso acontece porque existe variabilidade.
No final das contas, a estatística não foi feita para você acertar; o papel dela é direcionar.