BoxPlot: A Caixa Mágica

Recentemente, meu amigo perguntou se era melhor usar a média ou a mediana. Eu disse: “isso vai depender da distribuição dos seus dados. Qual é a distribuição? ” Se o profissional não está familiarizado com o conceito de distribuição de probabilidades, provavelmente não saberá responder.

Acredito que essa seja uma dúvida frequente na cabeça de muitos estudantes, profissionais e pesquisadores das mais diversas áreas. De uma forma bem simples, eu diria a você, que se os seus dados apresentarem uma distribuição normal, você pode usar a média, sem medo de errar. Agora se você tem um conjunto de dados que está distribuindo de outra forma, e ainda por cima, apresenta outliers, pode abraçar a mediana.

Às vezes fico pensando por que a mediana não é amplamente utilizada como a média. Será porque ela não aparece com frequência na mídia? Ou porque a média é mais fácil de entender? Seja qual for a resposta, saiba que a média é sensível a valores extremos (outliers) e muitas vezes não representa o seu conjunto de dados. Afinal de contas, os dados da vida real dificilmente apresentam uma distribuição normal.

Permita que eu faça uma breve explicação para quem não está familiarizado com o assunto:

  • Outliers: são aqueles valores que se distanciam muito da maioria dos seus dados, que podem ser gerados por erros de mensuração ou por ocorrência valores extremos.
  • Distribuição normal: gráfico de distribuição em formato de sino que concentra a maioria dos seus dados em torno de uma média central e possui um desvio padrão estabelecido.

Para ajudar a responder à pergunta do meu amigo, eu resolvi apresentá-lo ao boxplot. Você já deve ter ouvido falar desta “caixa mágica” em algum momento da sua vida, certo? Não ouviu? Então vem, que vamos explicar para você.

O que é?

O boxplot é uma “caixa mágica” em formato de gráfico que representa dados. O gráfico revela a você, de uma só vez, as cinco medidas que você precisa saber antes de começar a fazer análises espetaculares: a mediana, o primeiro quartil, o terceiro quartil, o menor valor e o maior valor no conjunto de dados.

O gráfico foi criado por John Tukey há quase 50 anos quando ele começou a trabalhar com gráficos dinâmicos interativos para explorar dados multivariados. Tukey foi visionário! É fácil perceber isso quando você vê a explosão na utilização de softwares estilo self-service no mercado.

Para que serve?

Um boxplot pode nos ajudar a visualizar o centro, a dispersão e a assimetria de um conjunto de dados. Além disso, ele é excelente para identificar e controlar valores extremos (outliers). Com ele, você consegue identificar facilmente, qual é o valor que representa melhor os seus dados (mediana).

Podemos comparar diferentes distribuições de dados, apenas desenhando boxplots para cada uma delas. Experimente!

Agora você deve estar se perguntando: “Ok! Eu sei o que é e para que serve. Mas eu ainda tenho dúvidas sobre como interpretar e não sei quando usar”.

Não se preocupe, vamos ajudá-lo e mostrar exemplos reais do mercado. Mas esse assunto será tema de um próximo post.

Um abraço e até o próximo texto.


Fontes:

, Prem S. Mann (2015).

, Wilton de O. Bussab, Pedro A. Morettin (2013).

Amplie seu conhecimento

“A média não é o bastante”, Raniere Ramos, blog “O Estatístico”, 9 de agosto de 2015.

“John Tukey and the Beginning of Interactive Graphics”, Nathan Yau, FlowingData”, 1 de janeiro de 2008.

“Self-Service Analytics: Economizando Horas”, Raniere Ramos, blog “O Estatístico”, 5 de julho de 2017.

“40 years of boxplots”, Hadley Wickham, Lisa Stryjewski (29 de novembro de 2011).

Material usado

Imagem do boxplot: https://www.r-bloggers.com/philip-glass-composition-and-exploding-boxplot/