Estatística: Fundamental para Cientistas de Dados

Uma discussão que não sai de moda: estatística e ciência de dados são a mesma coisa? Eu responderia essa pergunta com base na teoria de conjuntos: a estatística é o conjunto A e ciência de dados é o conjunto B, onde a intersecção entre A e B é muito grande, mas A não é igual a B. Sacou?

As teorias estatísticas servem como base para tudo, desde a criação de perfis de consumidores digitais em uma era de consolidação de marketplaces e crescimento de 87% de faturamento nos últimos 5 anos até a eficácia de novos programas para reduzir a taxa de erros hospitalares.

A estatística pode ajudar a avaliar se o sucesso de um fundo de investimentos é genuíno ou devido ao acaso; pode ajudar a prever se um passageiro vai esperar pelo carro que pediu no app ou vai cancelar a corrida; validar se uma reinvindicação de reembolsos por atendimento médico é verídico ou se trata de uma fraude.

“Vivemos em uma época em que a ciência deve prevalecer sobre o empirismo, em que a lógica deve prevalecer sobre o achismo

A ciência de dados difere das análises estatísticas em seu método, que é aplicado a dados usando princípios científicos. A razão para a necessidade crescente desta nova abordagem está relacionada ao big data,que demanda o uso de diferentes tecnologias à análise estatística.

A estatística é fundamental para a ciência de dados, juntamente com gestão de banco de dados, sistemas distribuídos e paralelos, computação, matemática e programação.

A sua utilização neste campo emergente, capacita pesquisadores e profissionais de mercado para extrair conhecimento e obter melhores resultados de grandes projetos; e incentiva a colaboração máxima e multifacetada entre estatísticos e cientistas de dados para maximizar o potencial da ciência de dados.

“Em resumo, a estatística desempenha um papel fundamental dentro da ciência de dados. Porém, a ciência de dados compreende outras áreas de conhecimento, como engenharia de dados, computação avançada e conhecimento de negócios”.

A ciência de dados utiliza estatística, aprendizado de máquina e gerenciamento de banco de dados para criar um conjunto de ferramentas para aqueles que trabalham com dados.

Os cientistas de dados possuem 3 características principais

  1. Eles têm um forte conhecimento em estatística (ou pelo menos deveriam ter) e aprendizado de máquina, pelo menos o suficiente para evitar má interpretação de correlação e causalidade.
  2. Eles têm habilidades tecnológicas para usar linguagens de programação, como R, Python, Julia, Scala e JavaScript para facilitar o trabalho de análise.
  3. Eles podem visualizar e resumir seus dados e suas análises de uma maneira que seja significativa para alguém menos familiarizado com os dados, baseado em sua experiência de área de negócios.

Seja como for, uma coisa é certa:

“A estatística é parte fundamental do trabalho do cientista de dados