Boa parte do trabalho de um cientista de dados é realizada na preparação dos dados: obtenção de dados; agregação de dados; subsets; limpeza; união de vários conjuntos de dados das mais variadas fontes. Essas atividades compõem uma grande porcentagem do trabalho do dia a dia de quem trabalha com data science e big data.
Para realizar essas atividades, o cientista de dados trabalha com Data Wrangling ou Data Munging (conhecido também por manipulação de dados). Este processo consiste basicamente em converter ou mapear os dados em seu estado mais bruto, para outro formato que seja mais conveniente para o consumo pelas aplicações ou ferramentas de análise.
“O Data Wrangling é pré-requisito para o processo de visualização de dados, agregação, modelagem estatística e machine learning”
Os dados vão sendo transformados à medida que as técnicas de limpeza e organização vão sendo aplicadas. Somente quando os dados estiverem realmente consistentes será possível avançar para a próxima fase do processo e começar as análises.
Muitos profissionais ignoram esse processo e partem direto para modelos preditivos, sem fazer um trabalho de limpeza dos dados, organização e validação. Praticamente dão um “tiro no pé”.
A etapa de trabalho com os dados é exatamente o data wrangling; mas se preferir podemos chamar de manipulação de dados. Esse processo é importantíssimo.
Dica: Tente desde cedo descobrir qual é o objetivo da análise. Isso vai poupar tempo e esforço, e pode ser o diferencial entre sucesso e fracasso em projeto de big data analytics.
Além disso, vai permitir coletar os dados corretos para o processo de análise.
Não ignore o processo de data wrangling …