O Big Data já é uma realidade nas nossas vidas. Geramos dados o tempo todo. Deixamos rastros digitais sobre nossos hábitos: onde vamos, que horas vamos, o que comemos, o que compramos, com quem saímos, quantas horas dormimos.
Empresas, governos, redes sociais, e sabe se lá quem mais, armazenam diariamente dados e informações. Data warehouses e data lakes são enriquecidos com dados que até então não eram gerados. E no meio de tudo isso, existe um valor imensurável que pode ser gerado a partir dessa abundância de dados.
As empresas já perceberam isso e agora elas têm pressa para montar hubs de analytics, contratar estatísticos e cientistas de dados, montar equipes multifuncionais, investir em tecnologia, fazer parcerias com startups.
Nesse momento onde tudo é urgente e os prazos são apertados, precisamos ter cautela para não errar muito.
Diante desse contexto, quero chamar a atenção de 5 pontos para quem trabalha com big data. Preste atenção e não ignore nenhum deles.
1. Selecionar as fontes erradas
Este é um dos pontos mais críticos. A tendência de querer buscar a maior quantidade possível de dados pode levar a interpretações erradas. Uma das principais características do Big Data é veracidade; os dados precisam ser confiáveis.
Eu tive a oportunidade de trabalhar em um projeto para montar um data lake. Nós escolhemos tantas fontes que no final, não sabíamos em qual confiar; pois a mesma informação possuía registros diferentes dependendo da fonte.
2. Não definir um objetivo
O objetivo é o ponto de partida de qualquer projeto de Big Data. Antes de sair analisando os dados enlouquecidamente, você deve definir qual o problema de negócios quer resolver ou qual oportunidade quer criar.
Eu sei que é difícil e muitas vezes a rotina da empresa não permite que você e sua equipe invistam um tempo adequado para definir o objetivo. Mas acredite em mim! Se isso não for feito, você perderá muito mais tempo depois.
3. Ignorar a qualidade dos dados
A qualidade dos dados é importante desde a sua coleta até o tratamento dos dados; passando pela sua transformação. Por mais que as fontes sejam confiáveis, o processo de transformação interna deve ser cuidadoso.
No meu ponto de vista, as empresas vêm se preocupando muito mais com a quantidade do que a qualidade. É preciso reverter esse cenário. Não adianta você possuir dados em excesso, mas que não permitem transformá-los em informação.
Eu participei de um projeto onde a alta gestão tinha interesse em reduzir o tempo de internação de pacientes no hospital para determinados procedimentos cirúrgicos. Para reduzir o tempo de internação é preciso saber quanto tempo ele fica. A informação pode ser gerada por dois registros básicos: data de entrada no hospital e data de alta. Quem disse que a data de alta era registrada no sistema?
4. Não categorizar os dados
Categorizar os dados faz parte do processo de transformação e preparação dos dados para análise. Etapa muito importante e que precede toda a análise estatística.
5. Não criar uma cultura orientada a dados
Essa é uma das mais impactantes e não depende exclusivamente de você. O alto escalão da empresa precisa comprar a ideia e ajudar a cultivar uma cultura orientada a dados em toda a empresa.
Aqui eu vou cutucar um pouquinho.
Tem muita empresa que está contratando estatísticos e cientistas de dados, montando equipes e investindo em tecnologia, mas na hora que as informações começam a surgir de forma diferente, quando comparada com o empirismo, não consegue mudar o mindset para tomar decisões baseadas em dados.
Falo isso de experiência própria e poderia citar vários exemplos, mas não acho necessário e isso pode causar exposição.
Bom, espero que esse cinco pontos de atenção melhorem ainda mais seus resultados.