Ontem eu recomendei um curso de Ferramentas do Cientista de Dados. Parte integrante da Especialização em Ciência de Dados do CourseraNesse curso, você vai aprender o básico sobre a linguagem R, RStudio, Github e Git. Ferramentas “importantíssimas” para a análise de dados. Mas você sabe o que um estatístico faz?

Eu estive pensando. De nada adianta saber trabalhar com todas essas ferramentas, se você não souber por onde começar a resolver um problema. Levantar questionamentos e entender todas as etapas do processo é muito importante. Para isso, algumas questões devem ser respondidas, como: “O que queremos saber?”, “Por que analisar?”, “Quais dados serão necessários”?

Por isso, eu resolvi escrever sobre as etapas de uma boa análise estatística. Eu separei as orientações em 12 tópicos. Elas serão comentadas nos próximos 4 posts. Então vamos parar de enrolar.

1. Defina o problema

Esse é o ponto de início de um trabalho ou análise estatística. Saber exatamente o que você quer é definir corretamente o problema. Comece com perguntas para as pessoas envolvidas. “Qual é o problema?”, “O que queremos descobrir ou testar?”. Essa é uma das etapas mais importantes porque se a definição do problema estiver errada, todo o resto estará.

Exemplos: “Queremos saber qual o perfil das pessoas que entram no hospital com princípio de infarto?”; “Quais são os fatores de risco mais significantes para desenvolver câncer de mama?”; ou até mesmo, “Será que o remédio A é mais eficiente que o B?”

2. Defina qual é o conjunto de dados ideal

O conjunto de dados ideal será aquele que conseguirá apresentar respostas para as perguntas (definição do problema). Uma saída é desenvolver um layout com os dados necessários para compor a base de dados. Se isso não for necessário, pode trabalhar com uma base de dados pronta.

Exemplos: “Base de dados dos hospitais apenas com os pacientes que deram entrada com princípio de infarto.”; “Base de dados das mulheres que desenvolveram câncer de mama em uma determinada região.”; “Base de dados de laboratórios que estão testando a eficiência de remédios.”

3. Determine quais os dados você vai acessar

Diante de todos os dados que você tem, (e acredite, eles podem ser muitos), você terá que trabalhar apenas com aqueles que são significantes para suas análises. Não é necessário trabalhar com tudo que receber. É como se escolhesse algumas variáveis de interesse. Isso facilita o trabalha e não “carrega” excessivamente o conjunto de dados.

Exemplos: “No caso dos pacientes com princípio de infarto, podemos trabalhar com peso, idade, fumante ou não, sedentarismo, estresse, bebe ou não”. E por aí vai. Com essas informações é possível determinar o perfil do indivíduo.

Mas e ai? Os problemas estão resolvidos? Calma que é só o começo.

Mas as perguntas que ficam são: Você segue esses passos? Define o seu problema? Planeja muito bem como vai obter os dados? Ou simplesmente vai analisando e depois ver se consegue obter respostas?

Na empresa que você trabalha, consegue planejar e definir muito bem o objetivo, antes de começar as análises? Compartilhe sua experiência.


Material usado

Imagem do homem com as mãos nos gráficos: http://bit.ly/2ebi1My

Siga-nos nas redes sociais

Facebook: https://www.facebook.com/oestatistico

Twitter: https://twitter.com/oestatisticoweb

Instagram: https://www.instagram.com/oestatistico

Pinterest: https://br.pinterest.com/estatisticoblog