Sem Contexto, Dados são Inúteis

Eu sempre reforço a importância de entender o negócio ao qual você está inserido. Se você é estatístico ou um profissional que trabalha com análise de dados precisa entender o contexto para que compreenda os dados e suas análises sejam úteis e verdadeiras.

Por exemplo: quando eu trabalhei em um projeto que continha dados de agricultura e pecuária do Estado de São Paulo, eu visitei a CEAGESP (Companhia de Entrepostos e Armazéns Gerais de São Paulo) para entender como os alimentos chegavam e como eram distribuídos. Participei de reuniões no Polo Regional Alta Sorocabana – Presidente Prudente para discutir os dados e ler os relatórios de produção.

“Entender o contexto fez toda a diferença nas minhas análises.”

O que quero deixar evidente é que suas análises podem ser bem mais enriquecedoras se você conhecer o negócio ao qual está inserido. A estatística, a matemática e a programação são muito importantes para analisar dados. Mas você precisa saber a história por trás deles e não deve começar uma análise munido de conclusões pré-concebidas.

Para ilustrar historicamente a mensagem que eu quero transmitir para você, eu apresento um trecho retirado do livro “O Sinal e o Ruído – Por que tantas previsões falham e outras não”, escrito por Nate Silver.


Em seus últimos anos de trabalho, Fischer atenuou o tom de suas críticas, chegando, por vezes, a elogiar Bayes. E alguns métodos que desenvolveu durante sua longa carreira (mesmo os que não são muito praticados hoje em dia) foram, na realidade, frutos de concessões entre abordagens bayesianas e frequentistas. No período final de sua vida, contudo, Fischer cometeu um grave erro de julgamento, que ajuda a demonstrar os limites de sua abordagem.

A questão dizia respeito ao fumo e ao câncer de pulmão. Na década de 1950, uma pesquisa em grande escala – usando métodos estatísticos convencionais e bayesianos – alegava existir vínculo entre as duas coisas, uma conexão que, claro, é muito aceita hoje.

Fischer passou grande parte dos últimos anos da sua vida contestando essas conclusões por meio de cartas publicadas em periódicos respeitáveis, como The British Medical Journal e Nature. Ele não negava que eram bastante eloquentes os indícios da relação estatística entre cigarros e câncer de pulmão apresentados nesses estudos, mas alegava se tratar de um caso de correlação confundido com casualidade, comparando-o à correlação histórica entre a importação de maçãs e o índice de casamentos realizados na Inglaterra.

A certa altura, argumentou que o câncer de pulmão levava ao consumo de cigarros, e não o contrário – a ideia, ao que parece, indicava que as pessoas começavam a fumar em busca de algum alívio, para suas dores no pulmão.

Muitas descobertas científicas aceitas hoje seriam descartadas como tolices em determinados momentos da história, por causa de tabus culturais em vigor (como a alegação de Galileu que a Terra gira em torno do Sol), mas, muitas vezes, porque ainda não existiam os dados necessários à análise do problema.

Poderíamos desculpar Fischer se fosse, por fim, estabelecido que não havia indícios convincentes, nos anos 1950, para sugerir um vínculo entre cigarros e câncer de pulmão. No entanto, especialistas que voltaram a estudar a questão e reexaminaram os indícios disponíveis concluíram que esses existiam, sim, e de sobra – uma ampla variedade de testes estatísticos e clínicos demonstrava uma relação causal entre os fenômenos. A ideia tornava-se, com rapidez, um consenso científico.

Então, por que Fischer descartou a teoria? Talvez por ter sido um consultor pago pela indústria do tabaco. Talvez por ter sido um fumante por toda a vida. E Fischer gostava de desempenhar o papel daquele que remava contra a corrente, do polemista, e mostrava aversão a tudo que sugerisse puritanismo. Em resumo, sua abordagem mostrava-se parcial em vários aspectos.

Porém, o maior problema talvez tenha sido a maneira como a filosofia estatística de Fischer tende a conceber o mundo, pois enfatiza a pureza objetiva da experiência realizada: todas as hipóteses poderiam ser testadas e conduzir a uma conclusão perfeita, bastando que uma quantidade suficiente de dados fosse coletada.

No entanto, para alcançar essa pureza, nega-se a necessidades das probabilidades prévias bayesianas ou de qualquer outro aspecto de contexto confuso, e ligado ao mundo real, que possa tornar o quadro menos nítido. Esses métodos não exigem e nem nos estimulam a pensar na plausibilidade de nossa hipótese: a ideia de que cigarros provocam câncer compete, em nível de igualdade, com a sugestão de que sapos preveem terremotos.

Depõe a favor de Fischer, creio, reconhecer que uma correlação nem sempre indica causalidade. Contudo, os métodos estatísticos fischerianos não nos encorajam a pensar em quais correlações implicam ou não causas. Talvez não seja surpreendente que, depois de uma vida inteira pensando desse jeito, Fischer tenha perdido a capacidade de distinguir entre uma coisa e outra.


P.S: Eu comprei 15 livros do Nate Silver e dei de presente para minha equipe. Recomendo a leitura!

dados
Capa do Livro