Analisando 25 Milhões de Datasets

Saudades da época que eu coletava dados em pontos de ônibus, saídas de supermercados e ruas do centro da cidade de Presidente Prudente. Saudades da época que para conseguir um dataset (conjunto de dados) considerável e fugir um pouco da estatística não-paramétrica fazíamos uma odisseia pelos departamentos da Universidade e pela biblioteca.

Saudades? Claro que não!

Vivemos a era de dados em abundância. Nunca se coletou e armazenou tantos dados como atualmente.

Mas coletar dados e armazenar não nos diz muito, certo? Se de agora em diante você puder acessar praticamente dados de tudo quanto é tipo de informação? Se puder usá-los para aprender a analisar dados nas mais variadas ferramentas e sistemas?

Agora você pode! O Google acabou de tornar oficial (não está mais em beta) a ferramenta de pesquisa de conjuntos de dados chamada de “Google Dataset Search”.

O que isso tem a ver com você? Tudo, né! Os dados são sua matéria-prima.

Descobrindo milhões de datasets

Existem milhões de conjuntos de dados sobre praticamente qualquer assunto na internet. Se você quer comprar um filhote de cachorro, pode facilmente encontrar dados registrando comportamento das raças e reclamações dos donos. Se você vai visitar a cidade do Rio de Janeiro pode encontrar um conjunto de dados com preços de restaurantes e planejar melhor as viagens, pois os preços por aqui oscilam muito.

A pesquisa realizada pelo “Google Dataset Search” indexou 25 milhões de datasets pelo mundo. Quando você realizar a busca, os dados vão aparecer de diferentes maneiras: podem ser de graça, pagos, arquivos com acesso direto ou link para a página de quem está fornecendo os dados. Basicamente, você vai contar com esses filtros:

datasets

O que tem de novidades nas pesquisas?

Com base no aprendizado da versão beta, o Google adicionou mais recursos. Agora você pode filtrar os resultados com base nos tipos de conjuntos de dados (tabelas, texto, imagens) ou filtrar por conjuntos fornecidos gratuitamente.

Caso você esteja procurando por conjuntos de dados de áreas geográficas, possivelmente encontrará mapas.

Uma outra novidade é que agora os conjuntos de dados possuem descrições de qualidade. Você encontrará informações de atualização dos conjuntos de dados, período de coleta, fontes, variáveis e descrição. Um exemplo são as informações de crédito ao consumidor no Brasil.

datasets

Praticamente, qualquer pessoa que publique dados pode torná-los detectáveis pela ferramenta de busca do Google. Basta descrever as propriedades de seus conjuntos de dados em sua própria página na web, usando um padrão aberto chamado schema.org.

Isso significa que os dados disponíveis pela plataforma tendem a aumentar conforme os proprietários forem concedendo os acessos.

Isso é uma maravilha! Estou ansioso para começar a brincar com alguns conjuntos de dados fora do comum, como por exemplo: hábitos de compras de supermercado dos mexicanos; produção de minerais na Irlanda; visitantes na Islândia (país que quero muito conhecer).

Se você já usou a ferramenta deixa aqui seu comentário. O que achou?