Por Dentro da COVID-19 em uma Competição de Análise de Dados

No meu texto “TOP 5 Fontes em R sobre COVID-19”, eu falo sobre a família Coronavírus e as consequências que a COVID-19 vem gerando para a população mundial. Em meio a cenários assustadores, Donald Trump, Presidente dos Estados Unidos, concedeu uma entrevista ao lado da força-tarefa da Casa Branca, para combater o novo Coronavírus.

O presidente disse que a pandemia é sem precedentes e comparou o cenário à Segunda Guerra Mundial.

“Toda geração de americanos foi convocada a fazer sacrifícios para o bem da nação. Nós vamos derrotar o inimigo invisível, será uma vitória total”

Donald Trump – Presidente dos Estados Unidos

Da mesma forma que a população americana, os países da Europa e todos os outros que estão sendo afetados, o Brasil também teve que fazer concessões; e provavelmente sua cidade está irreconhecível.

Atualmente moro no Rio de Janeiro, no bairro com a maior concentração de idosos do município: 1 idoso a cada 3 pessoas. A dinâmica da cidade mudou muito: eventos e shows cancelados; cinemas e teatros fechados; suspensão das aulas nas escolas públicas, privadas e universidades; feiras suspensas; redução em 50% do transporte coletivo; fechamento de academias e shopping centers; restrição às praias e hotéis; suspensão de voos.

Neste momento estamos passando por uma situação grave e você pode ajudar a entender a COVID-19. O que acha? Não está acreditando? Deixa-me explicar.

A Kaggle, uma empresa subsidiária do Google, gerencia a maior plataforma de hospedagem para projetos e competições de ciência de dados que existe atualmente. Ela disponibiliza um tema com datasets, kernels, plataforma de aprendizado e fórum para perguntas.

E adivinha qual é o projeto da vez?

covid

A competição da Kaggle é uma excelente oportunidade para você treinar e aumentar suas habilidades em ciência de dados, competindo com gente do mundo todo. Mas essa não é uma competição qualquer! Você pode realmente contribuir para combater a pandemia e ajudar a população.

Se você tem habilidades em Linguagem R ou Python e possui um inglês intermediário pode contribuir e fazer a diferença. Vou te passar mais alguns detalhes.

Bases de dados

Em resposta à pandemia da COVID-19, a Casa Branca e os principais grupos de pesquisa prepararam uma base de dados de pesquisa aberta à COVID-19 (CORD-19). O CORD-19 é um recurso de mais de 29.000 artigos acadêmicos, incluindo mais de 13.000 com texto completo, sobre a relação da COVID-19, SARS-CoV-2 e coronavírus.

Esse conjunto de dados está disponível gratuitamente. Ele é fornecido à comunidade de pesquisa global para aplicar os recentes avanços no processamento de linguagem natural e outras técnicas de Inteligência Artificial para gerar novos insights em apoio à luta contínua contra doenças infecciosas.

Neste cenário, há uma crescente urgência para essas abordagens, devido à rápida aceleração de novas literaturas sobre o coronavírus; dificultando o acompanhamento da comunidade de pesquisa médica.

Vem competir!

A Kaggle está emitindo um apelo à ação dos especialistas em inteligência artificial do mundo todo para desenvolver ferramentas de mineração de texto e dados que podem ajudar a comunidade médica a desenvolver respostas para perguntas científicas de alta prioridade.

O conjunto de dados CORD-19 representa a mais extensa coleção de literatura de coronavírus legível por máquina disponível para mineração de dados até o momento. Isso permite que a comunidade mundial de pesquisa em Inteligência Artificial tenha a oportunidade de aplicar abordagens de mineração de texto e dados para encontrar respostas a perguntas e conectar informações sobre esse conteúdo em apoio aos esforços contínuos de resposta à COVID-19 em todo o mundo.

Uma lista das principais perguntas iniciais pode ser encontrada na seção Tarefas do Projeto. Mas para motivar ainda mais você, qual seria a sua sensação ao responder estas perguntas e ajudar a humanidade?

  1. O que se sabe até o momento sobre transmissão, incubação e estabilidade ambiental?
  2. O que sabemos sobre os fatores de risco da COVID-19?
  3. O que sabemos sobre genética, origem e evolução do vírus?
  4. O que sabemos sobre diagnóstico e vigilância?
  5. O que sabemos sobre as vacinas?

Muitas dessas perguntas são adequadas para realizar mineração de texto, e incentivamos os pesquisadores a desenvolver ferramentas para fornecer informações sobre essas questões.

Premiação

Você desenvolve suas habilidades, ajuda a humanidade respondendo questões sobre a pandemia e ainda leva um dinheiro? Isso mesmo! É assim que funciona a competição.

A Kaggle está patrocinando um prêmio de US$ 1.000 (que valem R$ 50 mil, rsrs) por tarefa ao vencedor cuja submissão é identificada como a que melhor atende aos critérios de avaliação. O vencedor pode optar por receber este prêmio como uma doação de caridade aos esforços de auxílio / pesquisa da COVID-19 ou como um pagamento monetário.

Apoiadores

Esse conjunto de dados foi criado pelo Instituto Allen para Inteligência Artificial em parceria com a iniciativa de Chan Zuckerberg, o Centro de Segurança e Tecnologia Emergente da Universidade de Georgetown, a Microsoft Research e a Biblioteca Nacional de Medicina – Institutos Nacionais de Saúde, em coordenação com o Escritório da Casa Branca de Política de Ciência e Tecnologia.

Acredito que apresentei motivos suficientes para você embarcar nessa competição. Se você está com as aulas suspensas ou de férias do trabalho (ou mesmo no esquema home office e economizou o tempo do transporte), vai nessa!

Você só tem a ganhar e a população mundial também!