Big Data Real-Time Analytics com Python e Spark

Conforme prometido, hoje vamos falar sobre o segundo curso da “Formação de Cientista de Dados“. O foco agora é “Big Data Real-Time Analytics com Python e Spark“. De forma extraordinária, esse curso será dedicado a como coletar, organizar e analisar dados em tempo real (ou Real-Time Analytics). Se você acha que analisar dados armazenados já não é mais um desafio, ou quer analisar dados mais rápido; eu convido você a conhecer as ferramentas de análise de dados em tempo real.

E por que analisar dados em tempo real é importante? Porque existem negócios, aonde as decisões devem ser tomadas baseada em fatos, no momento em que eles ocorrem.

Existem muitos casos em que análises em tempo real são necessárias. Para exemplificar o que eu estou falando, vou citar 3 situações, onde o tempo influencia o resultado; e o passado já não é tão importante quanto o presente:

  • A cidade de Chicago reduziu o crime e melhorou o bem-estar da população, realizando análises geoespaciais em tempo real, em todos os seus departamentos, considerando informações como, locais de ônibus, chamadas de emergência, e até mesmo tweets relatando a situação da cidade.
  • A Expedia, empresa norte-americana de viagens e tecnologia, analisa em tempo real, as anotações de compras e viagens de seus clientes no aplicativo Scratchpad, permitindo uma melhor experiência do cliente, quando ele quiser utilizar novamente os serviços.
  • A cidade do Rio de Janeiro está usando a tecnologia para transformá-la em uma cidade inteligente. ; tudo isso em tempo real, para atender mais de 6,5 milhões de pessoas.

Como você pode perceber, analisar dados em tempo real é uma necessidade cada vez maior. Dados gerados em alta velocidade é uma das principais características do big data, o que requer novos métodos de análise. O Analytics precisa ser em tempo real.

E para ajudar na missão de analisar dados cada vez mais rápido, as ferramentas utilizadas serão Linguagem Python e Spark. Duas das principais ferramentas utilizadas pelos Cientistas de Dados.

Se você não está convencido de que esse tipo de análise está em crescimento exponencial, é melhor você continuar lendo essa matéria.

Por que fazer?

Para algumas empresas, as oportunidades acontecem em segundos. Se você não quiser perdê-las, deve reagir imediatamente, e de forma inteligente; analisando dados em tempo real. A compra de ações; ajustes de preços de produtos e serviços, com base no comportamento do cliente; análise de dados de séries temporaisSão algumas situações em que podemos aplicar análise de dados em tempo real.

Você talvez ainda não tenha percebido, mas algumas empresas analisam o seu comportamento em tempo real, quando você consome produtos ou serviços. Se você já comprou algum produto da ; pesquisou passagens aéreas na internet, em sites como Decolar; reservou hotéis, em sites como Booking.com; já deve ter percebido, que essas empresas oferecem serviços personalizados o tempo todo.

Isso acontece, porque as empresas trabalham com Sistemas de Recomendação baseado em seu comportamento como consumidor. E acredite, tem muita estatística envolvida nesse tipo de análise.

Além de compreender como essas análises funcionam, você terá a oportunidade de aprender duas das linguagens mais usadas por Cientistas de Dados: Python e Spark.

Duas das linguagens mais utilizadas por Cientistas de Dados: Python e Spark

O que eu vou aprender?

O curso será dividido em 2 partes. Na primeira você vai aprender como usar a Linguagem Python para coletar, organizar e analisar dados, e como utilizar os principais algoritmos de Machine Learning. Na segunda parte do curso, você vai aprender a trabalhar com framework Spark para armazenar Big Data e realizar análise de dados em tempo real.

Dentro dessas duas etapas serão apresentados diversos conceitos, entre eles Hadoop; manipulação de dados com Pandas; Web Text Mining; Machine Learning com Scikit-Learn; Aprendizagem Supervisionada X Aprendizagem Não Supervisionada; Processamento de Linguagem Natural; Cluster Spark; Python Elastic Search.

Para ajudar com toda essa programação, diversos conceitos estatísticos serão implementados, e você terá a oportunidade de relembrá-los, ou aplicá-los em uma nova realidade.

Probabilidade, Testes de Hipóteses, Teorema de Bayes, Correlação e Regressão, Simulação de Monte Carlo, Regressão Linear, Bootstrapping, Regressão Logística, Análise Multivariada (Cluster), são apenas alguns temas que serão abordados nesse curso.

Está animado para aprender tudo isso dentro de um novo contexto? Eu sei que não é fácil; mas é possível! E eu estou realmente animado com tudo isso!

Onde posso aplicar?

Com esse conhecimento adquirido, você poderá aplicar suas análises em qualquer situação que exija análise de dados em tempo real. Já pensou que tipo de decisões poderão ser tomadas, e quais serão os benefícios dessas ações?

Alguns exemplos de aplicações:

  • Criar um Sistema de Reconhecimento de Imagens. O faz isso muito bem, e já existem várias empresas interessadas nesse assunto.
  • Analisar dados do Twitter em tempo real. Como foi o caso da cidade de Chicago, citado no início do texto.
  • Analisar o sentimento de investidores.
  • Analisar o comportamento de navegação do cliente, em uma página de reserva de hotéis, para recomendar quartos.

Percebeu a quantidade de situações em que podemos aplicar esse conhecimento? As aplicações são diversas, e você pode confirmar o que eu disse, adquirindo conhecimento, e aplicando no seu dia a dia.

P.S: Se você se interessou pelo curso, como eu me interessei, não perca tempo, e acesse o site da Data Science Academy para maiores informações. Esse curso específico começa dia 1 de agosto. Se você perdeu alguma matéria dessa série, é só clicar no link abaixo:

Curso 1: Big Data Analytics com R e Microsoft Azure Machine Learning.


Siga-nos nas redes sociais

Facebook: https://www.facebook.com/oestatistico

Twitter: 

Instagram: 

Pinterest: