Python and Hadoop for Data Engineering

Sobre o curso

O curso tem como objetivo apresentar as principais ferramentas Open Source do mundo de Engenharia de Dados com exemplos e práticas reais do mercado focando principalmente em Hadoop e nas APIs essenciais de Python para Big Data.

Após este curso o aluno estará apto a:

  • Compreender os princípios básicos de Big Data
  • Entender como um Engenheiro de Big Data aplica as tecnologias para resolução de problemas relacionados à dados
  • Como configurar um cluster Hadoop
  • Como aplicar técnicas de mapeamento/redução nos dados
  • Como usar o sistema de arquivos HDFS
  • Como criar um Data Hub com Hadoop e HBase
  • Extrair e carregar tabelas a partir de arquivos, bases de dados e outras fontes (ETL)
  • Analisar dados a partir do Python
  • Preparar infraestrutura para trabalhar com APIs de Machine Learning em Python
  • Conhecer os principais algoritmos de Machine Learning
  • Acelerar o processamento de grandes bases de dados
  • Usar os principais algoritmos de Machine Learning com Python
  • Planejar e implementar um projeto de Big Data para Análise e Visualização de Dados
  • Usar o principal framework de Big Data, o Hadoop
  • Usar o Spark em conjunto com o Hadoop

Conteúdo Programático

Introdução a Big Data

  • O que é Big Data?
  • Exemplos de Aplicações de Big Data
  • A relação entre Big Data, Machine Learning e Computação de Alto Desempenho
  • Compreendendo o papel do Engenheiro de Dados

Entendendo o Hadoop

  • O que é o Apache Hadoop?
  • Características do Apache Hadoop
  • Armazenamento distribuído com Apache HDFS
  • Processo distribuído com Apache Map Reduce

Instalação e Arquitetura do Hadoop

  • Usando o Apache Hadoop
  • Arquitetura de um cluster Hadoop
  • Conhecendo as soluções comerciais com Hadoop
  • O que é o Apache Spark?
  • Apache Spark x Apache Hadoop

Introdução a Python

  • Por que cientistas de dados escolhem Python?
  • Jupyter Notebook e Jupyter Lab
  • Variáveis, tipos, estruturas de dados, condicionais e de repetição, Lambdas
  • Tratamento de Arquivos, Módulos e Pacotes

Armazenamento de Dados com Hbase

  • Banco de dados relacionais e não relacionais
  • Modelos de dados e Arquitetura Hbase
  • Importando dados com Hbase
  • Trabalhando com Hbase no Cloudera
  • Operações CRUD no Hbase

Armazenamento de Dados com Hive e Conectividade ETL

  • Introdução ao Hive e ao Sqoop
  • Trabalhando com Hive no Hortonworks
  • Importando banco de dados MySQL para o HDFS
  • Importando banco de dados Oracle para o HDFS

Introdução a Machine Learning

  • O que é Machine Learning?
  • Tipos de aprendizagem de máquina
  • Coleta e preparo de dados
  • Dados de treino e dados de testes
  • Big Picture sobre os algoritmos: kNN, kMeans, Árvores de Decisão, Naive Bayes e Regressão Linear

Análise de Dados e Computação de Alto Desempenho com Python

  • Análise de dados com Numpy e Pandas
  • Visualização de dados com Matplotlib, Seaborn e Bokeh
  • Numba
  • A revolução das GPUs em Machine Learning e Introdução ao TensorFlow
  • Análise de desempenho entre aplicações Numpy com e sem Numba

Machine Learning com Python e Apache Mahout

  • Introdução ao Scikit-Learn
  • Introdução ao Apache Mahout
  • Instalação e Configuração do Apache Mahout
  • Executando Kmeans e Naive Bayes no Cloudera

Spark SQL e Pyspark

  • Spark e Machine Learning
  • Spark SQL
  • Pyspark para algoritmos de classificação e regressão

WebScraping com Python

  • Introdução a Crawlers
  • Fazendo crawling com Scrapy
  • Usando APIs para redes sociais

Criando um projeto de Big Data

  • Casos de Uso
  • Como criar um planejamento de projeto
  • Como definir requisitos
  • Projeto Final

Diferenciais deste Curso

  • Único curso no Brasil que apresenta como os temas Big Data, Machine Learning, Computação de Alto Desempenho e Análise de Dados estão relacionados e a importância de cada área para um Engenheiro de Dados
  • Todo material em língua portuguesa (existem muitos concorrentes que só disponibilizam curso em inglês)
  • Oportunidade de conhecer as experiências reais de empresas do Brasil e do mundo que aplicaram as práticas ensinadas.

Pré-requisitos

  • Para o melhor aproveitamento é desejável que o aluno saiba utilizar computadores com sistema operacional Linux e Windows, inicializar uma máquina virtual com VirtualBox e se possível tenha participado de alguma curso da formação Administrador Linux, ou possua conhecimento equivalente.
  • Conhecimento básico de comandos shell do Linux.
  • Favorável: Conhecer comandos SQL básicos.
  • Favorável: Conhecer Lógica de Programação e Python básico.

Carga Horária

Curso Presencial: 40H

  • Diurno: 1 semana de segunda a sexta-feira, 8 horas diárias.
  • Noturno: 2 semanas de segunda a sexta-feira, 4 horas diárias.
  • Sábados: 5 sábados, 8 horas diárias.

Curso Online: 40H

  • Curso EAD ágil
  • 08 horas de aulas online (ao vivo) com o professor através de videoconferência.
  • 32 horas de aulas offline (mínimo recomendado pela 4Linux). Estas horas são alocadas e controladas pelo aluno que deverá acessar o conteúdo digital: vídeo aulas com hands-on e fazer os laboratórios, exercícios e desafios.

Próximas Turmas

Início Término Horário
20/08/2018 24/08/2018 Diurno - Segunda a Sexta das 08:30h às 17:30h

Temos outras turmas, para mais informações entre em contato com um de nossos vendedores.

Compartilhe esta página

Receba Datas e Valores

Quem irá pagar o seu curso?
Modalidades
Preferência de horário
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
5 + 5 =
Resolva este problema matemático simples e digite o resultado. Por exemplo para 1+3, digite 4.