Python and Hadoop for Data Engineering

Sobre o curso

A maioria das empresas armazena dados em diversos formatos seja em bases de dados ou arquivos de texto. E é aí que surge a necessidade de um profissional com perfil diferente: o Engenheiro de Dados. Geralmente, o dado não está preparado para o uso imediato do Cientista de Dados. É que a massa de dados seja otimizada para que o Cientista consiga fazer o melhor uso possível deste ativo tão valioso que dirige as tomadas de decisão das principais empresas no mundo.

O mercado de Big Data entendeu que era importante deixar com que o Cientista de Dados foque apenas no que fazer com os dados e que é necessário um profissional com foco em como acessá-los. O Engenheiro de Dados deve ser capaz de criar pipelines que transformem a massa de dados em formatos analisáveis pelo Cientista de Dados. O pipeline é um processo composto pelas operações de ingestão, processamento, armazenamento e acesso de dados. O Engenheiro de Dados tem perfil generalista e é focado no pipeline e em bases de dados.

O profissional que deseja ser Engenheiro de Dados deve começar aprendendo sobre como arquitetar sistemas distribuídos e armazéns de dados, criar pipelines confiáveis, combinar diversas fontes de dados, colaborar com a equipe de Ciência de Dados. A comunicação entre o Engenheiro de Dados e o Cientista de Dados é vital para o sucesso da empresa que deseja trabalhar com Big Data. Este curso é sua porta de entrada para o mundo do Engenheiro de Dados e apresentará uma visão geral e essencial das principais ferramentas que ele deve dominar. Nosso curso é focado em ferramentas abertas uma vez que Open Source é a principal razão pela evolução do Big Data. Além disso, este curso mostra como é a integração e comunicação entre as áreas de Ciência e Engenharia de Dados.

O curso tem como objetivo apresentar as principais ferramentas Open Source do mundo de Engenharia de Dados com exemplos e práticas reais do mercado focando principalmente em Hadoop e nas APIs essenciais de Python para Big Data.

Após este curso o aluno estará apto a:

  • Compreender os princípios básicos de Big Data
  • Entender como um Engenheiro de Big Data aplica as tecnologias para resolução de problemas relacionados a dados
  • Extrair e carregar tabelas a partir de arquivos, bases de dados e outras fontes (ETL)
  • Analisar dados a partir do Python
  • Preparar infraestrutura para trabalhar com APIs de Machine Learning em Python
  • Conhecer os principais algoritmos de Machine Learning
  • Acelerar o processamento de grandes bases de dados
  • Usar os principais algoritmos de Machine Learning com Python
  • Planejar e implementar um projeto de Big Data para Análise e Visualização de Dados
  • Usar o principal framework de Big Data, o Hadoop
  • Usar o Spark

Conteúdo Programático

Introdução a Big Data

  • O que é Big Data?
  • Exemplos de Aplicações de Big Data
  • A relação entre Big Data, Machine Learning e Computação de Alto Desempenho,
  • O que é um Datalake
  • Conhecendo os profissionais dos Dados
  • Diferenças entre Big Data, Data Analytics e Data Science
  • Compreendendo o papel do Engenheiro de Dados
  • O que é o Apache Hadoop?
  • O que é o Ecossistema Hadoop
  • Conhecendo as soluções comerciais com Hadoop
  • Armazenamento distribuído com Apache HDFS
  • Aprendendo a trabalhar com Big Data usando a distribuição Hadoop Hortonworks HDP

Hadoop

  • O que é um cluster?
  • Arquitetura de um cluster Hadoop
  • Componentes do Hadoop
  • Introdução ao Apache Ambari
  • Modos de Execução do Apache Hadoop
  • Processamento distribuído com Apache MapReduce
  • Gerenciamento de Arquivos e Diretórios no HDFS
  • Pesquisa por objetos no cluster
  • Obtenção de estatísticas sobre os objetos no HDFS
  • Gerenciamento de permissões no HDFS

Dados Não-estruturados e ETL

  • Introdução ao Pig
  • Arquitetura do Pig
  • Carregar Dados em Tabelas
  • Gerenciamento de operadores no Pig
  • Introdução ao Hbase
  • Criar tabela e adicionar, pesquisar, contar e remover registros no Hbase
  • Trabalhando com filtros no Hbase e Importar e exportar dados do Hbase com Pig
  • Teorema CAP

Dados Estruturados e ETL

  • Introdução ao Hive
  • Comandos essenciais do Hive
  • Carregamento de tabelas no Hive
  • Executar comandos Hive via script
  • Importar dados do HDFS para MySQL
  • Exportar dados do Hive para o Hbase
  • Funções Agregadas no Hive
  • Gerenciando Partições no Hive, Importar e exportar dados do Hive com Pig

ETL e Troubleshooting no Hadoop

  • Introdução ao Sqoop e ao Flume
  • Importar banco, tabela e dados incrementais do MySQL para o HDFS
  • Importar banco e tabela do MySQL para o Hbase
  • Exportar dados do banco MySQL para o HDFS
  • Coleta de dados com o Flume e gravação no HDFS e Hbase
  • Monitoramento com Apache Ambari
  • Troubleshooting no Hadoop

Python para Big Data

  • Por que cientistas de dados escolhem Python?
  • Anaconda Python e IDEs
  • Jupyter Notebook x Zeppelin Notebook
  • Variáveis, Tipos e Estruturas de Dados
  • Estruturas Condicionais e de repetição
  • List Comprehension
  • Funções e Lambdas

Machine Learning com Mahout

  • O que é Machine Learning e tipos de aprendizagem
  • Coleta e preparo de dados, Dados de treino e Dados de teste
  • Introdução ao Apache Mahout e Algoritmos de Classificação e Clusterização
  • Componentes do Mahout (DataModel, UserSimilarity)
  • O que são filtros colaborativos (user based e item based)
  • Mahout com Python

Spark

  • O que é o Apache Spark?
  • Apache Spark x Hadoop
  • Como funciona uma aplicação Spark
  • O que são RDDs?
  • Spark Workflow e Spark Framework
  • Spark MLlib
  • Linguagem SQL e Spark SQL
  • Spark SQL com RDDs, CSV e JSON
  • Spark SQL com Banco Relacional e Não Relacional
  • PySpark

Análise de Dados e HPC com Python

  • Análise de dados com Numpy e Pandas
  • Visualização com Matplotlib, Seaborn e Bokeh
  • Introdução ao Numba
  • A revolução das GPUs em Machine Learning
  • Introdução ao Tensorflow

Machine Learning com Python

  • Introdução ao Scikit-Learn
  • Redes Neurais Artificiais (Perceptron e MLP)
  • Introdução a Redes Neurais Artificiais com Python
  • Processamento de Linguagem Natural com Word2Vec

WebScraping

  • Introdução a Crawlers
  • Fazendo crawling com Scrapy
  • Usando APIs para redes sociais
  • Armazenando e lendo dados a partir de arquivos CSV

Diferenciais deste Curso

  • Único curso no Brasil que apresenta como os temas Big Data, Machine Learning, Computação de Alto Desempenho e Análise de Dados estão relacionados e a importância de cada área para um Engenheiro de Dados
  • Todo material em língua portuguesa (existem muitos concorrentes que só disponibilizam curso em inglês)
  • Oportunidade de conhecer as experiências reais de empresas do Brasil e do mundo que aplicaram as práticas ensinadas.

Pré-requisitos

  • Para acompanhar o curso, o aluno deve saber utilizar computadores, inicializar uma máquina virtual com VirtualBox e ter conhecimentos em administração de sistemas GNU/Linux
  • Conhecimento básico de comandos shell do Linux
  • Favorável: Conhecer comandos SQL básicos
  • Deverá conhecer lógica de Programação
  • Ter cursado Python Fundamentals ou ter conhecimento equivalente

Carga Horária

Curso Presencial: 40H

  • Diurno: 1 semana de segunda a sexta-feira, 8 horas diárias.
  • Noturno: 2 semanas de segunda a sexta-feira, 4 horas diárias.
  • Sábados: 5 sábados, 8 horas diárias.

Próximas Turmas

Início Término Horário
20/08/2018 24/08/2018 Diurno - Segunda a Sexta das 08:30h às 17:30h
26/09/2018 09/10/2018 Noturno - Segunda à Sexta das 18:30h às 22:30h
29/10/2018 12/11/2018 Noturno - Segunda à Sexta das 18:30h às 22:30h

Temos outras turmas, para mais informações entre em contato com um de nossos vendedores.

Compartilhe esta página

Receba Datas e Valores

Quem irá pagar o seu curso?
Modalidades
Preferência de horário
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
16 + 0 =
Resolva este problema matemático simples e digite o resultado. Por exemplo para 1+3, digite 4.