Python and Hadoop for Data Engineering

Sobre o curso

A maioria das empresas armazena dados em diversos formatos seja em bases de dados ou arquivos de texto. E é aí que surge a necessidade de um profissional com perfil diferente: o Engenheiro de Dados. Geralmente, o dado não está preparado para o uso imediato do Cientista de Dados. É que a massa de dados seja otimizada para que o Cientista consiga fazer o melhor uso possível deste ativo tão valioso que dirige as tomadas de decisão das principais empresas no mundo.

O mercado de Big Data entendeu que era importante deixar com que o Cientista de Dados foque apenas no que fazer com os dados e que é necessário um profissional com foco em como acessá-los. O Engenheiro de Dados deve ser capaz de criar pipelines que transformem a massa de dados em formatos analisáveis pelo Cientista de Dados. O pipeline é um processo composto pelas operações de ingestão, processamento, armazenamento e acesso de dados. O Engenheiro de Dados tem perfil generalista e é focado no pipeline e em bases de dados.

O profissional que deseja ser Engenheiro de Dados deve começar aprendendo sobre como arquitetar sistemas distribuídos e armazéns de dados, criar pipelines confiáveis, combinar diversas fontes de dados, colaborar com a equipe de Ciência de Dados. A comunicação entre o Engenheiro de Dados e o Cientista de Dados é vital para o sucesso da empresa que deseja trabalhar com Big Data. Este curso é sua porta de entrada para o mundo do Engenheiro de Dados e apresentará uma visão geral e essencial das principais ferramentas que ele deve dominar. Nosso curso é focado em ferramentas abertas uma vez que Open Source é a principal razão pela evolução do Big Data. Além disso, este curso mostra como é a integração e comunicação entre as áreas de Ciência e Engenharia de Dados.

O curso tem como objetivo apresentar as principais ferramentas Open Source do mundo de Engenharia de Dados com exemplos e práticas reais do mercado focando principalmente em Hadoop e nas APIs essenciais de Python para Big Data.

Após este curso o aluno estará apto a:

  • Entender como um Engenheiro de Big Data aplica as tecnologias para resolução de problemas relacionados à dados
  • Configurar um cluster Hadoop
  • Aplicar técnicas de mapeamento/redução nos dados
  • Trabalhar com Hortonworks
  • Usar o sistema de arquivos HDFS
  • Criar um Data Hub com Hadoop e HBase
  • Extrair e carregar tabelas a partir de arquivos, bases de dados e outras fontes (ETL) usando Sqoop e Flume
  • Importar dados para o HDFS com o Sqoop
  • Administrar e fazer troubleshooting no Hadoop
  • Analisar dados a partir do Python
  • Preparar infraestrutura para trabalhar com APIs de Machine Learning em Python
  • Acelerar o processamento de grandes bases de dados
  • Usar os principais algoritmos de Machine Learning com Python
  • Trabalhar com Spark SQL e Pyspark
  • Realizar webscraping com Python
  • Planejar e implementar um projeto de Big Data para Análise e Visualização de Dados
  • Usar o principal framework de Big Data, o Hadoop
  • Usar o Spark em conjunto com o Hadoop

Conteúdo Programático

  • Introdução a Big Data
  • Arquitetura Hadoop
  • Armazenamento de Dados com Hive e Hbase
  • Dados Estruturados e ETL
  • Conectividade ETL
  • Administração e Troubleshooting no Hadoop
  • Hadoop e Spark
  • Machine Learning com Mahout
  • Introdução a Python
  • Análise de Dados e Computação de Alto Desempenho com Python
  • Machine Learning com Python
  • Spark SQL e Pyspark
  • WebScraping com Python

Diferenciais deste Curso

  • Único curso no Brasil que apresenta como os temas Big Data, Machine Learning, Computação de Alto Desempenho e Análise de Dados estão relacionados e a importância de cada área para um Engenheiro de Dados
  • Todo material em língua portuguesa (existem muitos concorrentes que só disponibilizam curso em inglês)
  • Oportunidade de conhecer as experiências reais de empresas do Brasil e do mundo que aplicaram as práticas ensinadas.

Pré-requisitos

  • Para acompanhar o curso, o aluno deve saber utilizar computadores, inicializar uma máquina virtual com VirtualBox e ter conhecimentos em administração de sistemas GNU/Linux
  • Desejável conhecer comandos básicos do Linux
  • Desejável conhecer comandos SQL básicos
  • Desejável conhecer Lógica de Programação
  • Ter cursado Python Fundamentals ou ter conhecimento equivalente

Carga Horária

Curso Presencial: 40H

  • Diurno: 1 semana de segunda a sexta-feira, 8 horas diárias.
  • Noturno: 2 semanas de segunda a sexta-feira, 4 horas diárias.
  • Sábados: 5 sábados, 8 horas diárias.

Próximas Turmas

Início Término Horário
14/01/2019 28/01/2019 Noturno - Segunda à Sexta das 18:30h às 22:30h
19/01/2019 16/02/2019 Sábado das 09h00 às 18h00
25/02/2019 01/03/2019 Diurno - Segunda a Sexta das 08:30h às 17:30h
06/04/2019 12/05/2019 Sábado das 09h00 às 18h00
13/05/2019 24/05/2019 Noturno - Segunda à Sexta das 18:30h às 22:30h

Temos outras turmas, para mais informações entre em contato com um de nossos vendedores.

Receba Datas e Valores

Quem irá pagar o seu curso?
Modalidades
Preferência de horário
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
8 + 6 =
Resolva este problema matemático simples e digite o resultado. Por exemplo para 1+3, digite 4.

Compartilhe esta página