Big Data Analytics com Hadoop

Sobre o curso

Este curso ensina a instalar e gerenciar um ambiente completo de Big Data, através de um Cluster Hadoop e ferramentas que integram seu ecossistema: Zookeeper, HBase, Sqoop, Flume, Hive, Pig, Spark, Oozie, Hue, Zeppelin e Ambari.

Após este curso o aluno estará apto a:

  • Compreender o mercado para Análise de dados em Big Data;
  • Analisar, planejar a implementação de um Cluster Hadoop e realizar sua manutenção;
  • Implementar e gerenciar um Cluster HBase (banco de dados NoSQL);
  • Realizar a ingestão de dados SQL no HDFS/HBase/Hive através da ferramenta Sqoop;
  • Realizar a ingestão de Logs no HDFS/HBase através da ferramenta Flume;
  • Implementar e gerenciar um Data Warehouse através do Hive;
  • Realizar analise de dados utilizando funções agregadas e integração com HDFS/HBase;
  • Realizar analise de dados utilizando Pig através de operadores;
  • Integrar as ferramentas Pig e Hive para realizar a importação de dados;
  • Exportação de dados no Pig para HDFS/HBase;
  • Instalar e ativar o suporte Tez para as ferramentas Hive e Pig;
  • Implementar o Spark e compreender seu ecossistema;
  • Criar Datasets no Spark e realizar analises via Spark SQL;
  • Automatizar a Extração, Transformação e Carga (ETL) unindo diversas ferramentas através do Oozie;
  • Agendar operações de ETL através do Oozie;
  • Implementar um ambiente Dashboad para o Hadoop através do Hue;
  • Gerenciar as ferramentas Zookeeper, Hbase, Sqoop, Flume, Hive, Pig, Spark e Oozie em ambiente gráfico;
  • Implementar a ferramenta Zeppelin que é capaz de produzir gráficos a partir analises;
  • Realizar o Deploy e monitoramento de um Cluster Hadoop através da Ferramenta Ambari;
  • Compreender o conceito de Machine Learning com o Mahout;
  • Utilizar a ferramenta Mahout para algoritmo de classificação;
  • Implementar solução de alta disponibilidade para um Cluster Hadoop;
  • Overview das principais soluções em Big Data no Mercado: Cloudera, Hortonworks e MapR..

Conteúdo Programático

Fundamentos Big Data

  • Definição de BigData
  • Conhecendo os 4 V's do BigData
  • Uso de BigData no mercado
  • Soluções Comerciais de BigData
  • A importância do Engenheiro do Dados
  • Introdução a ferramenta Hadoop
  • Introdução ao ecosistema Hadoop

Instalação do Cluster Hadoop

  • Conhecer componentes do Cluster Hadoop
  • Instalação do Cluster Hadoop
  • Configuração do Usuário hduser e SSH
  • Instalação do Hadoop
  • Arquivos de configuração Hadoop
  • Iniciar processos do Hadoop
  • Comandos iniciais
  • MapReduce: Classes e Métodos

Gerenciamento do Cluster Hadoop

  • Gerenciamento do Cluster
  • Aprender comandos essenciais para o Cluster
  • Relatório, Balanceador e Manutenção
  • Ativar e Desativar nó do Cluster Hadoop
  • Alterar fator de replicação de arquivos no Cluster
  • Definir tamanho do bloco HDFS
  • Ativar recuperação de arquivos no Cluster
  • Ativar suporte TEZ no Cluster

HBase/Zookeeper: Hadoop Storage

  • Introdução ao Zookeeper
  • Arquitetura e Componentes
  • Instalação do Zookeeper
  • Introdução ao HBase
  • Arquitetura e Componentes
  • Instalação do HBase
  • Configuração do Cluster HBase
  • Gerenciar tabelas :
  • create, list, desc, disable, drop
  • put, scan, get, alter, delete

Sqoop/Flume: Data Ingestion

  • Introdução ao Sqoop, arquitetura e componentes
  • Instalação e Configuração do Sqoop
  • Importação de banco MySQL e PostgreSQL (HDFS/HBase)
  • Importar resultados de consultas SQL e dados incrementais
  • Projeto 01 - Importar Bancos de Dados MySQL com Sqoop
  • Introdução ao Flume, arquitetura e componentes
  • Instalação e Configuração do Flume
  • Realizar coletas de Logs (HDFS/HBase)
  • Projeto 02 – Importar Logs de servidor Web Apache com Flume

Hive: SQL Query

  • Introdução ao Hive, arquitetura e componentes
  • Instalação do Hive e Metastore (MySQL/PostgreSQL)
  • Tipos de dados e Comandos essenciais
  • SHOW TABLES, CREATE TABLE, DESCRIBE, LOAD DATA, SELECT
  • OVERWRITE, GROUP BY, LIMIT, ORDER BY, DROP TABLE
  • CREATE EXTERNAL TABLE, JOIN, LEFT OUTER, VIEW
  • Funções agregadas
  • Gerenciar importação exportação de dados (HDFS/HBase/Sqoop)
  • Ativar suporte a TEZ no Hive
  • Projeto 03 - Analisar Cadastro de Funcionários

Pig: Scripting

  • Introdução ao Pig , arquitetura e componentes
  • Instalação do Pig, Pig Shell
  • Carregar Diferentes tipos de dados
  • Manipular operadores:
  • LOAD, DESCRIBE, DUMP, FILTER, GROUP
  • FOREACH, ORDER, LIMIT, STORE, JOIN
  • Integração do Pig com tabelas do HBase/Hive (HCatalog)
  • Ativar suporte a TEZ no Pig
  • Projeto 04 - Analisar Cadastro de Clientes

Spark: Hadoop in Memory

  • Introdução ao Spark, arquitetura e componentes
  • Instalação do Spark e Scala Spark Shell: Carregar tipos de dados Text/CSV/JSON
  • Criar Datasets no Spark
  • ETL: Obter e Gravar dados no HDFS/Hive/HBase
  • Gerenciar banco e tabelas com Spark SQL
  • Projeto 05 - Analisar Cadastro de Encomendas
  • Oozie: Workflow Scheduler
  • Introdução ao Oozie, arquitetura e componentes
  • Instalação e Configuração do Oozie
  • Configurar Workflow Applications (sqoop, hive, pig, spark)
  • Configurar Fork Nodes e Envio de e-mails
  • Coonfigurar Oozie Coordinator
  • Projeto 06 - Automatizar Analises de Dados através do Oozie

Hue: Hadoop Dashboard

  • Introdução ao Hue, arquitetura e componentes
  • Preparar ambiente Hadoop
  • Instalação e Configuração do Hue
  • Iniciar Cluster e Ecosistema
  • Iniciar Hue Dashboard e finalizar configurações
  • Projeto 07 - Executar Analises de Dados através da interface Hue

Zeppelin: Data Visualization

  • Introdução ao Zeppelin, arquitetura e componentes
  • Instalação e Configuração do Zeppelin
  • Executar tarefas com os seguintes interpretadores
  • psql (Hive)
  • pig/pig.query
  • spark
  • Projeto 08: Gerar gráficos a partir de Analises de Dados

Ambari: System Deployment

  • Introdução ao Ambari,
  • Arquitetura e componentes
  • Instalação e Configuração do Ambari
  • Provisionar Cluster Hadoop

Diferenciais deste Curso

  • Único Curso do Mercado que prepara o aluno para trabalhar com diversas ferramentas em conjunto: Hadoop. Zookeeper, HBase, Sqoop, Flume, Hive, Pig, Spark, Oozie, Hue e Zeppelin; Curso totalmente prático, onde o aluno pode aplicar os conhecimentos aprendidos no próximo dia de trabalho; Ambiente virtual desenvolvido a partir de cenários enfrentados diariamente por Engenheiros de Dados; Integrações entre diversas ferramentas para realizar operações de ETL

Pré-requisitos

  • Para acompanhar este curso, o aluno deve saber utilizar computadores, inicializar uma máquina virtual com VirtualBox. Recomenda-se saber o básico de administração de máquinas Linux, mas não é essencial.

Carga Horária

Curso Presencial: 40H

  • 40 horas

Próximas Turmas

Início Término Horário
05/02/2018 09/02/2018 Diurno - Segunda a Sexta das 08:30h às 17:30h

Temos outras turmas, para mais informações entre em contato com um de nossos vendedores.

Compartilhe esta página

Receba Datas e Valores

Quem irá pagar o seu curso?
Modalidades
Preferência de horário
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
4 + 2 =
Resolva este problema matemático simples e digite o resultado. Por exemplo para 1+3, digite 4.