Big Data Analytics com Hadoop

Sobre o curso

A maioria das empresas armazena dados em diversos formatos seja em bases de dados ou arquivos de texto. E é aí que surge a necessidade de um profissional com perfil diferente: o Engenheiro de Dados. Geralmente, o dado não está preparado para o uso imediato do Cientista de Dados. É que a massa de dados seja otimizada para que o Cientista consiga fazer o melhor uso possível deste ativo tão valioso que dirige as tomadas de decisão das principais empresas no mundo. O mercado de Big Data entende que é importante deixar que o Cientista de Dados foque apenas no que fazer com os dados. Portanto, é necessário um profissional com foco em como acessar estes dados de modo eficiente (alto desempenho) e eficaz (alta acurácia).
O Engenheiro de Dados deve ser capaz de criar meios que transformem a massa de dados em formatos analisáveis pelo Cientista de Dados. O termo técnico para esse meio é pipeline. O pipeline é um processo composto pelas operações de ingestão, processamento, armazenamento e acesso de dados. O Engenheiro de Dados tem perfil generalista e é focado no pipeline e em bases de dados. O profissional que deseja ser Engenheiro de Dados deve começar aprendendo sobre como arquitetar sistemas distribuídos e armazéns de dados, criar pipelines confiáveis, combinar diversas fontes de dados, colaborar com a equipe de Ciência de Dados.
A comunicação entre o Engenheiro de Dados e o Cientista de Dados é vital para o sucesso da empresa que deseja trabalhar com Big Data. Este curso é a porta de entrada para o mundo do Engenheiro de Dados e apresenta uma visão geral e essencial das principais ferramentas que o aluno deve dominar. Nosso curso é focado em ferramentas abertas uma vez que Open Source é a principal razão pela evolução do Big Data.
Além disso, este curso mostra como é a integração e comunicação entre as áreas de Ciência e Engenharia de Dados. O curso tem como objetivo apresentar as principais ferramentas Open Source do mundo de Engenharia de Dados com exemplos e práticas reais do mercado focando principalmente em Hadoop e Spark.
Este curso apresenta aspectos relacionados a infraestrutura de Hadoop, em especial, nos tópicos de troubleshooting, gerenciamento de usuários (Knox, Ranger, ACLs) e, também, tópicos relacionados a alta disponibilidade e balanceamento no Hadoop. Com isso, passamos a atender em 100% dos requisitos para a certificação HDPCA (HDP Certified Administrator) e HDPCD (HDP Certified Developer) da Hortonworks. Este curso agora também se preocupa em orientar o aluno mostrando como encaixar todas essas ferramentas open source em uma arquitetura de dados: lambda. É importante que o Engenheiro de Dados domine uma linguagem de programação que seja fácil de aprender e seja escalável, por isso, adotamos a linguagem Scala para este curso.

Após este curso o aluno estará apto a:

  • Compreender os princípios básicos de Big Data;
  • Entender como um Engenheiro de Big Data aplica as tecnologias para resolução de problemas relacionados à dados;
  • Configurar um cluster Hadoop;
  • Aplicar técnicas de mapeamento/redução nos dados;
  • Trabalhar com Hortonworks;
  • Usar o sistema de arquivos HDFS;
  • Criar um Data Hub com Hadoop e HBase;
  • Extrair e carregar tabelas a partir de arquivos, bases de dados e outras fontes (ETL) usando Sqoop, Flume e Kafka;
  • Importar dados para o HDFS com o Sqoop;
  • Administrar e fazer troubleshooting no Hadoop;
  • Acelerar o processamento de grandes bases de dados;
  • Trabalhar com Spark;
  • Planejar e implementar um projeto de Big Data para Análise e Visualização de Dados;
  • Usar o principal framework de Big Data, o Hadoop;
  • Usar o Spark em conjunto com o Hadoop;
  • Fazer Ingestão de Dados com Kafka;
  • Trabalhar com Spark Streaming;
  • Trabalhar com Apache Storm;
  • Trabalhar com Apache Flink;
  • Gerenciar usuários no Hadoop;
  • Trabalhar com Apache Knox;
  • Trabalhar com Apache Ranger;
  • Trabalhar com ACLs no HDFS;
  • Lidar com outros esquemas de arquivos: Avro, Parquet;
  • Gerenciar snapshot de diretório HDFS;
  • Trabalhar com alta disponibilidade no Hadoop (Namenode e Hive);
  • Entender as diferenças de tecnologias entre serviços on-premises do Hadoop x Google Cloud;
  • Fazer as certificações HDPCD e HDPCA da Hortonworks (cobre 100% do conteúdo).

Conteúdo Programático

  • Introdução a Big Data e ao Hadoop
  • Instalação e Gerenciamento de um cluster Hadoop com Ambari
  • Comandos Hadoop
  • ETL e Análise de Dados com Apache Pig
  • Armazenando Dados Estruturados com Hive
  • Armazenando Dados Não Estruturados com Hbase
  • Ingestão de Dados
  • Processamento de Dados com Spark
  • Analisando Streams de Dados
  • Workflow e Visualização de Dados no Hadoop
  • Troubleshooting e Gerenciamento de usuários no Hadoop
  • Alta Disponibilidade no Hadoop

Diferenciais deste Curso

  • Único curso no Brasil que cobre 100% das Certificações HDPCA e HDPCD da Hortonworks;
  • Cobre 70% da maioria das certificações da Cloudera;
  • Único curso no Brasil que apresenta um comparativo entre tecnologias de Big Data com Hadoop (on-premise) x Big Data com Google Cloud;
  • Todo material em língua portuguesa (existem muitos concorrentes que só disponibilizam curso em inglês);
  • Oportunidade de conhecer as experiências reais de empresas do Brasil e do mundo que aplicaram as práticas ensinadas.

Pré-requisitos

  • Desejável conhecer comandos básicos do Linux;
  • Desejável conhecer comandos SQL básicos;
  • Desejável conhecer Lógica de Programação.

Carga Horária

Curso Presencial: 40H

  • 40 horas

Próximas Turmas

Início Término Horário
24/06/2019 05/07/2019 Noturno - Segunda à Sexta das 18:30h às 22:30h
15/07/2019 19/07/2019 Diurno - Segunda a Sexta das 08:30h às 17:30h

Temos outras turmas, para mais informações entre em contato com um de nossos vendedores.

Receba Datas e Valores

Quem irá pagar o seu curso?
Modalidades
Preferência de horário
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
CAPTCHA de imagem
Digite o texto exibido na imagem.

Compartilhe esta página