Python & Hadoop for Big Data and Machine Learning

Sobre o curso

A maioria das empresas armazena dados em diversos formatos seja em bases de dados ou arquivos de texto. E é aí que surge a necessidade de um profissional com perfil diferente: o Engenheiro de Dados. Geralmente, o dado não está preparado para o uso imediato do Cientista de Dados. É que a massa de dados seja otimizada para que o Cientista consiga fazer o melhor uso possível deste ativo tão valioso que dirige as tomadas de decisão das principais empresas no mundo.

O mercado de Big Data entendeu que era importante deixar com que o Cientista de Dados foque apenas no que fazer com os dados e que é necessário um profissional com foco em como acessá-los. O Engenheiro de Dados deve ser capaz de criar pipelines que transformem a massa de dados em formatos analisáveis pelo Cientista de Dados. O pipeline é um processo composto pelas operações de ingestão, processamento, armazenamento e acesso de dados. O Engenheiro de Dados tem perfil generalista e é focado no pipeline e em bases de dados.

O profissional que deseja ser Engenheiro de Dados deve começar aprendendo sobre como arquitetar sistemas distribuídos e armazéns de dados, criar pipelines confiáveis, combinar diversas fontes de dados, colaborar com a equipe de Ciência de Dados. A comunicação entre o Engenheiro de Dados e o Cientista de Dados é vital para o sucesso da empresa que deseja trabalhar com Big Data. Este curso é sua porta de entrada para o mundo do Engenheiro de Dados e apresentará uma visão geral e essencial das principais ferramentas que ele deve dominar. Nosso curso é focado em ferramentas abertas uma vez que Open Source é a principal razão pela evolução do Big Data. Além disso, este curso mostra como é a integração e comunicação entre as áreas de Ciência e Engenharia de Dados.

O curso tem como objetivo apresentar as principais ferramentas Open Source do mundo de Engenharia de Dados com exemplos e práticas reais do mercado focando principalmente em Hadoop e nas APIs essenciais de Python para Big Data.

Após este curso o aluno estará apto a:

  • Compreender os princípios básicos de Big Data;
  • Entender como um Engenheiro de Big Data e Cientista de Dados aplicam as tecnologias para resolução de problemas relacionados à dados;
  • Aplicar técnicas de mapeamento/redução nos dados;
  • Trabalhar com distribuição Hadoop Hortonworks;
  • Usar o sistema de arquivos HDFS;
  • Extrair e carregar tabelas a partir de arquivos, bases de dados e outras fontes (ETL);
  • Analisar dados a partir do Python;
  • Preparar infraestrutura para trabalhar com APIs de Machine Learning em Python;
  • Acelerar o processamento de grandes bases de dados;
  • Usar os principais algoritmos de Machine Learning com Python e suas APIs;
  • Trabalhar com Pyspark;
  • Realizar webscraping com Python;
  • Planejar e implementar um projeto de Big Data para Análise e Visualização de Dados;

Conteúdo Programático

  • Introdução a Big Data e ao Hadoop
  • Fundamentos de Estatística e Matemática para Ciência de Dados
  • Python com Hadoop
  • Análise e Visualização de Dados com Python
  • Spark e PySpark
  • Aplicações Real Time com Spark
  • Sistemas de Recomendação e Introdução a Machine Learning
  • Machine Learning com PySpark
  • Machine Learning com Scikit-Learn e Processamento Natural de Linguagem com gensim
  • Introdução a Deep Learning
  • Introdução ao Tensorflow
  • Processamento de Alto Desempenho com Python para Big Data

Diferenciais deste Curso

  • Único curso no Brasil que apresenta como os temas Big Data, Machine Learning, Computação de Alto Desempenho e Análise de Dados estão relacionados e a importância de cada área para um Cientista de Dados;
  • Todo material em língua portuguesa (existem muitos concorrentes que só disponibilizam curso em inglês);
  • Oportunidade de conhecer as experiências reais de empresas do Brasil e do mundo que aplicaram as práticas ensinadas.

Pré-requisitos

  • Para acompanhar o curso, o aluno deve saber utilizar computadores, inicializar uma máquina virtual com VirtualBox e ter conhecimentos em administração de sistemas GNU/Linux;
  • Desejável conhecer comandos básicos do Linux;
  • Desejável conhecer comandos SQL básicos;
  • Desejável conhecer Lógica de Programação;
  • Ter cursado Python Fundamentals ou ter conhecimento equivalente.

Carga Horária

Curso Presencial: 40H

  • Diurno: 1 semana de segunda a sexta-feira, 8 horas diárias.
  • Noturno: 2 semanas de segunda a sexta-feira, 4 horas diárias.
  • Sábados: 5 sábados, 8 horas diárias.

Curso Online: 40H

  • Curso EAD ágil
  • 08 horas de aulas online (ao vivo) com o professor através de videoconferência.
  • 32 horas de aulas offline (mínimo recomendado pela 4Linux). Estas horas são alocadas e controladas pelo aluno que deverá acessar o conteúdo digital: vídeo aulas com hands-on e fazer os laboratórios, exercícios e desafios.

Próximas Turmas

Início Término Horário
22/07/2019 26/07/2019 Diurno - Segunda a Sexta das 08:30h às 17:30h
27/07/2019 24/08/2019 Sábado das 09h00 às 18h00
09/09/2019 20/09/2019 Noturno - Segunda à Sexta das 18:30h às 22:30h

Temos outras turmas, para mais informações entre em contato com um de nossos vendedores.

Receba Datas e Valores

Quem irá pagar o seu curso?
Modalidades
Preferência de horário
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
CAPTCHA de imagem
Digite o texto exibido na imagem.

Compartilhe esta página