Sobre o curso

A maioria das empresas armazena dados em diversos formatos seja em bases de dados ou arquivos de texto. E é aí que surge a necessidade de um profissional com perfil diferente: o Engenheiro de Dados. Geralmente, o dado não está preparado para o uso imediato do Cientista de Dados. É que a massa de dados seja otimizada para que o Cientista consiga fazer o melhor uso possível deste ativo tão valioso que dirige as tomadas de decisão das principais empresas no mundo.

O mercado de Big Data entendeu que era importante deixar com que o Cientista de Dados foque apenas no que fazer com os dados e que é necessário um profissional com foco em como acessá-los. O Engenheiro de Dados deve ser capaz de criar pipelines que transformem a massa de dados em formatos analisáveis pelo Cientista de Dados. O pipeline é um processo composto pelas operações de ingestão, processamento, armazenamento e acesso de dados. O Engenheiro de Dados tem perfil generalista e é focado no pipeline e em bases de dados.

O profissional que deseja ser Engenheiro de Dados deve começar aprendendo sobre como arquitetar sistemas distribuídos e armazéns de dados, criar pipelines confiáveis, combinar diversas fontes de dados, colaborar com a equipe de Ciência de Dados. A comunicação entre o Engenheiro de Dados e o Cientista de Dados é vital para o sucesso da empresa que deseja trabalhar com Big Data. Este curso é sua porta de entrada para o mundo do Engenheiro de Dados e apresentará uma visão geral e essencial das principais ferramentas que ele deve dominar. Nosso curso é focado em ferramentas abertas uma vez que Open Source é a principal razão pela evolução do Big Data. Além disso, este curso mostra como é a integração e comunicação entre as áreas de Ciência e Engenharia de Dados.

O curso tem como objetivo apresentar as principais ferramentas Open Source do mundo de Engenharia de Dados com exemplos e práticas reais do mercado focando principalmente em Hadoop e nas APIs essenciais de Python para Big Data.

Após este curso o aluno estará apto a:

  • Compreender os princípios básicos de Big Data;
  • Entender como um Engenheiro de Big Data e Cientista de Dados aplicam as tecnologias para resolução de problemas relacionados à dados;
  • Aplicar técnicas de mapeamento/redução nos dados;
  • Trabalhar com distribuição Hadoop Hortonworks;
  • Usar o sistema de arquivos HDFS;
  • Extrair e carregar tabelas a partir de arquivos, bases de dados e outras fontes (ETL);
  • Analisar dados a partir do Python;
  • Preparar infraestrutura para trabalhar com APIs de Machine Learning em Python;
  • Acelerar o processamento de grandes bases de dados;
  • Usar os principais algoritmos de Machine Learning com Python e suas APIs;
  • Trabalhar com Pyspark;
  • Realizar webscraping com Python;
  • Planejar e implementar um projeto de Big Data para Análise e Visualização de Dados;

Conteúdo Programático

Introdução a Big Data e ao Hadoop

  • O que é Big Data?
  • Exemplos de Aplicações de Big Data
  • A relação entre Big Data, Machine Learning e Computação de Alto Desempenho
  • Skills Necessárias para trabalhar com Big Data
  • Diferenças entre Big Data, Data Analytics e Data Science
  • Compreendendo o papel do Engenheiro de Dados
  • O que é o Apache Hadoop?
  • Características do Apache Hadoop
  • Armazenamento distribuído com Apache HDFS
  • Preparação de Infraestrutura para big data usando o Ambari
  • Processamento distribuído com Apache MapReduce
  • Como usar a distribuição HDP e rodar as aplicações de Big Data
  • Comandos essenciais do HDFS

Fundamentos de Estatística e Matemática para Ciência de Dados

  • O que é Estatística Descritiva
  • Entendendo a diferença entre Média, Mediana, Desvio Padrão e Variância
  • Introdução a Probabilidade

Python com Hadoop

  • Por que cientistas de dados escolhem Python?
  • Anaconda Python e IDEs
  • Jupyter Notebook e Google Colab
  • Escrevendo um programa MapReduce em Python com: Método tradicional x API
  • Obtenção e Preparação de Dados – Kaggle / WebScraping

Análise e Visualização de Dados com Python

  • Operações em Arrays com NumpyGeração de números aleatórios, Indexação e Fatiamento de Arrays
  • Pandas – Estruturas de Dados
  • Pandas – Operações em DataFrames
  • Visualização de Dados com Pandas, Matplotlib
  • Visualização de Dados com Pandas com Seaborn e Bokeh

Spark e PySpark

  • Arquitetura do Apache Spark, RDD, Transformações e Ações com PySpark
  • DataFrames Spark com PySpark
  • Operações com DataFrame usando PySpark
  • Trabalhando com dados faltantes, datas com PySpark
  • WordCount em PySpark

Aplicações Real Time com Spark

  • O que é o Spark Streaming e sua arquitetura
  • Integração com sistema de ingestão de dados: Kafka
  • Integração com sistema de ingestão de dados Flume
  • Introdução a Processamento Natural de Linguagem
  • Análise de Sentimentos a partir de Streaming

Sistemas de Recomendação e Introdução a Machine Learning

  • O que são filtros colaborativos (user based e item based)
  • Sistema de Recomendação com Python
  • Tipos de Aprendizagem de Máquina, Treinamento, Validação e Teste
  • O que são modelos preditivos e Processos de aprendizagem
  • Aspectos importantes de Machine Learning: Análise exploratória x preditiva, O que é overfiting e underfiting

Machine Learning com PySpark

  • Regressão Linear em Python
  • Regessão Logística em Python
  • Árvores de Decisão e Noções sobre Florestas Aleatórias (Random Forest)
  • Clusterização com Kmeans em Python
  • Classificação com Naive Bayes em Python

Machine Learning com Scikit-Learn e Processamento Natural de Linguagem com gensim

  • Redes Neurais Artificiais (Perceptron e MLP), Gradiente Descendente e Gradiente Descendente Estocástico
  • Scikit-Learn – Introdução e Execução do kNN
  • Scikit-Learn – Regressão Logística e Avaliação de Modelos
  • Introdução ao Word2Vec (Entendendo o modelo e arquiteturas)
  • Processamento de Linguagem Natural com Word2Vec- Prática com Python

Introdução a Deep Learning

  • O que é Deep Learning
  • Redes Neurais Convolucionais
  • Redes Neurais Recorrentes
  • LSTM – Long Short-Term Memory
  • Framework de Deep Learning: Keras
  • Função de Ativação Sigmóide, Loss Functions e Dropout Layer e Função Softmax e Categorical Crossentropy
  • Epochs e Batch-size
  • Usando a Regularização Para Evitar o Overfitting
  • Treinando Redes Neurais com Keras
  • Tuning dos Hyperparâmetros

Introdução ao Tensorflow

  • Sintaxe básica, grafos, variáveis e placeholders
  • Princípios de funcionamento do Tensorflow

Processamento de Alto Desempenho com Python para Big Data

  • A revolução das GPUs em Machine Learning
  • Arquitetura Cuda e Modelo de Programação em GPU
  • Algoritmos básicos de redução e soma de prefixo em Python
  • Introdução ao Numba. Comparação de desempenho entreNumpy, Numpy assíncrono e Numpy com Numba em Operações estatísticas
  • Conhecendo os principais frameworks Python para Machine Learning que usam GPUs

Diferenciais deste Curso

  • Único curso no Brasil que apresenta como os temas Big Data, Machine Learning, Computação de Alto Desempenho e Análise de Dados estão relacionados e a importância de cada área para um Cientista de Dados;
  • Todo material em língua portuguesa (existem muitos concorrentes que só disponibilizam curso em inglês);
  • Oportunidade de conhecer as experiências reais de empresas do Brasil e do mundo que aplicaram as práticas ensinadas.

Pré-requisitos

  • Para acompanhar o curso, o aluno deve saber utilizar computadores, inicializar uma máquina virtual com VirtualBox e ter conhecimentos em administração de sistemas GNU/Linux;
  • Desejável conhecer comandos básicos do Linux;
  • Desejável conhecer comandos SQL básicos;
  • Desejável conhecer Lógica de Programação;
  • Ter cursado Python Fundamentals ou ter conhecimento equivalente.

Carga Horária

Curso Presencial: 40H

  • Diurno: 1 semana de segunda a sexta-feira, 8 horas diárias.
  • Noturno: 2 semanas de segunda a sexta-feira, 4 horas diárias.
  • Sábados: 5 sábados, 8 horas diárias.

Curso Online: 40H

  • Curso EAD ágil
  • 08 horas de aulas online (ao vivo) com o professor através de videoconferência.
  • 32 horas de aulas offline (mínimo recomendado pela 4Linux). Estas horas são alocadas e controladas pelo aluno que deverá acessar o conteúdo digital: vídeo aulas com hands-on e fazer os laboratórios, exercícios e desafios.

Próximas Turmas

Início Término Horário
14/10/2019 25/10/2019 Noturno - Segunda à Sexta das 18:30h às 22:30h
26/10/2019 30/11/2019 Sábado das 09h00 às 18h00
04/11/2019 08/11/2019 Diurno - Segunda a Sexta das 08:30h às 17:30h

Temos outras turmas, para mais informações entre em contato com um de nossos vendedores.

Receba Datas e Valores

Quem irá pagar o seu curso?
Modalidades
Preferência de horário
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
CAPTCHA de imagem
Digite o texto exibido na imagem.

Compartilhe esta página