Devenez Big Data Architecte & Machine Learning



24 jours



100% finançable



Formation RNCP

Candidater en ligne

Synthèse

Déroulé

Informations pratiques

Suivre une formation

Accueil > Projets > Big Data > Formation Big data Architecture et Machine Learning

Jours de formation

Solutions de financement

Une formation pour qui ?

La formation Big data Architecture et Machine Learning s’adresse aux :

Directeurs/Chefs de projet ou Responsable métier
Responsable système d’informations
Développeurs informatiques
Consultants en business intelligence
Ingénieurs d’étude, de recherche et développement, Architecte système et logiciel
Consultants techniques, Consultants business
Statisticiens et Mathématiciens

La formation Big Data Architecture et Machine Learning se distingue par la maîtrise de multi-compétences en Gestion de donnés massives.

Cette formation va vous permettre d’acquérir les compétences pour devenir Full Stack Big Data, à savoir : l’architecture et l’engineering Big Data, le stockage NoSQL, l’analyse et la science de données, la visualisation de données, le déploiement en Cloud d’une solution Big Data et l’administration d’une plateforme Big Data.

Maîtriser le concept Big Data pour la recherche, l’analyse, le partage et le stockage de données massives.

Explorer le potentiel BIG DATA au service de tous les métiers (Marketing, Contrôle de Gestion, Ressources humaines, Renseignement, Santé, Banque, Assurance…)

Pré-requis

Avoir suivi la formation Développeur Java J2EE ou Microsoft.NET est un plus
Avoir une expérience des bases de données relationnelles
Posséder des connaissances approfondies en statistique est un plus
Avoir des connaissances en Python
Etre capable de travailler en équipe avec un sens d’écoute et d’analyse

Demandez la documentation complète

A l’issue de la formation Big data Architecture et Machine Learning, le certifié sera en mesure de :

Identifier les besoins et la problématique des directions métiers
Maîtriser les technologies spécifiques au Big Data comme Hadoop, Pig, Hive, Spark, Yarn, Kafka, ELK, ou Cloudera
Mettre en place un Data Lake
Maîtriser les bases de données NoSQL : MongoDB, Cassandra, Neo4j, hBase, Redis…
Maîtriser les technologies spécifiques à la science, à l’analyse ainsi qu’à la visualisation de données : Statistiques, Machine Learning, Deep Learning, langage R, Python, Tableau, PowerBI, R Shiny…
Maîtriser le déploiement des solutions Big Data sur le Cloud : AWS, GCP, Microsoft Azure…
Maîtriser la science de données et l’IA « Intelligence Artificielle » : Sprak Mlib, Scala, PySpark, RPA « Robotic Process Automation »
Construire des modèles prédictifs pour répondre à la problématique
Construire des algorithmes pour améliorer les résultats de recherche et de ciblage
Trouver et rassembler l’ensemble des sources de données structurées ou non structurées nécessaires à l’analyse pertinente
Identifier les opportunités à travers l’open data et les cas d’usage métiers
Concevoir un projet Big Data (acquisition et stockage des données, traitement distribué, analyse de données à large échelle)
Maîtriser les technologies par des études de cas concrètes
Maîtriser les enjeux juridiques et liés à la protection des données

Programme détaillé

01- Big Data: Enjeux et perspectives

1 jour

Voir le programme

Big Data : Introduction

Introduction
Types du big data
Du SQL au NoSQL
Caractéristiques techniques des 5V
Technologies Big Data
Languages Big Data
Acteurs principaux du Big Data
Différents métiers du Big Data
Collecte et traitement des données structurées, semi-structurées et non-structurées
Stockage des données
Diffusion des données
Traitements en temps réel ou différé: Kafka
Architectures réparties : Hadoop
Architecture Cloud / Scalabilité
Impact de l’usage du Big Data
Création de la valeur à partir des données
Exemple d’architecture Big Data

Enjeux du Big Data

Enjeux du big data en france
ROI et Big Data

Marché Du Big Data

Marché de la data au niveau mondial
Évolutions et les acteurs de la chaine de l’offre Big Data
Enjeux stratégiques (création de la valeur)
Opportunités pour les entreprises de services informatiques

Impacts du Big Data sur l’entreprise

Transformation de la relation client
Transformation de l’organisation de l’entreprise
Transformation du produit final
Chaîne des valeurs, développement des nouvelles activités
Productivité et optimisation des dépenses
Apparition des nouveaux rôles/métiers (data scientists et CDO)
Compétences nouvelles à acquérir

Solutions technologiques du Big Data

L’écosystème de la plateforme Hadoop : Pig, Flume, Zookeeper, HBase, Oozie, YARN,
MapReduce…
Les modes de stockage (NoSQL, HDFS) / principes de fonctionnement de MapReduce

Méthodologie de gestion d’un projet Big Data

Mise en place d’un projet Big Data
Méthodologies recommandées pour lancer un projet Big Data
Calcul du retour sur investissement d’un projet Big Data

Atelier pratique

02- Introduction à l’Architecture Big Data

1 jour

Voir le programme

Introduction à l’architecture Big Data

Définition du Big Data
Comprendre le volume
Besoin Big Data
Introduction à l’architecture Big Data
Distribution des données
Rôles d’un projet Big Data
Atelier pratique

Ecosystème Hadoop

Technologies et Outils Big Data
Découvrir l’écosystème Hadoop
Les distributions Hadoop
Atelier pratique

Mode de stockage HDFS et Base NoSql

Comprendre HDFS
HadoopFS
Caractéristiques de HDFS
Les modes de stockage HDFS
Services HDFS
Opération HDFS
Administration d’un cluster HDFS
Comprendre NoSQL
Les modes de stockage NoSQL
Choix du type de la Base de donnée NoSQL
Atelier pratique

Principes du Traitement MapReduce

Principes de fonctionnement de MapReduce
Fonction map()
Fonction reduce()
Conception d’un MapReduce
Atelier pratique

Architecture applicative

Introduction
Différentes étapes de gestion des données (Cycle de vie des données dans le Big Data)
Définition du processus d’ingestion des données
Outil disponibles sur le marché
Modèle d’architecture applicative d’une solution Big Data
Atelier pratique

Architecture technique

Introduction à l’architecture technique
Traitement de données
Qualité des données (Data Quality)
Architectures réparties (Clustering Hadoop)
Atelier pratique

Modèles d’Architectures Big Data

Introduction
Architecture Datalake
Architecture Lambda
Architecture Kappa
Architecture pour l’internet des objets (IoT)
Atelier pratique

Critères de choix d’une architecture Big Data

Introduction
Critères de choix
Le type de traitement
L’utilisateur final des données
La source des données (où les données sont générées)
Format du contenu
Types des données à traiter
Fréquence et taille des données
Méthodologie de traitement des données
Le choix du matériel
Récapitulatif des critères du choix d’une architecture big data
Atelier pratique

03- NoSQL

1 jour

Voir le programme

Introduction aux Bases de données NoSQL

Histoire de NoSQL
Comprendre le modèle NoSQL
NoSQL Vs BDR
Propriétés ACID
Propriétés BASE
Théorème de Brewer ou de CAP
Caractéristiques NoSQL

Atelier pratique

Principaux modèles de BD NoSQL

Familles des Bases de Données NoSQL
Modèle NoSQL « Clé-Valeur »
Modèle NoSQL orienté Colonne
Modèle NoSQL orienté Document
Modèle NoSQL orienté Graphe
Bases de données NoSQL
Comparatif des bases de données NoSQL
Récapitulatif des types de schéma de données NoSQL
HBase
MongoDB
Cassandra
Redis
Couchbase
Elasticsearch
Riak

Atelier pratique

Choix d’une Base de données NoSql

Choisir une base de données NoSQL
Classification des bases de données les plus utilisées

Atelier pratique

04- Hbase / Mongo DB

2 jours

Voir le programme

Introduction à Hbase

Définition de Hbase
Hadoop vs Hbase
Caractéristiques de Hbase
Quand utiliser HBase
Importance des bases de données NoSQL dans Hadoop
Autres type de stockage NoSQL
Comment HBase diffère des autres modèles NoSQL
Quelle base de données NoSQL choisir?
HBase Vs Hive
HBase VS RDBMS

Atelier pratique

Architecture de Hbase

Mécanisme de stockage dans HBase
Stockage orienté colonne vs orienté ligne
Modèle de données HBase
Avantages de l’architecture Apache HBase
Architecture HBase et ses composants importants
Comment les composants Hbase fonctionnent ensemble
Lecture et écriture dans HBase
Récapitulatif des étapes d’écriture Hbase
HBASE vs HDFS
Cas d’utilisation de HBase

Atelier pratique

Installation de Hbase

Modes d’installation d’Apache HBase
Configuration de pré-installation
Création d’un utilisateur Hadoop
Configuration SSH et génération de clés
Mise en place de Java
Mise en place de Hadoop
Installation de Hbase
Comment télécharger la version stable du fichier tar Hbase
Installation de HBase en mode autonome (Standalone)
Installation de HBase en mode Pseudo distribué
Installation de HBase en mode entierement distribué
Dépannage de l’installation de HBase

Atelier pratique

Commandes générales Hbase SHELL

La commande status
La commande version
La commande table_help
La commande whoami

Atelier pratique

Manipulation des tables avec HBASE

Commandes de gestion des tables
Créer une table à l’aide de HBase Shell
Créer une table à l’aide de l’API java
Désactiver une table à l’aide de HBase Shell
Désactiver une table à l’aide de l’API java
Activation d’une table à l’aide de HBase Shell
Activation d’une table à l’aide de l’API java
Décrire et modifier une table à l’aide de Hbase Shell
Décrire et modifier une table à l’aide de l’API java
Existence d’une table à l’aide de HBase Shell
Existence d’une table à l’aide de l’API java
Suppression d’une table à l’aide de HBase Shell
Suppression d’une table à l’aide de l’API java
Fermer une table à l’aide de HBase Shell
Fermer une table à l’aide de l’API java

Atelier pratique

Insérer et récupérer des données dans HBase: exemples get (), put (), scan ()

Insertion ou écriture de données dans la table HBase: Shell
Insertion de données à l’aide de l’API Java
Mise à jour des données à l’aide de HBase Shell
Mise à jour des données à l’aide de l’API Java
Lecture de données à l’aide de HBase Shell
Lecture de données à l’aide de l’API Java
Suppression d’une cellule spécifique dans un tableau à l’aide de HBase Shell
Suppression d’une cellule spécifique dans un tableau à l’aide de l’API Java
Scanner à l’aide de HBase Shell
compter et tronquer
Sécurité

Atelier pratique

Avantages et limitations de Hbase

Goulot d’étranglement des performances
Avantages de HBase
Limitations avec HBase

Introduction

Stockage NoSQL
Caractéristiques des bases NoSQL : CAP
Choix d’une base de données NoSQL
Bases de données orientées documents
Historique et Présentation de MongoDB
Cas d’utilisation de MongoDB
Structure des données : notions de documents, de collections de valeurs
Le format JSON
Stockage de JSON
JavaScript pour manipuler du JSON

Atelier pratique

Installation et configuration de MongoDB

Plateformes supportées
Installation de MongoDB sur Windows
Choix de la version
Téléchargement de MongoDB pour Windows
Exécution
Configuration
Lancement de Mongo DB
Connection à MongoDB
Installation de MongoDB sur Linux
Choix de la version
Téléchargement de MongoDB pour Windows
Exécution
Configuration
Lancement de Mongo DB
Connection à MongoDB

Atelier pratique

Prise en main de MongoDb

Utilisation de l’invite interactive
Commandes de manipulation de base de données
Utilisation d’un client graphique
Importation d’une collection
Manipulation du format BSON
Comprendre le type ObjectId

Atelier pratique

Administration de MongoDB

Sauvegarde des données
Configuration de la journalisation
Mise en place d’une réplication
Configuration de la réplication
Teste de la réplication
Mise en place du sharding
Configuration d’une collection pour le sharding

Atelier pratique

Manipulation des documents dans MongoDB

Insérer un document
Modifier et supprimer un document
Utiliser une transaction
Chercher des documents avec FIND()
Comparer FIND() et SELECT en SQL
Utiliser les opérateurs du FIND()
Indexer pour améliorer les performances

Atelier pratique

MongoDB avancé

Comprendre le framework d’agrégation
Découvrir les étapes de l’agrégation
Découvrir les opérateurs des Pipeline d’agrégation

Atelier pratique

05- Apache Hadoop

4 jours

Voir le programme

Section 1: Introduction à l’écosystème Hadoop

Aborder cette formation
Découvrir NoSQL
Définir le Big Data
Comprendre l’histoire d’Hadoop
Parcourir l’écosystème Hadoop
Différencier les distributions Hadoop
Comprendre le NoSQL
Définition du Big Data
Architecture de Hadoop
L’Écosystème de Hadoop
Rôle des différents composants de l’écosystème Hadoop
Rôle des collecteurs de données
Distributions d’Hadoop

Section 2: Installation de l’environnement Hadoop

Installation de l’environnement Hadoop VM Ubuntu
Installation de l’environnement Hadoop sur Windows
Différencier les distributions Hadoop
Découvrir Cloudera Hadoop
Démarrer une QuickStart VM
Travaux pratique: Installation Hadoop

Section 3: HDFS – La couche de stockage

Comprendre le HDFS
Découvrir HadoopFS
Assimiler les principes du HDFS
Appréhender les services HDFS
Comprendre les opérations HDFS
Configuration de HDFS
Demarrage de HDFS
Administrer le cluster HDFS
Découvrir la gestion des services HDFS
0Manipuler les fichiers en ligne de commande
Exécuter des opérations en Java
Utiliser les InputStream Java
Accéder à HDFS avec WebHDFS
Caractéristiques de HDFS
Architecture de HDFS
Rôle de HDFS
Opérations HDFS
Listing des fichiers dans HDFS
Insertion des données dans HDFS
Extraction des données du HDFS
Arrêt du HDFS

Section 4: Fonctionnement de MapReduce

Appréhender les principes de base
Découvrir la fonction map()
Utiliser la fonction reduce()
Concevoir un MapReduce
Développer le mapper
Développer le reducer
Créer un jeu de données
Créer le driver
Lancer un MapReduce en Java
Suivre l’évolution du MapReduce
Développer un MapReduce en PHP
Lancer des MapReduce avec Hadoop Streaming
Principes de base de MapReduce
Architecture MapReduce
Fonction map()
Fonction reduce()
Conception d’un MapReduce
Développer le mapper
Développer le reducer
Création d’un jeu de données
Création d’un driver
Lancer un MapReduce en Java
Suivi de l’évolution du MapReduce
Développement d’un MapReduce en PHP
Lancement des MapReduce avec Hadoop Streaming
TP : Fonctionnement de MapReduce

Section 5: Base de données NoSQL HBase

Identifier les cas d’utilisation de HBase
Comprendre le modèle Hbase
Administrer HBase
Appréhender les opérations HBase
Gérer les services avec des interfaces web
Lancer des commandes HBase dans le terminal
Filtrer les résultats d’un scan
Utiliser HBase en Java
Utiliser HBase dans les MapReduce
Définition de Hbase
Hbase avec Hadoop
Cas d’utilisation de HBase
Comprendre le modèle Hbase
Installation de Hbase
Architecture
Composants Hbase (Region, Region Server, Region Split)
Lecture et écriture dans Hbase
API Shell
API Java
TP : Base de données NoSQL HBase

Section 6: Apache Oozie -Ordonnanceur de WorkFlow

Définition de Oozie
Caractéristiques Oozie
Fonctionnement de Oozie
Actions Oozie
Oozie Job
Oozie workflow
Coordinateur Oozie
Paramètre Oozie
Monitoring Oozie
Packaging et déploiement d’une application de workflow Oozie

Section 7: Collecte de données avec Apache Sqoop

Introduire scoop anglais
Importer les données avec scoop
Définition de Sqoop
Cible des imports dans le cluster
Architecture de Sqoop
Fonctionnement de Sqoop
Exemple d’import vers HDFS
Exemples d’import vers Hive
Exemple d‘exports

Section 8 : travaux pratiques: Développement d’une application Big Data avec Hadoop

Mission 1: Conception de l’application
Découper l’application
Exploiter les données
Concevoir la base de données HBase
Parser le fichier d’entrée dans un mapper
Écrire dans HBase avec un reducer
Mettre en place des clés composites
Utiliser les clés composites
Lancer un modèle MapReduce d’import

Mission 2: Développement des modèles MapReduce

Lire les données de HBase dans un mapper
Agréger les données dans un reducer
Suivre les modèles MapReduce
Déboguer les modèles MapReduce
Explorer les sources d’Hadoop
Réaliser des jointures de données
Résoudre le problème du secondary sort
Optimiser ses modèles MapReduce

Mission 3: Développement des modèles MapReduce

Mettre en place un workflow Oozie
Lancer un workflow Oozie
Filtrer les données de HBase
Exporter dans MySQL grâce à Sqoop
Lancer son workflow avec l’API HTTP REST
Coupler l’application avec une interface web

06- Apache Spark

3 jours

Voir le programme

Introduction à Apache Spark

Apache Spark
MapReduce VS Spark
Caractéristiques d’Apache Spark
Architecture d’Apache Spark
Anatomie d’une application Spark
Interaction avec Spark
Spark sur Hadoop
Composants de Spark

Atelier pratique

Installation de Spark

Préparation d’une VM Linux
Télécharger Apache Spark
Installation d’Apache Spark : redhat /CentOS
Installation d’Apache Spark : Windows
Installation d’Apache Spark : Mac OS
Installation d’Apache Spark : Ubuntu /Debian

Atelier pratique : Installation Spark

Resilient Distributed Datasets ( RDDs )

Introduction aux RDDs (Resilient Distributed Datasets)
Exemple d’un RDD
Caractéristiques des RDDs
Liaison avec Spark (Scala/Java/Python)
Création d’un RDD
Opérations RDD
Actions RDD
Transformation RDD

Atelier pratique

Spark streaming

Définition
Exemple Scala, Java et Python
Concepts de base
Initialisation de StreamingContext
Flux discrétisés (DStreams)

Atelier pratique

Spark SQL

Caractéristiques de Spark SQL
Architecture Spark SQL
Appréhender les abstractions de données de Spark
Exploiter la Spark Session
Créer un Data Frame
Manipuler le DataFrame
Comprendre les formats de stockage
Construire un jeu de données
Importer un fichier Avro
Joindre des DataFrames
Sauvegarder au format Parquet
Employer la syntaxe select
Utiliser un Dataset
Exécuter un programme avec spark-submit
Choisir une distribution Spark
Conclure sur Apache Spark

Atelier pratique

07- Apache Kafka

2 jours

Voir le programme

Introduction à Apache kafka

Présentation de Kafka
Intérêt d’Apache Kafka
Les API de Kafka
Terminologies de Kafka
Atelier pratique

Architecture d’Apache kafka

Architecture du cluster Kafka
Topic
Broker
Zookeeper
Producers
Consumers
Kafka WORKFLOW

Installation et configuration de Apache Kafka

Installation et configuration d’Apache Kafka
Installation de Java
Installation de Zookeeper
Installation de Kafka
Atelier pratique: Installation

Commande Line Interface (CLI)

Démarrez le serveur Kafka
Lister tous les sujets
Créer un topic
Décrire un topic
Publier des messages sur un topic
Consommer des messages
Modifier les sujets d’Apache Kafka
Atelier pratique: CLI

Développement Kafka avec Java

Introduction à la programmation Kafka
Kafka APIs
Création d’un projet Kafka
Java producer
Rappels des producers Java
Producer Java avec clés
Java consumer
Consumer Java au sein d’un groupe de consumers
Consumer Java avec threads
Le consumer Java recherche et attribue
Compatibilité de client bidirectionnelle
Atelier pratique: Développement Kafka

Kafka Stream

Introduction à Kafka Stream
Concepts de Kafka Stream
Architecture de Kafka Stream
Démo: Application wordcount avec kafka stream
Atelier pratique: KStream

08- Elastic Stack ELK

2 jours

Voir le programme

Introduction à la suite ELK (ELK Stack)

Aperçu sur la suite ELK
Autres outils en relation avec ELK
Rôle de Elastic Stack
Installation de la suite ELK
Installation de la suite ELK sur Windows
Installation de la suite ELK sur Docker

Eléments du Stack ELK

Elasticsearch: Le noyau
Kibana: L’outil utilisateur
Logstash: L’outil d’ingestion
Beats: Transfert de données
X-Pack: Le pack de fonctionnalités

Cas d’utilisation la suite ELK

Gestion des logs
Aperçu sur la gestion des logs
Analyse des métriques
Aperçu sur l’analyse des métriques
Recherche de Sites et d’applications
Analyse de sécurité
Aperçu sur l’analyse de sécurité
Monitoring des performances des applications

Chargement des données

Données de chargement en masse
Chargement d’échantillons de données
Définition des types de données

Interrogation des données

Requêtes simples
Requêtes au niveau du terme
Analyse et tokenisation

Analyse des données

Agrégations de base
Filtrer les agrégations
Percentiles et histogrammes

Présentation de vos Insights

Présentation et configuration de Kibana
Création de visualisations dans Kibana
Création de tableaux de bord dans Kibana

Dépannage du Stack

Quand les choses vont mal
Dépannage des ressources

Atelier cas pratique

Installation et configuration (Serveur ElasticSearch, Mettre en place un cluster , Les rôles des
noeuds)

09- Gouvernance et Sécurité

1 jour

Voir le programme

Introduction à la Gouvernance des données

Rôle des données au 21e siècle
Définition et principes de base de la gouvernance des données
Gouvernance des données Vs Gestion des données
Avantages de la gouvernance des données
Gouvernance des données dans le cloud
Outils de gouvernance des données
Les étapes de la gouvernance des données

Atelier pratique

Déploiement de la gouvernance des données

À qui appartiennent les données et pourquoi est-ce important?
Rôles dans le domaine de la gouvernance des données
Conception du processus de gouvernance des données

Atelier pratique

Gestion d’un programme de gouvernance des données

Gestion et maintien de la gouvernance des données
Suivi et mesure de votre programme

Atelier pratique

10- Mise en place d’un Data Lake

2 jours

Voir le programme

Introduction aux données d’entreprise

Données d’entreprise
Importance de la qualité de la donnée
Données du Big data
Architectures Big Data

Atelier pratique

Introduction aux Data lake

Présentation du Data lake
Pertinence du Data lake dans une entreprise
Avantage du Data lake
Fonctionnement d’un Data Lake
Différence entre le Data Lake et de Data Warehouse
Défis du du Data lake
Approches pour créer un Data Lake
Conclusion

Atelier pratique

Architecture du Data Lake

Architecture du Data lake
Concepts clés du Data Lake
Étapes de maturité du Data Lake
Meilleures pratiques de l’architecture Data Lake

Atelier pratique

L’architecture Lambda basée sur Data Lake

Introduction
Couche d’ingestion de données
Speed layer – traitement des données en temps quasi réel
Couche de stockage de données – stocker toutes les données
Serving layer – livraison et exportation de données
Acquisition layer – Couche d’acquisition de données
Messaging Layer – Couche de livraison de données
Ingestion layer – Couche d’ingestion de données
Exploration de la couche Lambda
Magasins de données relationnelles

Atelier pratique

Écosystème Hadoop pour la mise en œuvre d’un Data lake

Introduction
Distributions Hadoop
Facteurs de sélection d’un stack Big Data pour les entreprises
Écosystème Hadoop pour un Data lake

Acquisition de données de données par lots avec Apache Sqoop

Introduction
Contexte dans Data Lake – Acquisition de données
Fonctionnement de Sqoop
Importation de données à l’aide de Sqoop
Exportation de données à l’aide de Sqoop
Connecteurs Sqoop

Atelier pratique

Acquisition de données de flux de données à l’aide d’Apache Flume

Introduction
Contexte dans Data Lake: acquisition de données
Initiation à la Stream Data (Flux de données)
Données Batch Vs données stream
Acquisition de données de flux – cartographie technologique
Fonctionnement de Flume
Sqoop Vs Flume

Atelier pratique

Couche de messagerie utilisant Apache Kafka

Introduction
Contexte dans Data Lake – couche de messagerie
Couche de messagerie
Couche de messagerie – cartographie technologique
Cycle de vie du flux de données

Atelier pratique

Traitement des données à l’aide d’Apache Flink

Introduction
Contexte dans un lac de données – couche d’ingestion de données
Couche d’ingestion de données
Data Ingestion Layer – cartographie technologique
Fonctionnement de Flink
Architecture Flink

Atelier pratique

Magasin de données à l’aide d’Apache Hadoop

Introduction
Contexte pour Data Lake – Stockage de données et lambda Batch Layer
Stockage de données et Lambda Batch Layer
Stockage de données et couche Lambda Batch – cartographie technologique
Fonctionnement de Hadoop
Architecture Hadoop

Atelier pratique

Magasin de données indexé à l’aide d’Elasticsearch

Introduction
Contexte dans Data Lake: stockage de données et lambda Speed layer
Data Storage et Lambda Speed Layer
Data Storage et Lambda Speed Layer: cartographie technologique
Définition d’Elasticsearch
Fonctionnement d’Elasticsearch
Principes de l’architecture de base d’Elasticsearch

Atelier pratique

11- Python pour la data science

1 jour

Voir le programme

Opérations basiques avec Python

Python pour la data science
Comprendre l’importance de la data science
Expliquer le choix de Python
Installation de Python

Opérations basiques avec Python

Opérations basiques sur les listes
Opérations avancées sur les listes
Les dictionnaires
Les compréhensions

Chargement et préparation des données

Intérêt du prétraitement de données
Chargement des fichiers Excel et CSV
Chargement d’un fichier JSON
Interrogation d’une base de données SQL Server
Concaténation de différentes sources de données
Fusion de différentes sources de données
Manipulation des données manquantes
Maîtrise des statistiques descriptives avec NumPy
Maîtrise des statistiques descriptives avec Pandas

Manipulation des données

Différents types de données
Manipulation des données quantitatives avec NumPy
Techniques d’encodage
Manipulation des données textuelles avec Pandas
Manipulation des données textuelles avec NLTK
Utilisation des séries temporelles
Manipulation des images

Atelier pratique Visualisation des donnée

Visualisation des données

Découvrir les bases de la visualisation de données
Matplotlib
Seaborn
Bokeh
Aller plus loin avec Matplotlib

Initiation au Web scrapig

Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping

Initiation aux algorithmes de machine learning

Régression linéaire
Mise en œuvre la régression linéaire
Algorithme SVM
Utilisation de l’algorithme SVM
Classification naïve bayésienne
Pratique de la classification naïve bayésienne
Algorithme des k-moyennes
Utilisation de l’algorithme des k-moyennes
Analyse en composante principale PCA

Deep learning avec Keras et TensorFlow

Définition du Deep learning
Concepts du deep learning
TensorFlow
Keras
Compréhension et préparation des données
Déploiement du modèle

Atelier Pratique

12- Machine Learning

2 jours

Voir le programme

Initiation au machine Learning

Fondements du Machine Learning
Introduction au Machine Learning
Groupes de Machine Learning
Besoins du Machine Learning
Cycle de vie du Machine Learning
Identification des biais cognitifs humains

Classification du machine Learning

Théorie du Naïve Bayes
Régression logistique binomiale
Théorie k-NN
Arbres de classification
Forêts d’arbres de décision
Support vector machine

Régression linéaire avec Python

Définition de la régression
Régression linéaire univariée
Régression linéaire multivariée
Régression linéaire polynomiale
Régressions régularisées
Programmer une régression linéaire en Python
Utilisation des expressions lambda et des listes en intention
Afficher la régression avec MathPlotLib
L’erreur quadratique
La variance
Le risque

Initiation au clustering

Définition du clustering
Méthode k-means
Clustering hiérarchique

Initiation aux Règles d’association

Définition des règles d’association
Initiation à la méthode A priori
Évaluation des règles d’association candidates

Réduction dimensionnelle

Définition de la réduction dimensionnelle
Utilisation des méthodes de sélection de variables
Méthode ACP
Méthode ADL

Algorithmes Du Machine Learning

Initiation à l’ensemble learning
Apprentissage par renforcement
Régression linéaire simple et multiple
Régression polynomiale
Séries temporelles
Régression logistique et applications en scoring
Classification hiérarchique et non hiérarchique (K-Means)
Classification par arbres de décision ou approche Naïve Bayes
Ramdom Forest (développement des arbres de décision)
Gradiant Boosting
Réseaux de neurones
Machine à support de vecteurs
Deep Learning : exemples et raisons du succès actuel
Text Mining : analyse des corpus de données textuelles

Atelier cas pratique

Numpy Et Scipy

Tableaux et matrices
Algèbre linéaire avec Numpy
Numpy et MathPlotLib

Scikit learn

Machine Learning avec SKLearn
Régression linéaire
Création du modèle
Echantillonnage
Randomisation
Apprentissage avec fit
Prédiction du modèle
Metrics
Choix du modèle
PreProcessing et Pipeline
Régressions non polynomiales

Test et validation des algorithmes

Validation des algorithmes
Atelier cas pratique
Techniques de ré-échantillonnage en jeu d’apprentissage, de validation et de test
Mesures de performance des modèles prédictifs
Matrice de confusion, de coût et la courbe ROC et AUC

Atelier cas pratique

Informations pratiques

Suivant le baromètre Besoin en Main d’Œuvre 2019 (BMO 2019) et la DARES, le nombre de postes à créer pour le consultant Big Data ainsi que les difficultés de recrutement en 2019 sont comme suit

Nombre de postes à pourvoir

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Quels sont les chiffres associés aux postes et à la formation ?

Salaire pour un junior en moyenne

Salaire pour un senior en moyenne

Recrutements jugés difficiles

%

National

%

Île-de-France

%

Auvergne-Rhône-Alpes

%

Occitanie

Une question ? Contactez-nous !

La formation « Big data Architecture et Machine Learning » va vous ouvrir un large panel de possibilités et vous permettre d’exercer les métiers suivants :

✔ Consultant Big Data
✔ Data Architect
✔ Data engineering
✔ Data Analyst
✔ Data Scientist avec Python
✔ Data Scientist avec R
✔ Data Scientist et Intelligence artificielle
✔ Architect cloud AWS, Azure ou GCP pour Big Data
✔ Développeur Full Stack Big Data

Comment suivre une formation chez nous ?

1. Prenez contact avec nos conseillers.
2. Choisissez le format de votre formation : Blended (présentiel et e-learning) ou présentiel
3. Nous validons votre dossier et vous recevez vos identifiants.
4. Vous pouvez commencer la formation.

Financez votre formation !

Une question ? Contactez-nous !

Financement CPF

CPF « Compte Personnel de Formation »

+

CPF de transition

CPF de transition pour une Reconversion Professionnelle.

g

PDC

Plan de Développement de Compétences de l’entreprise.

Z

VAE

VAE : Validation des Acquis de l’Expérience.

i

Contrat PRO

Contrat d’alternance ou de Professionnalisation.



AFPR

Action de Formation Préalable à l’Embauche.

o

AIF

AIF : Aide Individuelle à la Formation par Pôle Emploi.



POEc

Préparation Opérationnelle Emploi Collective.



POEi

Préparation Opérationnelle Emploi Individuelle.

Financez votre formation !

Découvrez nos solutions

Financement CPF – CPF « Compte Personnel de Formation »

CPF de transition – CPF de transition pour une Reconversion Professionnelle

PDC- Plan de Développement de Compétences de l’entreprise.

VAE – Validation des Acquis de l’Expérience

Contrat PRO – Contrat d’alternance ou de Professionnalisation

AFPR – Action de Formation Préalable à l’Embauche

AIF – Aide Individuelle à la Formation par Pôle Emploi

POEc – Préparation Opérationnelle Emploi Collective

POEi – Préparation Opérationnelle Emploi Individuelle

Contactez-nous

Devenez Big Data Architecte & Machine Learning

Jours de formation

Solutions de financement

A l’issue de la formation Big data Architecture et Machine Learning, le certifié sera en mesure de :

Programme détaillé

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Informations pratiques

Nombre de postes à pourvoir

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Quels sont les chiffres associés aux postes et à la formation ?

Salaire pour un junior en moyenne

Salaire pour un senior en moyenne

Recrutements jugés difficiles

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

La formation « Big data Architecture et Machine Learning » va vous ouvrir un large panel de possibilités et vous permettre d’exercer les métiers suivants :

Comment suivre une formation chez nous ?

Financez votre formation !

Financement CPF

CPF de transition

PDC

VAE

Contrat PRO

AFPR

AIF

POEc

POEi

Découvrez nos solutions

Vous souhaitez vous inscrire ? en savoir plus ? poser une question ?