Devenez Big data engineer Data scientist

37 jours

CPF et VAE

RNCP 32123BC06

Demandez le programme

Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.
Synthèse
Déroulé
Informations pratiques
Suivre une formation

Jours de formation

Solutions de financement

Une formation pour qui ?

La formation Big data enginnering et data scientist s’adresse aux :

  • Directeurs/Chefs de projet ou Responsable métier
  • Responsable système d’informations
  • Développeurs informatiques
  • Consultants en business intelligence
  • Ingénieurs d’étude, de recherche et développement, Architecte système et logiciel
  • Consultants techniques, Consultants business
  • Statisticiens et Mathématiciens

 

La formation Big data enginnering et data scientist se distingue par la maîtrise de multi-compétences en Gestion de donnés massives.

Cette formation va vous permettre d’acquérir les compétences pour devenir Full Stack Big Data, à savoir : l’architecture et l’engineering Big Data, le stockage NoSQL, l’analyse et la science de données, la visualisation de données, le déploiement en Cloud d’une solution Big Data et l’administration d’une plateforme Big Data.

Maîtriser le concept Big Data pour la recherche, l’analyse, le partage et le stockage de données massives.

Explorer le potentiel BIG DATA au service de tous les métiers (Marketing, Contrôle de Gestion, Ressources humaines, Renseignement, Santé, Banque, Assurance…)

Pré-requis

  • Avoir suivi la formation Développeur Java J2EE ou Microsoft.NET serait un plus
  • Avoir une expérience des bases de données relationnelles
  • Posséder des connaissances approfondies en statistique est un plus
  • Etre capable de travailler en équipe avec un sens d’écoute et d’analyse
  • Avoir des connaissances en Python

A l’issue de la formation Big Data enginnering et Data scientist, le certifié sera en mesure de :

  • Identifier les besoins et la problématique des directions métiers
  • Maîtriser les technologies spécifiques au Big Data comme Hadoop, Pig, Hive, Spark, Yarn, Kafka, ELK, ou Cloudera
  • Mettre en place un Data Lake
  • Maîtriser les bases de données NoSQL : MongoDB, Cassandra, Neo4j, hBase, Redis…
  • Maîtriser les technologies spécifiques à la science, à l’analyse ainsi qu’à la visualisation de données : Statistiques, Machine Learning, Deep Learning, langage R, Python, Tableau, PowerBI, R Shiny…
  • Maîtriser le déploiement des solutions Big Data sur le Cloud : AWS, GCP, Microsoft Azure…
  • Maîtriser la science de données et l’IA « Intelligence Artificielle » : Sprak Mlib, Scala, PySpark, RPA « Robotic Process Automation »
  • Construire des modèles prédictifs pour répondre à la problématique
  • Construire des algorithmes pour améliorer les résultats de recherche et de ciblage
  • Trouver et rassembler l’ensemble des sources de données structurées ou non structurées nécessaires à l’analyse pertinente
  • Identifier les opportunités à travers l’open data et les cas d’usage métiers
  • Concevoir un projet Big Data (acquisition et stockage des données, traitement distribué, analyse de données à large échelle)
  • Maîtriser les technologies par des études de cas concrètes
  • Maîtriser les enjeux juridiques et liés à la protection des données

Programme détaillé

01- Big Data: Enjeux et perspectives

1 jour

Voir le programme

Big Data : Introduction

  • Introduction
  • Types du big data
  • Du SQL au NoSQL
  • Caractéristiques techniques des 5V
  • Technologies Big Data
  • Languages Big Data
  • Acteurs principaux du Big Data
  • Différents métiers du Big Data
  • Collecte et traitement des données structurées, semi-structurées et non-structurées
  • Stockage des données
  • Diffusion des données
  • Traitements en temps réel ou différé: Kafka
  • Architectures réparties : Hadoop
  • Architecture Cloud / Scalabilité
  • Impact de l’usage du Big Data
  • Création de la valeur à partir des données
  • Exemple d’architecture Big Data

Enjeux du Big Data

  • Enjeux du big data en france
  • ROI et Big Data

Marché Du Big Data

  • Marché de la data au niveau mondial
  • Évolutions et les acteurs de la chaine de l’offre Big Data
  • Enjeux stratégiques (création de la valeur)
  • Opportunités pour les entreprises de services informatiques

Impacts du Big Data sur l’entreprise

  • Transformation de la relation client
  • Transformation de l’organisation de l’entreprise
  • Transformation du produit final
  • Chaîne des valeurs, développement des nouvelles activités
  • Productivité et optimisation des dépenses
  • Apparition des nouveaux rôles/métiers (data scientists et CDO)
  • Compétences nouvelles à acquérir

Solutions technologiques du Big Data

  • L’écosystème de la plateforme Hadoop : Pig, Flume, Zookeeper, HBase, Oozie, YARN,
    MapReduce…
  • Les modes de stockage (NoSQL, HDFS) / principes de fonctionnement de MapReduce

Méthodologie de gestion d’un projet Big Data

  • Mise en place d’un projet Big Data
  • Méthodologies recommandées pour lancer un projet Big Data
  • Calcul du retour sur investissement d’un projet Big Data

Atelier pratique

02- Introduction à l’Architecture Big Data

1 jour

Voir le programme

Introduction à l’architecture Big Data

  • Définition du Big Data
  • Comprendre le volume
  • Besoin Big Data
  • Introduction à l’architecture Big Data
  • Distribution des données
  • Rôles d’un projet Big Data
  • Atelier pratique

Ecosystème Hadoop

  • Technologies et Outils Big Data
  • Découvrir l’écosystème Hadoop
  • Les distributions Hadoop
  • Atelier pratique

Mode de stockage HDFS et Base NoSql

  • Comprendre HDFS
  • HadoopFS
  • Caractéristiques de HDFS
  • Les modes de stockage HDFS
  • Services HDFS
  • Opération HDFS
  • Administration d’un cluster HDFS
  • Comprendre NoSQL
  • Les modes de stockage NoSQL
  • Choix du type de la Base de donnée NoSQL
  • Atelier pratique

Principes du Traitement MapReduce

  • Principes de fonctionnement de MapReduce
  • Fonction map()
  • Fonction reduce()
  • Conception d’un MapReduce
  • Atelier pratique

Architecture applicative

  • Introduction
  • Différentes étapes de gestion des données (Cycle de vie des données dans le Big Data)
  • Définition du processus d’ingestion des données
  • Outil disponibles sur le marché
  • Modèle d’architecture applicative d’une solution Big Data
  • Atelier pratique

Architecture technique

  • Introduction à l’architecture technique
  • Traitement de données
  • Qualité des données (Data Quality)
  • Architectures réparties (Clustering Hadoop)
  • Atelier pratique

Modèles d’Architectures Big Data

  • Introduction
  • Architecture Datalake
  • Architecture Lambda
  • Architecture Kappa
  • Architecture pour l’internet des objets (IoT)
  • Atelier pratique

Critères de choix d’une architecture Big Data

  • Introduction
  • Critères de choix
  • Le type de traitement
  • L’utilisateur final des données
  • La source des données (où les données sont générées)
  • Format du contenu
  • Types des données à traiter
  • Fréquence et taille des données
  • Méthodologie de traitement des données
  • Le choix du matériel
  • Récapitulatif des critères du choix d’une architecture big data
  • Atelier pratique

03- NoSQL

1 jour

Voir le programme

Introduction aux Bases de données NoSQL

  • Histoire de NoSQL
  • Comprendre le modèle NoSQL
  • NoSQL Vs BDR
  • Propriétés ACID
  • Propriétés BASE
  • Théorème de Brewer ou de CAP
  • Caractéristiques NoSQL

Atelier pratique

Principaux modèles de BD NoSQL

  • Familles des Bases de Données NoSQL
  • Modèle NoSQL « Clé-Valeur »
  • Modèle NoSQL orienté Colonne
  • Modèle NoSQL orienté Document
  • Modèle NoSQL orienté Graphe
  • Bases de données NoSQL
  • Comparatif des bases de données NoSQL
  • Récapitulatif des types de schéma de données NoSQL
  • HBase
  • MongoDB
  • Cassandra
  • Redis
  • Couchbase
  • Elasticsearch
  • Riak

Atelier pratique

Choix d’une Base de données NoSql

  • Choisir une base de données NoSQL
  • Classification des bases de données les plus utilisées

Atelier pratique

04- Hbase / Mongo DB / H Base / Cassandra / Redis

4 jours

Voir le programme

Introduction à Hbase

  • Définition de Hbase
  • Hadoop vs Hbase
  • Caractéristiques de Hbase
  • Quand utiliser HBase
  • Importance des bases de données NoSQL dans Hadoop
  • Autres type de stockage NoSQL
  • Comment HBase diffère des autres modèles NoSQL
  • Quelle base de données NoSQL choisir?
  • HBase Vs Hive
  • HBase VS RDBMS

Atelier pratique

Architecture de Hbase

  • Mécanisme de stockage dans HBase
  • Stockage orienté colonne vs orienté ligne
  • Modèle de données HBase
  • Avantages de l’architecture Apache HBase
  • Architecture HBase et ses composants importants
  • Comment les composants Hbase fonctionnent ensemble
  • Lecture et écriture dans HBase
  • Récapitulatif des étapes d’écriture Hbase
  • HBASE vs HDFS
  • Cas d’utilisation de HBase

Atelier pratique

Installation de Hbase

  • Modes d’installation d’Apache HBase
  • Configuration de pré-installation
  • Création d’un utilisateur Hadoop
  • Configuration SSH et génération de clés
  • Mise en place de Java
  • Mise en place de Hadoop
  • Installation de Hbase
  • Comment télécharger la version stable du fichier tar Hbase
  • Installation de HBase en mode autonome (Standalone)
  • Installation de HBase en mode Pseudo distribué
  • Installation de HBase en mode entierement distribué
  • Dépannage de l’installation de HBase

Atelier pratique

Commandes générales Hbase SHELL

  • La commande status
  • La commande version
  • La commande table_help
  • La commande whoami

Atelier pratique

Manipulation des tables avec HBASE

  • Commandes de gestion des tables
  • Créer une table à l’aide de HBase Shell
  • Créer une table à l’aide de l’API java
  • Désactiver une table à l’aide de HBase Shell
  • Désactiver une table à l’aide de l’API java
  • Activation d’une table à l’aide de HBase Shell
  • Activation d’une table à l’aide de l’API java
  • Décrire et modifier une table à l’aide de Hbase Shell
  • Décrire et modifier une table à l’aide de l’API java
  • Existence d’une table à l’aide de HBase Shell
  • Existence d’une table à l’aide de l’API java
  • Suppression d’une table à l’aide de HBase Shell
  • Suppression d’une table à l’aide de l’API java
  • Fermer une table à l’aide de HBase Shell
  • Fermer une table à l’aide de l’API java

Atelier pratique

Insérer et récupérer des données dans HBase: exemples get (), put (), scan ()

  • Insertion ou écriture de données dans la table HBase: Shell
  • Insertion de données à l’aide de l’API Java
  • Mise à jour des données à l’aide de HBase Shell
  • Mise à jour des données à l’aide de l’API Java
  • Lecture de données à l’aide de HBase Shell
  • Lecture de données à l’aide de l’API Java
  • Suppression d’une cellule spécifique dans un tableau à l’aide de HBase Shell
  • Suppression d’une cellule spécifique dans un tableau à l’aide de l’API Java
  • Scanner à l’aide de HBase Shell
  • compter et tronquer
  • Sécurité

Atelier pratique

Avantages et limitations de Hbase

  • Goulot d’étranglement des performances
  • Avantages de HBase
  • Limitations avec HBase

Introduction

  • Stockage NoSQL
  • Caractéristiques des bases NoSQL : CAP
  • Choix d’une base de données NoSQL
  • Bases de données orientées documents
  • Historique et Présentation de MongoDB
  • Cas d’utilisation de MongoDB
  • Structure des données : notions de documents, de collections de valeurs
  • Le format JSON
  • Stockage de JSON
  • JavaScript pour manipuler du JSON

Atelier pratique

Installation et configuration de MongoDB

  • Plateformes supportées
  • Installation de MongoDB sur Windows
  • Choix de la version
  • Téléchargement de MongoDB pour Windows
  • Exécution
  • Configuration
  • Lancement de Mongo DB
  • Connection à MongoDB
  • Installation de MongoDB sur Linux
  • Choix de la version
  • Téléchargement de MongoDB pour Windows
  • Exécution
  • Configuration
  • Lancement de Mongo DB
  • Connection à MongoDB

Atelier pratique

Prise en main de MongoDb

  • Utilisation de l’invite interactive
  • Commandes de manipulation de base de données
  • Utilisation d’un client graphique
  • Importation d’une collection
  • Manipulation du format BSON
  • Comprendre le type ObjectId

Atelier pratique

Administration de MongoDB

  • Sauvegarde des données
  • Configuration de la journalisation
  • Mise en place d’une réplication
  • Configuration de la réplication
  • Teste de la réplication
  • Mise en place du sharding
  • Configuration d’une collection pour le sharding

Atelier pratique

Manipulation des documents dans MongoDB

  • Insérer un document
  • Modifier et supprimer un document
  • Utiliser une transaction
  • Chercher des documents avec FIND()
  • Comparer FIND() et SELECT en SQL
  • Utiliser les opérateurs du FIND()
  • Indexer pour améliorer les performances

Atelier pratique

MongoDB avancé

  • Comprendre le framework d’agrégation
  • Découvrir les étapes de l’agrégation
  • Découvrir les opérateurs des Pipeline d’agrégation

Atelier pratique

Introduction à Cassandra

  • Base de données NoSQL
  • Définition de Cassandra
  • Caractéristiques de Cassandra
  • Modèle de données Cassandra
  • Cassandra vs RDBMS
  • Cassandra vs Hadoop
  • Cassandra vs HBase
  • Cassandra vs MongoDB
  • Cassandra Cqlsh
  • Commandes Shell
  • Atelier pratique

Architecture de Cassandra

  • Composants de l’architecture de Cassandra
  • Composants de l’architecture de Cassandra
  • Cassandra Keyspace (Création, modification et suppression d’un Keyspace)
  • Réplication de données dans Cassandra
  • Atelier pratique

Installation et configuration de Cassandra

  • Installation et configuration de Cassandra sur Windows
  • Installation et configuration de cassandra sur Linux
  • Installation et configuration de cassandra avec Docker
  • Atelier pratique

Le langage CQL (Cassandra Query Language)

  • Modèle de données de Cassandra
  • API de Cassandra
  • Types de données CQL
  • Atelier pratique

Manipulation de tables avec Cassandra

  • Création de tables
  • Modification de tables
  • Suppression ds tables
  • Tronquer une table
  • Création d’un index
  • Suppression de l’Index
  • Lot (Batch)
  • Atelier pratique

Manipulation des données avec CQL

  • Création de données
  • Mise à jour des données
  • Lecture des données
  • Suppression de données
  • Définition des types de données complexes
  • Insertion des données dans des types complexes
  • Modification les types de données complexes
  • Atelier pratique

Les Clusters avec Cassandra

  • Les clusters
  • Démarrage d’un cluster avec Docker Compose
  • Surveillance de l’ajout des nœuds
  • Obtention d’informations avec nodetool
  • Maîtrise de la syntaxe de création de table
  • Définition d’une clé de partition et de clustering
  • Modélisation des données
  • Atelier pratique

05- Apache Hadoop

4 jours

Voir le programme

Section 1: Introduction à l’écosystème Hadoop

  • Aborder cette formation
  • Découvrir NoSQL
  • Définir le Big Data
  • Comprendre l’histoire d’Hadoop
  • Parcourir l’écosystème Hadoop
  • Différencier les distributions Hadoop
  • Comprendre le NoSQL
  • Définition du Big Data
  • Architecture de Hadoop
  • L’Écosystème de Hadoop
  • Rôle des différents composants de l’écosystème Hadoop
  • Rôle des collecteurs de données
  • Distributions d’Hadoop

Section 2: Installation de l’environnement Hadoop

  • Installation de l’environnement Hadoop VM Ubuntu
  • Installation de l’environnement Hadoop sur Windows
  • Différencier les distributions Hadoop
  • Découvrir Cloudera Hadoop
  • Démarrer une QuickStart VM
  • Travaux pratique: Installation Hadoop

Section 3: HDFS – La couche de stockage

  • Comprendre le HDFS
  • Découvrir HadoopFS
  • Assimiler les principes du HDFS
  • Appréhender les services HDFS
  • Comprendre les opérations HDFS
  • Configuration de HDFS
  • Demarrage de HDFS
  • Administrer le cluster HDFS
  • Découvrir la gestion des services HDFS
  • 0Manipuler les fichiers en ligne de commande
  • Exécuter des opérations en Java
  • Utiliser les InputStream Java
  • Accéder à HDFS avec WebHDFS
  • Caractéristiques de HDFS
  • Architecture de HDFS
  • Rôle de HDFS
  • Opérations HDFS
  • Listing des fichiers dans HDFS
  • Insertion des données dans HDFS
  • Extraction des données du HDFS
  • Arrêt du HDFS

Section 4: Fonctionnement de MapReduce

  • Appréhender les principes de base
  • Découvrir la fonction map()
  • Utiliser la fonction reduce()
  • Concevoir un MapReduce
  • Développer le mapper
  • Développer le reducer
  • Créer un jeu de données
  • Créer le driver
  • Lancer un MapReduce en Java
  • Suivre l’évolution du MapReduce
  • Développer un MapReduce en PHP
  • Lancer des MapReduce avec Hadoop Streaming
  • Principes de base de MapReduce
  • Architecture MapReduce
  • Fonction map()
  • Fonction reduce()
  • Conception d’un MapReduce
  • Développer le mapper
  • Développer le reducer
  • Création d’un jeu de données
  • Création d’un driver
  • Lancer un MapReduce en Java
  • Suivi de l’évolution du MapReduce
  • Développement d’un MapReduce en PHP
  • Lancement des MapReduce avec Hadoop Streaming
  • TP : Fonctionnement de MapReduce

Section 5: Base de données NoSQL HBase

  • Identifier les cas d’utilisation de HBase
  • Comprendre le modèle Hbase
  • Administrer HBase
  • Appréhender les opérations HBase
  • Gérer les services avec des interfaces web
  • Lancer des commandes HBase dans le terminal
  • Filtrer les résultats d’un scan
  • Utiliser HBase en Java
  • Utiliser HBase dans les MapReduce
  • Définition de Hbase
  • Hbase avec Hadoop
  • Cas d’utilisation de HBase
  • Comprendre le modèle Hbase
  • Installation de Hbase
  • Architecture
  • Composants Hbase (Region, Region Server, Region Split)
  • Lecture et écriture dans Hbase
  • API Shell
  • API Java
  • TP : Base de données NoSQL HBase

Section 6: Apache Oozie -Ordonnanceur de WorkFlow

  • Définition de Oozie
  • Caractéristiques Oozie
  • Fonctionnement de Oozie
  • Actions Oozie
  • Oozie Job
  • Oozie workflow
  • Coordinateur Oozie
  • Paramètre Oozie
  • Monitoring Oozie
  • Packaging et déploiement d’une application de workflow Oozie

Section 7: Collecte de données avec Apache Sqoop

  • Introduire scoop anglais
  • Importer les données avec scoop
  • Définition de Sqoop
  • Cible des imports dans le cluster
  • Architecture de Sqoop
  • Fonctionnement de Sqoop
  • Exemple d’import vers HDFS
  • Exemples d’import vers Hive
  • Exemple d‘exports

Section 8 : travaux pratiques: Développement d’une application Big Data avec Hadoop

  • Mission 1: Conception de l’application
  • Découper l’application
  • Exploiter les données
  • Concevoir la base de données HBase
  • Parser le fichier d’entrée dans un mapper
  • Écrire dans HBase avec un reducer
  • Mettre en place des clés composites
  • Utiliser les clés composites
  • Lancer un modèle MapReduce d’import

Mission 2: Développement des modèles MapReduce

  • Lire les données de HBase dans un mapper
  • Agréger les données dans un reducer
  • Suivre les modèles MapReduce
  • Déboguer les modèles MapReduce
  • Explorer les sources d’Hadoop
  • Réaliser des jointures de données
  • Résoudre le problème du secondary sort
  • Optimiser ses modèles MapReduce

Mission 3: Développement des modèles MapReduce

  • Mettre en place un workflow Oozie
  • Lancer un workflow Oozie
  • Filtrer les données de HBase
  • Exporter dans MySQL grâce à Sqoop
  • Lancer son workflow avec l’API HTTP REST
  • Coupler l’application avec une interface web

06- Apache Spark

3 jours

Voir le programme

Introduction à Apache Spark

  • Apache Spark
  • MapReduce VS Spark
  • Caractéristiques d’Apache Spark
  • Architecture d’Apache Spark
  • Anatomie d’une application Spark
  • Interaction avec Spark
  • Spark sur Hadoop
  • Composants de Spark

Atelier pratique

Installation de Spark

  • Préparation d’une VM Linux
  • Télécharger Apache Spark
  • Installation d’Apache Spark : redhat /CentOS
  • Installation d’Apache Spark : Windows
  • Installation d’Apache Spark : Mac OS
  • Installation d’Apache Spark : Ubuntu /Debian

Atelier pratique : Installation Spark

Resilient Distributed Datasets ( RDDs )

  • Introduction aux RDDs (Resilient Distributed Datasets)
  • Exemple d’un RDD
  • Caractéristiques des RDDs
  • Liaison avec Spark (Scala/Java/Python)
  • Création d’un RDD
  • Opérations RDD
  • Actions RDD
  • Transformation RDD

Atelier pratique

Spark streaming

  • Définition
  • Exemple Scala, Java et Python
  • Concepts de base
  • Initialisation de StreamingContext
  • Flux discrétisés (DStreams)

Atelier pratique

Spark SQL

  • Caractéristiques de Spark SQL
  • Architecture Spark SQL
  • Appréhender les abstractions de données de Spark
  • Exploiter la Spark Session
  • Créer un Data Frame
  • Manipuler le DataFrame
  • Comprendre les formats de stockage
  • Construire un jeu de données
  • Importer un fichier Avro
  • Joindre des DataFrames
  • Sauvegarder au format Parquet
  • Employer la syntaxe select
  • Utiliser un Dataset
  • Exécuter un programme avec spark-submit
  • Choisir une distribution Spark
  • Conclure sur Apache Spark

Atelier pratique

07- Apache Kafka

2 jours

Voir le programme

Introduction à Apache kafka

  • Présentation de Kafka
  • Intérêt d’Apache Kafka
  • Les API de Kafka
  • Terminologies de Kafka
  • Atelier pratique

Architecture d’Apache kafka

  • Architecture du cluster Kafka
  • Topic
  • Broker
  • Zookeeper
  • Producers
  • Consumers
  • Kafka WORKFLOW

Installation et configuration de Apache Kafka

  • Installation et configuration d’Apache Kafka
  • Installation de Java
  • Installation de Zookeeper
  • Installation de Kafka
  • Atelier pratique: Installation

Commande Line Interface (CLI)

  • Démarrez le serveur Kafka
  • Lister tous les sujets
  • Créer un topic
  • Décrire un topic
  • Publier des messages sur un topic
  • Consommer des messages
  • Modifier les sujets d’Apache Kafka
  • Atelier pratique: CLI

Développement Kafka avec Java

  • Introduction à la programmation Kafka
  • Kafka APIs
  • Création d’un projet Kafka
  • Java producer
  • Rappels des producers Java
  • Producer Java avec clés
  • Java consumer
  • Consumer Java au sein d’un groupe de consumers
  • Consumer Java avec threads
  • Le consumer Java recherche et attribue
  • Compatibilité de client bidirectionnelle
  • Atelier pratique: Développement Kafka

Kafka Stream

  • Introduction à Kafka Stream
  • Concepts de Kafka Stream
  • Architecture de Kafka Stream
  • Démo: Application wordcount avec kafka stream
  • Atelier pratique: KStream

08- Elastic Stack ELK

2 jours

Voir le programme

Introduction à la suite ELK (ELK Stack)

  • Aperçu sur la suite ELK
  • Autres outils en relation avec ELK
  • Rôle de Elastic Stack
  • Installation de la suite ELK
  • Installation de la suite ELK sur Windows
  • Installation de la suite ELK sur Docker

Eléments du Stack ELK

  • Elasticsearch: Le noyau
  • Kibana: L’outil utilisateur
  • Logstash: L’outil d’ingestion
  • Beats: Transfert de données
  • X-Pack: Le pack de fonctionnalités

Cas d’utilisation la suite ELK

  • Gestion des logs
  • Aperçu sur la gestion des logs
  • Analyse des métriques
  • Aperçu sur l’analyse des métriques
  • Recherche de Sites et d’applications
  • Analyse de sécurité
  • Aperçu sur l’analyse de sécurité
  • Monitoring des performances des applications

Chargement des données

  • Données de chargement en masse
  • Chargement d’échantillons de données
  • Définition des types de données

Interrogation des données

  • Requêtes simples
  • Requêtes au niveau du terme
  • Analyse et tokenisation

Analyse des données

  • Agrégations de base
  • Filtrer les agrégations
  • Percentiles et histogrammes

Présentation de vos Insights

  • Présentation et configuration de Kibana
  • Création de visualisations dans Kibana
  • Création de tableaux de bord dans Kibana

Dépannage du Stack

  • Quand les choses vont mal
  • Dépannage des ressources

Atelier cas pratique

  • Installation et configuration (Serveur ElasticSearch, Mettre en place un cluster , Les rôles des
    noeuds)

09- Gouvernance et Sécurité

1 jour

Voir le programme

Introduction à la Gouvernance des données

  • Rôle des données au 21e siècle
  • Définition et principes de base de la gouvernance des données
  • Gouvernance des données Vs Gestion des données
  • Avantages de la gouvernance des données
  • Gouvernance des données dans le cloud
  • Outils de gouvernance des données
  • Les étapes de la gouvernance des données

Atelier pratique

Déploiement de la gouvernance des données

  • À qui appartiennent les données et pourquoi est-ce important?
  • Rôles dans le domaine de la gouvernance des données
  • Conception du processus de gouvernance des données

Atelier pratique

Gestion d’un programme de gouvernance des données

  • Gestion et maintien de la gouvernance des données
  • Suivi et mesure de votre programme

Atelier pratique

10- Introduction à la data science

1 jour

Voir le programme

Introduction à la Data Science

Big data

Deep learning

  • Perceptron
  • Réseaux neuronaux multicouches (MLP)
  • Réseaux neuronaux convolutifs (CNN)
  • Réseaux neuronaux récursifs (RNN)

Machine Learning

  • Apprentissage automatique supervisé/ non supervisé
  • Algorithmes du Machine Learning

Principes de la data science

  • Approche fonctionnelle de base
  • Variables prédictives
  • Variables à prédire
  • Fonctions hypothèses
  • Estimateurs (biais et variances)
  • Compromis biais – variance
  • Fonctions de perte
  • Régularisation des paramètres
  • Optimisation des paramètres

Clustering

  • k-moyens (kMeans)
  • Clustering hiérarchique
  • Approche DBSCAN

Classification

  • Régression logistique
  • Machines à vecteurs de support (SVM)
  • Arbres de décisions
  • K plus proches voisins (kNN)

Traitements en Data Science

  • Compressions des données
  • Réglages des modèles

Principes de l’apprentissage d’ensemble

  • Forêts aléatoires
  • gradient boosting

Principes de la régression

  • Explorations des données régressives
  • Performance des modèles de régression

Atelier Cas pratique

11- Python pour la data science

2 jours

Voir le programme

Opérations basiques avec Python

  • Python pour la data science
  • Comprendre l’importance de la data science
  • Expliquer le choix de Python
  • Installation de Python

Opérations basiques avec Python

  • Opérations basiques sur les listes
  • Opérations avancées sur les listes
  • Les dictionnaires
  • Les compréhensions

Chargement et préparation des données

  • Intérêt du prétraitement de données
  • Chargement des fichiers Excel et CSV
  • Chargement d’un fichier JSON
  • Interrogation d’une base de données SQL Server
  • Concaténation de différentes sources de données
  • Fusion de différentes sources de données
  • Manipulation des données manquantes
  • Maîtrise des statistiques descriptives avec NumPy
  • Maîtrise des statistiques descriptives avec Pandas

Manipulation des données

  • Différents types de données
  • Manipulation des données quantitatives avec NumPy
  • Techniques d’encodage
  • Manipulation des données textuelles avec Pandas
  • Manipulation des données textuelles avec NLTK
  • Utilisation des séries temporelles
  • Manipulation des images

Atelier pratique Visualisation des donnée

Visualisation des données

  • Découvrir les bases de la visualisation de données
  • Matplotlib
  • Seaborn
  • Bokeh
  • Aller plus loin avec Matplotlib

Initiation au Web scrapig

  • Web scraping
  • Exploration d’un document HTML avec Beautiful Soup
  • Objets Tag et NavigableString
  • Aller plus loin avec le web scraping
  • Pratique du web scraping

Initiation aux algorithmes de machine learning

  • Régression linéaire
  • Mise en œuvre la régression linéaire
  • Algorithme SVM
  • Utilisation de l’algorithme SVM
  • Classification naïve bayésienne
  • Pratique de la classification naïve bayésienne
  • Algorithme des k-moyennes
  • Utilisation de l’algorithme des k-moyennes
  • Analyse en composante principale PCA

Deep learning avec Keras et TensorFlow

  • Définition du Deep learning
  • Concepts du deep learning
  • TensorFlow
  • Keras
  • Compréhension et préparation des données
  • Déploiement du modèle

Atelier Pratique

12- Machine Learning

3 jours

Voir le programme

Initiation au machine Learning

  • Fondements du Machine Learning
  • Introduction au Machine Learning
  • Groupes de Machine Learning
  • Besoins du Machine Learning
  • Cycle de vie du Machine Learning
  • Identification des biais cognitifs humains

Classification du machine Learning

  • Théorie du Naïve Bayes
  • Régression logistique binomiale
  • Théorie k-NN
  • Arbres de classification
  • Forêts d’arbres de décision
  • Support vector machine

Régression linéaire avec Python

  • Définition de la régression
  • Régression linéaire univariée
  • Régression linéaire multivariée
  • Régression linéaire polynomiale
  • Régressions régularisées
  • Programmer une régression linéaire en Python
  • Utilisation des expressions lambda et des listes en intention
  • Afficher la régression avec MathPlotLib
  • L’erreur quadratique
  • La variance
  • Le risque

Initiation au clustering

  • Définition du clustering
  • Méthode k-means
  • Clustering hiérarchique

Initiation aux Règles d’association

  • Définition des règles d’association
  • Initiation à la méthode A priori
  • Évaluation des règles d’association candidates

Réduction dimensionnelle

  • Définition de la réduction dimensionnelle
  • Utilisation des méthodes de sélection de variables
  • Méthode ACP
  • Méthode ADL

Algorithmes Du Machine Learning

  • Initiation à l’ensemble learning
  • Apprentissage par renforcement
  • Régression linéaire simple et multiple
  • Régression polynomiale
  • Séries temporelles
  • Régression logistique et applications en scoring
  • Classification hiérarchique et non hiérarchique (K-Means)
  • Classification par arbres de décision ou approche Naïve Bayes
  • Ramdom Forest (développement des arbres de décision)
  • Gradiant Boosting
  • Réseaux de neurones
  • Machine à support de vecteurs
  • Deep Learning : exemples et raisons du succès actuel
  • Text Mining : analyse des corpus de données textuelles

Atelier cas pratique

Numpy Et Scipy

  • Tableaux et matrices
  • Algèbre linéaire avec Numpy
  • Numpy et MathPlotLib

Scikit learn

  • Machine Learning avec SKLearn
  • Régression linéaire
  • Création du modèle
  • Echantillonnage
  • Randomisation
  • Apprentissage avec fit
  • Prédiction du modèle
  • Metrics
  • Choix du modèle
  • PreProcessing et Pipeline
  • Régressions non polynomiales

Test et validation des algorithmes

  • Validation des algorithmes
  • Atelier cas pratique
  • Techniques de ré-échantillonnage en jeu d’apprentissage, de validation et de test
  • Mesures de performance des modèles prédictifs
  • Matrice de confusion, de coût et la courbe ROC et AUC

Atelier cas pratique

13- Deep Learning avec Python – Keras ou Tensor Flow

2 jours

Voir le programme

Introduction au Deep Learning

  • IA et deep learning
  • Architecture du deep learning
  • Fonctionnement d’un modèle de deep learning
  • Architecture d’un réseau de neurones
  • Construction d’un réseau de neurones
  • Apprentissage du réseau de neurones
  • Concepts de Keras
  • Deep learning avec Keras

Machine Learning et Deep Learning

  • Apprentissage automatique
  • Importation des données
  • Préparation des données
  • Stabilisation de l’apprentissage d’un modèle avec Keras
  • Sauvegarde et réutilisation d’un réseau avec Keras
  • Sauvegarde d’un réseau

Performance des algorithmes

  • Paramètres de l’apprentissage
  • Amélioration de l’apprentissage avec Keras
  • Stratégie d’amélioration
  • Accélération des calculs avec le cloud computing et le GPU
  • Accélération des calculs avec le cloud computing et le TPU

Atelier cas pratique

Analyse de textes avec Keras

  • Word embedding
  • Application du deep learning sur les textes
  • Préparation des documents avec Keras
  • Écriture d’un modèle de word embedding avec Keras
  • Classification des documents et interprétation des résultats
  • Amélioration d’un modèle d’analyse de textes avec Keras

Reconnaissance des images avec Keras

  • Définition de la convolution
  • Application de la convolution sur des images
  • Application du deep learning sur des images
  • Fonctionnement du pooling
  • Architecture d’un réseau à convolution
  • Jeu de données d’images
  • Préparation des images pour l’analyse
  • Découverte de l’OCR
  • Reconnaissance des images
  • Augmentation des données
  • Préparation des données pour réutiliser les meilleurs modèles de Keras
  • Réutilisation des meilleurs modèles existants avec Kera

Atelier cas pratique

________

Initiation au deep learning

• Comprendre le succès du deep learning
• Appréhender le machine learning
• Suivre une expérience en data science
• Comprendre le perceptron
• Comprendre le réseau de neurones
• Concevoir un réseau de neurones
• Entraîner un réseau de neurones
• Suivre les itérations de l’algorithme de rétropropagation
• Découvrir le deep learning
• Aborder l’architecture des réseaux de neurones
• Installer Anaconda
• Installer TensorFlow 2
• Lien entre l’IA et le deep learning
• Initiation au deep learning
• Structure d’un modèle de deep learning
• Comprendre le fonctionnement d’un modèle de deep learning
• Deep learning avec python

Atelier cas pratique

Composants de base de TensorFlow

• Prendre en main TensorFlow et les structures de données
• Pourquoi Tensorflow 2.0 ?
• Installation of Tensorflow 2.0
• Utiliser Tensorflow 2.0 avec ANACONDA/Google Colab
• Tensorflow – les structures de données
• Calculs de base sur les tenseurs
• Indexage – Indexation
• Manipulation de formes
• Introduction aux variables
• Introduction aux fonctions

Atelier cas pratique

Mettre en œuvre Sequential API de TensorFlow.Keras

• Créer un réseau de neurones
• Créer un réseau de neurones de type MLP
• Accéder aux informations des couches d’un réseau de neurones
• Initialiser les poids et les biais d’un réseau de neurones
• Compiler et entraîner un réseau de neurones
• Comprendre les données de validation
• Traiter les données déséquilibrées
• Analyser les résultats
• Prédire avec un réseau de neurones multiclasse
• Charger les données pour une régression
• Réaliser un réseau de neurones pour une régression linéaire
• Découvrir le Deep learning avec tf.Keras
• Régression linéaire avec tf.keras
• Régression linéaire avec tf.keras
• Régression non linéaire avec tf.keras
• Un exercice simple de classification
• Reconnaissance de l’écriture manuscrite au moyen du MLP
• Reconnaissance de l’écriture manuscrite au moyen du MLP
• Stabiliser l’apprentissage d’un modèle avec tf.Keras
• Classification des images de vêtements

Atelier cas pratique

Utiliser Functional API et Subclassing API

• Développer un modèle Functional API
• Développer un modèle Functional API avec plusieurs couches d’entrée
• Effectuer l’apprentissage d’un modèle Functional API avec plusieurs couches d’entrée
• Développer un modèle Functional API avec plusieurs couches de sortie
• Utiliser Subclassing API

Contrôler et monitorer un réseau de neurones

• Enregistrer un modèle
• Charger un modèle à partir d’un fichier
• Utiliser les callbacks prédéfinis lors de l’entraînement d’un réseau de neurones
• Configurer le critère d’arrêt de l’entraînement d’un réseau de neurones
• Visualiser les résultats avec TensorBoard
• Lancer le serveur TensorBoard
• Aborder les hyperparamètres d’un réseau de neurones
• Développer un programme pour fixer les hyperparamètres
• Utiliser GridSearchCV pour tester plusieurs paramètres
• Entraîner plusieurs réseaux de neurones avec GridSearchCV
• Gérer les hyperparamètres des réseaux de neurones
• Éviter le Sur-apprentissage
• La méthode “Early Stopping”
• Early Stopping dans Keras
• Stabiliser l’apprentissage d’un modèle
• Sauvegarder et réutiliser le modèle entraîné

Atelier cas pratique

Aborder CNN et le transfer learning

• Comprendre les CNN
• Éviter le surapprentissage avec le dropout
• Entraîner avec un CNN
• Réutiliser un réseau de neurones
• Implémenter le transfer learning
• Prédire avec le transfer learning
• Conclure sur TensorFlow
• Réseau à convolution CNN
• Comprendre l’architecture d’un réseau à convolution
• A quoi sert la convolution ?
• Méthode de sous échantillonnage : le Max-Pooling
• Les étapes de base pour créer le modèle CNN
• Application de CNN sur le jeu de données MNIST
• Comprendre l’apprentissage d’un réseau de convolutio

Atelier cas pratique

14- Mise en place d’un Data Lake

2 jours

Voir le programme

Introduction aux données d’entreprise

  • Données d’entreprise
  • Importance de la qualité de la donnée
  • Données du Big data
  • Architectures Big Data

Atelier pratique

Introduction aux Data lake

  • Présentation du Data lake
  • Pertinence du Data lake dans une entreprise
  • Avantage du Data lake
  • Fonctionnement d’un Data Lake
  • Différence entre le Data Lake et de Data Warehouse
  • Défis du du Data lake
  • Approches pour créer un Data Lake
  • Conclusion

Atelier pratique

Architecture du Data Lake

  • Architecture du Data lake
  • Concepts clés du Data Lake
  • Étapes de maturité du Data Lake
  • Meilleures pratiques de l’architecture Data Lake

Atelier pratique

L’architecture Lambda basée sur Data Lake

  • Introduction
  • Couche d’ingestion de données
  • Speed layer – traitement des données en temps quasi réel
  • Couche de stockage de données – stocker toutes les données
  • Serving layer – livraison et exportation de données
  • Acquisition layer – Couche d’acquisition de données
  • Messaging Layer – Couche de livraison de données
  • Ingestion layer – Couche d’ingestion de données
  • Exploration de la couche Lambda
  • Magasins de données relationnelles

Atelier pratique

Écosystème Hadoop pour la mise en œuvre d’un Data lake

  • Introduction
  • Distributions Hadoop
  • Facteurs de sélection d’un stack Big Data pour les entreprises
  • Écosystème Hadoop pour un Data lake

Acquisition de données de données par lots avec Apache Sqoop

  • Introduction
  • Contexte dans Data Lake – Acquisition de données
  • Fonctionnement de Sqoop
  • Importation de données à l’aide de Sqoop
  • Exportation de données à l’aide de Sqoop
  • Connecteurs Sqoop

Atelier pratique

Acquisition de données de flux de données à l’aide d’Apache Flume

  • Introduction
  • Contexte dans Data Lake: acquisition de données
  • Initiation à la Stream Data (Flux de données)
  • Données Batch Vs données stream
  • Acquisition de données de flux – cartographie technologique
  • Fonctionnement de Flume
  • Sqoop Vs Flume

Atelier pratique

Couche de messagerie utilisant Apache Kafka

  • Introduction
  • Contexte dans Data Lake – couche de messagerie
  • Couche de messagerie
  • Couche de messagerie – cartographie technologique
  • Cycle de vie du flux de données

Atelier pratique

Traitement des données à l’aide d’Apache Flink

  • Introduction
  • Contexte dans un lac de données – couche d’ingestion de données
  • Couche d’ingestion de données
  • Data Ingestion Layer – cartographie technologique
  • Fonctionnement de Flink
  • Architecture Flink

Atelier pratique

Magasin de données à l’aide d’Apache Hadoop

  • Introduction
  • Contexte pour Data Lake – Stockage de données et lambda Batch Layer
  • Stockage de données et Lambda Batch Layer
  • Stockage de données et couche Lambda Batch – cartographie technologique
  • Fonctionnement de Hadoop
  • Architecture Hadoop

Atelier pratique

Magasin de données indexé à l’aide d’Elasticsearch

  • Introduction
  • Contexte dans Data Lake: stockage de données et lambda Speed layer
  • Data Storage et Lambda Speed Layer
  • Data Storage et Lambda Speed Layer: cartographie technologique
  • Définition d’Elasticsearch
  • Fonctionnement d’Elasticsearch
  • Principes de l’architecture de base d’Elasticsearch

Atelier pratique

15- ElasticSearch

1 jour

Voir le programme

Généralités sur les moteur de recherches

Présentation d’ElasticSearch

Installation et configuration

  • Installation
  • Configuration
  • Vue générale de l’API REST
  • Première indexation
  • Première recherche
  • Installation depuis les RPM
  • Utilisation de l’interface X-Pack monitoring
  • Premiers pas dans la console Sense
  • Etude du fichier : elasticsearch.yml.

Indexation de documents

  • Conception de l’index et de ses documents
  • Indexer ou supprimer des documents avec l’API Rest
  • Indexation en masse
  • Version et gestion optimiste de la concurrence
  • Présentation du stockage Lucene et refresh
  • Autres fonctionnalités (routing, consistency, document enfant, …)

Mapping

  • Définition et rôle du mapping
  • Types de champs
  • Champs prédéfinis
  • Méta données d’un Index

Format des données

  • Json
  • Notions de types et de mapping
  • Mise à jour des types ou re-indexation

Analyse et extraction de texte

  • La base de l’extraction et analyse de texte
  • Configuration et utilisation des Analyzers prédéfinis ou customisés
  • API de vérification de l’analyse de texte

Recherche de documents

  • Rechercher des documents avec l’API Rest
  • Gestion des résultats
  • Les requêtes de recherche
  • Requêtes vs filtres
  • Avantages des filtres

Kibana

  • Présentation par les API d’administration et de supervision
  • Objectifs
  • Collecte de données
  • Logs…
  • Stockage dans ElasticSearch et mise à disposition dans une interface

Web de graphiques

  • Démonstrations

Atelier cas pratique

Clustering

  • Définitions
  • Cluster
  • Noeud
  • Sharding
  • Nature distribuée d’ElasticSearch
  • Présentation des fonctionnalités
  • Stockage distribué
  • Calculs distribués avec ElasticSearch
  • Tolérance aux pannes

Fonctionnement

  • Notion de noeud maître
  • Stockage des documents
  • Shard primaire et réplicat
  • Routage interne des requêtes

Gestion du cluster

  • Outils d’interrogation
  • /_cluster/health
  • Création d’un index
  • Définition des espaces de stockage (shard)
  • Allocation à un noeud
  • Configuration de nouveaux noeuds
  • Tolérance aux pannes matérielles et répartition du stockage
  • Gestion des pannes
  • Fonctionnement en cas de perte d’un noeud
  • Election d’un nouveau noeud maître si nécessaire
  • Déclaration de nouveaux shards primaires

Mise en oeuvre X-Pack Security

  • Présentation des apports de X-Pack Security
  • Authentification
  • Gestion des accès aux données (rôles)
  • Filtrage par adresse IP
  • Cryptage des données
  • Contrôle des données
  • Audit d’activité

Exploitation

  • Gestion des logs
  • ES_HOME/logs
  • Paramétrage de différents niveaux de logs
  • INFO
  • DEBUG
  • TRACE
  • Suivi des performances
  • Sauvegardes avec l’API Snapshot

Atelier cas pratique

16- RPA (Robotic Process Automation) avec Python

2 jours

Voir le programme

Section 1. Tout automatiser avec Python

  • Automatiser tout avec Python
  • Course prerequisites
  • Découvrir le RPA.
  • Les opportunités pour l’entreprise.
  • Les bénéfices de la RPA
  • Quel outil faut-il utiliser ?
  • Automatisation avec Python
  • Préparation de l’environnement de travail
  • TP
  • Quiz

Section 2. Automatiser les interactions avec les fichiers, les dossiers et les terminaux

  • Comment lire les fichiers
  • Comment écrire des fichiers
  • Exécuter les commandes du terminal
  • Organiser les répertoires
  • Le répertoire de travail actuel
  • Chemins absolus et chemins relatifs
  • Créer de nouveaux dossiers
  • Le processus de lecture/écriture de fichiers
  • Copier, déplacer, renommer et supprimer des fichiers et des dossiers
  • Organiser les Dossiers
  • Quiz

Section 3 : Automatiser l’accès aux données web – niveau de base

  • La valeur du web scrapping
  • Création et analyse d’une requête
  • Explorer la structure HTML
  • Comment isoler les données
  • Préparation au grattage paginé
  • Gratter le contenu paginé
  • Web scraping
  • Exploration d’un document HTML avec Beautiful Soup
  • Objets Tag et NavigableString
  • Aller plus loin avec le web scraping
  • Pratique du web scraping
  • Mini-projet Web Scraping avec BeautifulSoup
  • TP
  • Quiz

Section 4. Automatisation de l’accès aux données Web – Niveau intermédiaire

  • Automatiser la navigation web
  • Interaction du base du navigateur
  • Gestion du glisser -déposer
  • Fonction d’attente du selenium
  • Fonction d’attente explicite de selenium
  • Utiliser les fichiers d’exercice
  • Comprendre le NLP
  • Découvrir les domaines et les exemples d’application du NLP
  • Installer Anaconda
  • Aborder l’environnement Jupyter
  • Comprendre le pipeline de modélisation NLP
  • TP
  • Quiz

Section 5. Automatisation de l’accès aux données Web – Niveau avancé

  • Comprendre les requêtes API
  • Créer des requêtes d’API
  • Analyse via JSON
  • Utilisation des clés API
  • Lier les appels d’API
  • Prochaines étapes
  • Comprendre les requêtes API
  • Créer des requêtes d’API
  • Analyser le JSON
  • Utiliser des clés d’API
  • Lier les appels d’API
  • Application – Mini-Projet
  • TP
  • Quiz

17- NLP – Natural Language Processing

2 jours

Voir le programme

Section 1. Découvrir le NLP

1. Traitement du langage naturel avec Python
2. Connaître les prérequis théoriques et techniques
3. Utiliser les fichiers d’exercice
4. Comprendre le NLP
5. Découvrir les domaines et les exemples d’application du NLP
6. Installer Anaconda
7. Aborder l’environnement Jupyter
8. Comprendre le pipeline de modélisation NLP
9. Support pdf
– Utiliser les fichiers d’exercice
– Comprendre le NLP
– Découvrir les domaines et les exemples d’application du NLP
– Installer Anaconda
– Aborder l’environnement Jupyter
– Comprendre le pipeline de modélisation NLP
10. TP
11. Quiz

Section 2. Traiter un texte avec Python

1. Stocker un texte brut dans une structure de données Python
2. Utiliser Pandas pour lire les données
3. Comprendre les expressions régulières
4. Utiliser les expressions régulières avec le module Re de Python
5. Étudier les fonctions les plus populaires du module Re
6. Support pdf
– Stocker un texte brut dans une structure de données Python
– Utiliser Pandas pour lire les données
– Comprendre les expressions régulières
– Utiliser les expressions régulières avec le module Re de Python
– Étudier les fonctions les plus populaires du module Re
7. TP
8. Quiz

Section 3. Préparer les données

1. Aborder les étapes de préparation des données
2. Réaliser un exemple de nettoyage de données
3. Supprimer les stopwords
4. Réaliser le stemming avec NLTK
5. Pratiquer la lemmatization avec NLTK
6. Comparer le stemming et la lemmatization
7. Support pdf
– Aborder les étapes de préparation des données
– Supprimer les caractères de ponctuation
– Supprimer les stopwords
– Réaliser le stemming avec NLTK
– Réaliser la lemmatization avec NLTK
– Comparer le stemming et la lemmatization
9. TP
10. Quiz

Section 4. Transformer un texte en chiffres

1. Comprendre la vectorisation avec CountVectorizer
2. Utiliser CountVectorizer
3. Effectuer une vectorisation contextuelle avec N-Grams
4. Étudier TF-IDF
5. Utiliser TF-IDF
6. Appréhender le feature engineering
7. Ajouter des features aux données
8. Analyser les features
9. Support pdf
– Comprendre la vectorisation
– Comprendre la vectorisation avec CountVectorizer
– Utiliser CountVectorizer
– Effectuer une vectorisation contextuelle avec N-Grams
– Étudier TF-IDF
– Utiliser TF-IDF
– Appréhender le feature engineering
10. TP
11. Quiz

Section 5. Comprendre l’expérience machine learning – NLP

1. Apprendre la méthode K-fold
2. Comprendre la matrice de confusion d’un modèle de classification
3. Comprendre les mesures de performance d’un modèle NLP
4. Aborder l’overfitting (le surapprentissage)
6. Support pdf
– Apprendre la méthode K-fold
– La validation croisée avec Scikit-learn
– Matrice de Confusion d’un modèle de classification
– Les mesures de performance d’un modèle NLP
7. Quiz

Section 6. Réaliser un modèle de classification avec SVM

1. Modéliser en machine learning
2. Aborder l’algorithme Support Vector Machine
3. Utiliser le SVM avec scikit-learn et CountVectorizer
4. Tester le modèle de classification SVM
5. Mesurer les performances du modèle de classification SVM
6. Utiliser le SVM avec la cross-validation
7. Utiliser le SVM avec TF-IDF
7. Support pdf
– Machine Learning
– Aborder l’algorithme Support Vector Machine
– Utiliser le SVM avec scikit-learn
– Tester le modèle de classification
– Utiliser le SVM avec la cross-validation
8. TP
9. Quiz

Section 7. Réaliser un modèle de classification avec le Random forest

1. Aborder l’algorithme Random forest
2. Utiliser Random forest pour construire un modèle de classification
3. Mesurer les performances d’un modèle de classification Random forest
4. Utiliser Random forest avec K-fold
5. Support pdf
– Aborder l’algorithme Random forest
– Utiliser Random forest pour construire un modèle de classification
– Mesurer les performances d’un modèle de classification Random forest
– Utiliser Random forest avec K-fold
6. TP
7. Quiz

Section 8. Perfectionner un modèle avec l’hyperparamètre

1. Programmer un hyperparamètre avec le modèle SVM
2. Programmer un hyperparamètre avec Random forest
3. Évaluer les résultats d’un hyperparamètre
4. Tester GridSearchCV avec un SVM
5. Tester GridSearchCV avec Random forest
6. Détecter les features les plus importantes avec le Random forest
7. Homogénéiser les données avec TF-IDF
8. Tester Random forest sur des données homogènes
9. Sélectionner un modèle
10. Conclure sur le traitement du NLP avec Python
15. Support pdf
₋ Programmer un hyperparamètre avec le modèle SVM
₋ Programmer un hyperparamètre avec Random forest
₋ Évaluer les résultats d’un hyperparamètre
₋ Tester GridSearchCV avec un SVM
₋ Tester GridSearchCV avec Random forest
16. TP
17. Quiz

Section 9. Examen final

1. Synthèse du cours
2. TP Général
3. Examen final

18- Visualisation de données avec Excel / Power BI / Tableau

2 jours

Voir le programme

EXCEL : 

Section 1: Importation et exportation de données (partie 1)

1. Importer dans Excel à partir d’un fichier

  • Importer des données à partir d’un classeur Excel
  • Obtenir des données à partir d’un fichier texte ou CSV
  • Importer des données depuis un fichier XML
  • Importer des données depuis un fichier JSON
  • Importer les données d’un dossier
  • Récupérer les données d’une bibliothèque SharePoint

2. Importer dans Excel à partir d’une base de données

  • Importer depuis une base de données SQL Server
  • Importer depuis une base de données Microsoft Access
  • Obtenir des données Analysis Services
  • Importer des données SQL Server Analysis Services
  • Importer des données depuis MySQL Server

3. Importer dans Excel à partir de Microsoft Azure

  • Importer des données depuis une base de données SQL Server
  • Importer des données depuis Azure SQL Data Warehouse et Azure
  • HDInsight
  • Importer des données depuis un stockage Blob Azure
  • Importer des données depuis un stockage Table Azure
  • Importer des données depuis Azure Data Lake Storage

4. Importer dans Excel à partir de services en ligne

  • Importer des données depuis une liste SharePoint Online
  • Importer des données depuis Microsoft Exchange Online
  • Importer des données depuis Dynamics 365
  • Importer des données depuis Facebook

5. Pdf

  • Découvrir Power Query
  • Importer dans Excel à partir d’un fichier
  • Importer dans Excel à partir d’une base de données
  • Importer dans Excel à partir de Microsoft Azure
  • Importer dans Excel à partir de service en ligne

Section 2: Importation et exportation de données (partie 2)

1. Importer dans Excel à partir d’autres sources

  • Importer des données depuis un tableau ou une plage
  • Importer des données à partir d’un site web
  • Importer des données depuis Microsoft Query
  • Importer des données depuis SharePoint Server
  • Importer des données à partir d’un flux OData
  • Importer des données à partir d’Active Directory
  • Importer des données à partir d’une requête vide

2. Aborder les fonctionnalités complémentaires

  • Fusionner des sources multiples
  • Ajouter des sources multiples
  • Gérer les paramètres des sources de données
  • Utiliser les options des requêtes
  • Actualiser les données importées

3. Exporter dans d’autres formats

  • Exporter un fichier au format texte
  • Exporter un fichier au format CSV
  • Exporter un fichier au format XML
  • Exporter un fichier vers une page web
  • Exporter un fichier comme classeur Excel
  • Exporter un fichier en tant que modèle Excel
  • Exporter un fichier aux formats SYLK et DIF
  • Exporter un fichier au format PDF
  • Exporter un tableau dans une liste SharePoint
  • Exporter un tableau comme diagramme croisé dynamique
  • Visio
  • Découvrir les fonctions Exporter et Publier de Microsoft Excel

4. Pdf

  • Importer dans Excel à partir d’autres sources
  • Aborder les fonctionnalité complémentaires
  • Exporter dans d’autres formats

Section 3: Analyse de données avec Power Pivot (partie 1)

1. Power Pivot

  • Activer Power Pivot
  • Comprendre l’intérêt du data storytelling
  • Connaître les avantages et les inconvénients de Power Pivot
  • Aborder les différences entre Power Pivot et Power BI

2. Exploiter les sources de données

  • Découvrir l’interface de Power Pivot
  • Importer des données depuis un fichier Excel
  • Copier-coller les données
  • Récupérer des données externes
  • Importer les données d’un autre fichier Excel
  • Transférer les données d’un fichier CSV
  • Collecter les données d’un flux OData
  • Importer des données avec Power Query

3. Manipuler Power Pivot

  • Aborder les feuilles de données
  • Utiliser les options de colonnes de données
  • Mettre en forme et filtrer des données
  • Trouver et modifier les métadonnées
  • Créer et manipuler les perspectives
  • Tirer parti des colonnes calculées
  • Exploiter les mesures
  • Connaître les propriétés de la création de rapports
  • Employer les synonymes

4. Lecture Pdf

  • Découvrir Power Pivot
  • Exploiter les sources de données
  • Manipuler Power Pivot

Section 4: Analyse de données avec Power Pivot (partie 2)

1. Mettre en place les relations

  • Découvrir la vue diagramme et les relations entre tables
  • Comprendre la cardinalité de la relation
  • Assimiler le sens de filtrage de la relation
  • Utiliser une table de date

2. Exploiter les indicateurs clés de performance (KPI)

  • Mettre en place un KPI
  • Créer un indicateur sur une mesure

3. Établir des hiérarchies

  • Découvrir la hiérarchie
  • Modifier les hiérarchies automatiques
  • Créer une hiérarchie

4. Aborder les tableaux croisés dynamiques

  • Générer un tableau croisé dynamique
  • Manipuler les jeux de lignes ou de colonnes
  • Convertir un tableau croisé dynamique en formules
  • Partager un tableau croisé dynamique

5. Lecture Pdf

  • Mettre en place les relations
  • Exploiter les indicateurs clés de performance (KPI)
  • Établir des hiérarchies
  • Aborder les tableaux croisés dynamiques
  • Section 5: Analyse de données avec Power Query

1. Découvrir Power Query

  • Définir les objectifs de la formation
  • Comprendre le complément Power Query pour Excel
  • Comprendre les ETL et leur utilité
  • Évaluer les avantages et les limites de l’éditeur de requête
  • Comparer avec Power BI pour Desktop

2. Transformer ses données

  • Gérer les erreurs de données
  • Renommer les colonnes
  • Définir les types de données
  • Filtrer les données
  • Traiter les doublons et les valeurs NULL
  • Fractionner ou assembler des colonnes
  • Formater les contenus des colonnes
  • Transposer une table de données
  • Chercher et remplacer des valeurs dans une colonne
  • Regrouper les données
  • Ajouter des colonnes personnalisées

3. Aller plus loin avec les transformations de données

  • Combiner des requêtes
  • Lier les tables et les requêtes

4. Pdf

  • Mettre en place les relations
  • Exploiter les indicateurs clés de performance (KPI)
  • Établir des hiérarchies
  • Aborder les tableaux croisés dynamiques

TABLEAU : 

Introduction à la visualisation avec Tableau

  • Comprendre les besoins auxquels répond Tableau
  • Comprendre l’architecture générale
  • Aborder les prérequis
  • Découvrir le cycle de travail
  • Installation de tableau
  • Parcourir les fichiers source

Connexion à une source et importation des données

  • Ouvrir Tableau
  • Se connecter à un fichier Excel
  • Vérifier les données
  • Filtrer les chaînes de caractères
  • Filtrer les données numériques
  • Filtrer les données de type date
  • Comprendre la notion de jointure
  • Ajouter une deuxième feuille de calcul
  • Ajouter un autre fichier
  • Exécuter la requête

Création d’un visuel et préparation des données

  • Explorer la structure d’ensemble d’un fichier Tableau
  • Prendre en main l’interface de création des visualisations
  • Créer un histogramme
  • Utiliser l’étagère Repère pour améliorer le graphique
  • Utiliser l’étagère Repère pour améliorer l’infobulle
  • Définir le format d’affichage par défaut pour les mesures
  • Créer une hiérarchie pour explorer les données
  • Regrouper les valeurs d’une dimension
  • Comprendre l’agrégation des mesures
  • Actualiser les données de l’extrait

Aller plus loin avec les graphiques

  • Travailler avec les dates
  • Découvrir la variété des graphiques
  • Filtrer un graphique
  • Créer une matrice de graphiques
  • Créer un graphique en miroir
  • Créer un graphique à deux axes
  • Ajouter une ligne de référence
  • Créer un graphique en secteur

Travailler avec les tableaux 

  • Créer un tableau simple
  • Créer un tableau simple multidimensionnel
  • Ajouter une mise en forme conditionnelle
  • Créer un tableau croisé
  • Créer un tableau multimesure

Création des formules simples

  • S’initier aux formules dans Tableau
  • Créer un champ calculé simple
  • Créer un champ calculé conditionnel
  • Créer une mesure discrète
  • Créer et afficher un paramètre
  • Utiliser un paramètre dans une formule

Création d’un tableau de bord

  • Découvrir l’interface d’assemblage d’un tableau de bord
  • Démarrer et assembler un tableau de bord
  • Assembler un tableau de bord à l’aide de différents éléments
  • Paramétrer les interactivités du tableau de bord

Atelier pratique

POWER BI :

Introduction à Power Bi

  • Présentation De Power BI
  • Caractéristiques de Power Bi
  • Composants de Power BI
  • Cycle de travail dans Power BI Desktop
  • Configuration des options de Power BI

Création de  requêtes basées sur Excel

  • Importer un fichier Excel composé d’une feuille
  • Importer un fichier Excel composé de plusieurs feuilles
  • Importer un TCD Excel
  • Atelier pratique : Création de requêtes basées sur Excel

Préparation des données

  • Choix des colonnes
  • Nettoyage des données
  • Conversion des données
  • Transformation des données
  • Ajout des colonnes selon 2 méthodes
  • Fusion des requêtes
  • Combinaison des requêtes
  • Atelier pratique : Préparation des données

Création de requêtes sur une base de données

  • Appréhender l’import et la requête directe
  • Importer les tables
  • Atelier pratique : Création de requêtes sur une base de données

Création de requêtes sur d’autres sources

  • Importer plusieurs fichiers Excel
  • Créer une requête sur un fichier TXT ou CSV
  • Effectuer une requête à partir du web
  • Requêter à partir d’un fichier PDF
  • Atelier pratique : Création de requêtes sur d’autres sources

Organisation des tables et des relations

  • Utiliser la vue Modèle
  • Mettre en place les relations
  • Connaître les bonnes pratiques d’organisation des tables
  • Formater et organiser les données
  • Créer une mesure
  • Atelier pratique : Organisation des tables et des relations

Création de la table de temps

  • Nécessité d’une table de temps
  • Créer la table à l’aide d’un script DAX
  • Associer la table au modèle et ajuster les champs
  • Déterminer le nombre de tables du temps
  • Atelier pratique : Création de la table de temps

Mise en place des principaux graphiques et tableaux

  • Aborder les règles d’ergonomie et de composition d’un rapport
  • Découvrir l’interface de Power BI
  • Choisir judicieusement les couleurs
  • Créer et configurer un histogramme
  • Créer et configurer un graphique en courbe
  • Créer un graphique en secteur
  • Créer une carte
  • Créer une carte à plusieurs lignes
  • Ajouter une zone de texte et une image pour le titre
  • Créer une carte géographique
  • Atelier pratique : Mise en place des principaux graphiques et les tableaux

Filtrage des données

  • Créer un segment
  • Synchroniser les segments entre plusieurs pages
  • Utiliser le volet Filtre
  • Atelier pratique : Filtrage des données

Utilisation des tableaux

  • Créer un tableau simple
  • Créer un tableau croisé
  • Dupliquer la mise en forme
  • Atelier pratique : Utilisation des tableaux

Exportation des données

  • Récupérer les données au format Excel/CSV et exporter au format PDF
  • Introduction à Power BI Service
  • Atelier pratique : Exportation des données

Informations pratiques

Suivant le baromètre Besoin en Main d’Œuvre 2019 (BMO 2019) et la DARES, le nombre de postes à créer pour le consultant Big Data ainsi que les difficultés de recrutement en 2019 sont comme suit

Nombre de postes à pourvoir

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Quels sont les chiffres associés aux postes et à la formation ?

Salaire pour un junior en moyenne

Salaire pour un senior en moyenne

Recrutements jugés difficiles

%

National

%

Île-de-France

%

Auvergne-Rhône-Alpes

%

Occitanie

La formation « Big Data enginnering et Data scientist » va vous ouvrir un large panel de possibilités et vous permettre d’exercer les métiers suivants :

 

✔ Consultant Big Data
✔ Data Architect
✔ Data engineering
✔ Data Analyst
✔ Data Scientist avec Python
✔ Data Scientist avec R
✔ Data Scientist et Intelligence artificielle
✔ Architect cloud AWS, Azure ou GCP pour Big Data
✔ Développeur Full Stack Big Data

Comment suivre une formation chez nous ?

1. Prenez contact avec nos conseillers.
2. Choisissez le format de votre formation : Blended (présentiel et e-learning) ou présentiel
3. Nous validons votre dossier et vous recevez vos identifiants.
4. Vous pouvez commencer la formation.
tooltip text

Financez votre formation !

Financement CPF

CPF « Compte Personnel de Formation »
+

CPF de transition

CPF de transition pour une Reconversion Professionnelle.
g

PDC

Plan de Développement de Compétences de l’entreprise.
Z

VAE

VAE : Validation des Acquis de l’Expérience.
i

Contrat PRO

Contrat d’alternance ou de Professionnalisation.

AFPR

Action de Formation Préalable à l’Embauche.
o

AIF

AIF : Aide Individuelle à la Formation par Pôle Emploi.

POEc

Préparation Opérationnelle Emploi Collective.

POEi

Préparation Opérationnelle Emploi Individuelle.
Financez votre formation !

Découvrez nos solutions
Financement CPF – CPF « Compte Personnel de Formation »

 

CPF de transition – CPF de transition pour une Reconversion Professionnelle

 

PDC- Plan de Développement de Compétences de l’entreprise.

 

VAE – Validation des Acquis de l’Expérience

 

Contrat PRO – Contrat d’alternance ou de Professionnalisation

 

AFPR – Action de Formation Préalable à l’Embauche

 

AIF – Aide Individuelle à la Formation par Pôle Emploi

 

POEc – Préparation Opérationnelle Emploi Collective

 

POEi – Préparation Opérationnelle Emploi Individuelle

 

Contactez-nous