Programme détaillé Big Data Engineering

Candidater en ligne

Contenu de la formation

1. Enjeux et perspectives

Jour 1

Big Data : Introduction

Introduction
Types du big data
Du SQL au NoSQL
Caractéristiques techniques des 5V
Technologies Big Data
Languages Big Data
Acteurs principaux du Big Data
Différents métiers du Big Data
Collecte et traitement des données structurées, semi-structurées et non-structurées
Stockage des données
Diffusion des données
Traitements en temps réel ou différé: Kafka
Architectures réparties : Hadoop
Architecture Cloud / Scalabilité
Impact de l’usage du Big Data
Création de la valeur à partir des données
Exemple d’architecture Big Data

Enjeux du Big Data

Enjeux du big data en france
ROI et Big Data

Marché Du Big Data

Marché de la data au niveau mondial
Évolutions et les acteurs de la chaine de l’offre Big Data
Enjeux stratégiques (création de la valeur)
Opportunités pour les entreprises de services informatiques

Impacts du Big Data sur l’entreprise

Transformation de la relation client
Transformation de l’organisation de l’entreprise
Transformation du produit final
Chaîne des valeurs, développement des nouvelles activités
Productivité et optimisation des dépenses
Apparition des nouveaux rôles/métiers (data scientists et CDO)
Compétences nouvelles à acquérir

Solutions technologiques du Big Data

L’écosystème de la plateforme Hadoop : Pig, Flume, Zookeeper, HBase, Oozie, YARN,
MapReduce…
Les modes de stockage (NoSQL, HDFS) / principes de fonctionnement de MapReduce

Méthodologie de gestion d’un projet Big Data

Mise en place d’un projet Big Data
Méthodologies recommandées pour lancer un projet Big Data
Calcul du retour sur investissement d’un projet Big Data

Atelier pratique

2. Architecture Big Data

Jour 1

Introduction à l’architecture Big Data

Définition du Big Data
Comprendre le volume
Besoin Big Data
Introduction à l’architecture Big Data
Distribution des données
Rôles d’un projet Big Data
Atelier pratique

Ecosystème Hadoop

Technologies et Outils Big Data
Découvrir l’écosystème Hadoop
Les distributions Hadoop
Atelier pratique

Mode de stockage HDFS et Base NoSql

Comprendre HDFS
HadoopFS
Caractéristiques de HDFS
Les modes de stockage HDFS
Services HDFS
Opération HDFS
Administration d’un cluster HDFS
Comprendre NoSQL
Les modes de stockage NoSQL
Choix du type de la Base de donnée NoSQL
Atelier pratique

Principes du Traitement MapReduce

Principes de fonctionnement de MapReduce
Fonction map()
Fonction reduce()
Conception d’un MapReduce
Atelier pratique

Architecture applicative

Introduction
Différentes étapes de gestion des données (Cycle de vie des données dans le Big Data)
Définition du processus d’ingestion des données
Outil disponibles sur le marché
Modèle d’architecture applicative d’une solution Big Data
Atelier pratique

Architecture technique

Introduction à l’architecture technique
Traitement de données
Qualité des données (Data Quality)
Architectures réparties (Clustering Hadoop)
Atelier pratique

Modèles d’Architectures Big Data

Introduction
Architecture Datalake
Architecture Lambda
Architecture Kappa
Architecture pour l’internet des objets (IoT)
Atelier pratique

Critères de choix d’une architecture Big Data

Introduction
Critères de choix
Le type de traitement
L’utilisateur final des données
La source des données (où les données sont générées)
Format du contenu
Types des données à traiter
Fréquence et taille des données
Méthodologie de traitement des données
Le choix du matériel
Récapitulatif des critères du choix d’une architecture big data
Atelier pratique

3. NoSQL

Jour 1

Introduction aux Bases de données NoSQL

Histoire de NoSQL
Comprendre le modèle NoSQL
NoSQL Vs BDR
Propriétés ACID
Propriétés BASE
Théorème de Brewer ou de CAP
Caractéristiques NoSQL

Atelier pratique

Principaux modèles de BD NoSQL

Familles des Bases de Données NoSQL
Modèle NoSQL « Clé-Valeur »
Modèle NoSQL orienté Colonne
Modèle NoSQL orienté Document
Modèle NoSQL orienté Graphe
Bases de données NoSQL
Comparatif des bases de données NoSQL
Récapitulatif des types de schéma de données NoSQL
HBase
MongoDB
Cassandra
Redis
Couchbase
Elasticsearch
Riak

Atelier pratique

Choix d’une Base de données NoSql

Choisir une base de données NoSQL
Classification des bases de données les plus utilisées

Atelier pratique

4. Apache Hadoop

Jour 1

Section 1: Introduction à l’écosystème Hadoop

Aborder cette formation
Découvrir NoSQL
Définir le Big Data
Comprendre l’histoire d’Hadoop
Parcourir l’écosystème Hadoop
Différencier les distributions Hadoop
Comprendre le NoSQL
Définition du Big Data
Architecture de Hadoop
L’Écosystème de Hadoop
Rôle des différents composants de l’écosystème Hadoop
Rôle des collecteurs de données
Distributions d’Hadoop

Section 2: Installation de l’environnement Hadoop

Installation de l’environnement Hadoop VM Ubuntu
Installation de l’environnement Hadoop sur Windows
Différencier les distributions Hadoop
Découvrir Cloudera Hadoop
Démarrer une QuickStart VM
Travaux pratique: Installation Hadoop

Section 3: HDFS – La couche de stockage

Comprendre le HDFS
Découvrir HadoopFS
Assimiler les principes du HDFS
Appréhender les services HDFS
Comprendre les opérations HDFS
Configuration de HDFS
Demarrage de HDFS
Administrer le cluster HDFS
Découvrir la gestion des services HDFS
0Manipuler les fichiers en ligne de commande
Exécuter des opérations en Java
Utiliser les InputStream Java
Accéder à HDFS avec WebHDFS
Caractéristiques de HDFS
Architecture de HDFS
Rôle de HDFS
Opérations HDFS
Listing des fichiers dans HDFS
Insertion des données dans HDFS
Extraction des données du HDFS
Arrêt du HDFS

Jour 2

Section 4: Fonctionnement de MapReduce

Appréhender les principes de base
Découvrir la fonction map()
Utiliser la fonction reduce()
Concevoir un MapReduce
Développer le mapper
Développer le reducer
Créer un jeu de données
Créer le driver
Lancer un MapReduce en Java
Suivre l’évolution du MapReduce
Développer un MapReduce en PHP
Lancer des MapReduce avec Hadoop Streaming
Principes de base de MapReduce
Architecture MapReduce
Fonction map()
Fonction reduce()
Conception d’un MapReduce
Développer le mapper
Développer le reducer
Création d’un jeu de données
Création d’un driver
Lancer un MapReduce en Java
Suivi de l’évolution du MapReduce
Développement d’un MapReduce en PHP
Lancement des MapReduce avec Hadoop Streaming
TP : Fonctionnement de MapReduce

Section 5: Base de données NoSQL HBase

Identifier les cas d’utilisation de HBase
Comprendre le modèle Hbase
Administrer HBase
Appréhender les opérations HBase
Gérer les services avec des interfaces web
Lancer des commandes HBase dans le terminal
Filtrer les résultats d’un scan
Utiliser HBase en Java
Utiliser HBase dans les MapReduce
Définition de Hbase
Hbase avec Hadoop
Cas d’utilisation de HBase
Comprendre le modèle Hbase
Installation de Hbase
Architecture
Composants Hbase (Region, Region Server, Region Split)
Lecture et écriture dans Hbase
API Shell
API Java
TP : Base de données NoSQL HBase

Jour 3

Section 6: Apache Oozie -Ordonnanceur de WorkFlow

Définition de Oozie
Caractéristiques Oozie
Fonctionnement de Oozie
Actions Oozie
Oozie Job
Oozie workflow
Coordinateur Oozie
Paramètre Oozie
Monitoring Oozie
Packaging et déploiement d’une application de workflow Oozie

Section 7: Collecte de données avec Apache Sqoop

Introduire scoop anglais
Importer les données avec scoop
Définition de Sqoop
Cible des imports dans le cluster
Architecture de Sqoop
Fonctionnement de Sqoop
Exemple d’import vers HDFS
Exemples d’import vers Hive
Exemple d‘exports

Section 8 : travaux pratiques: Développement d’une application Big Data avec Hadoop

Mission 1: Conception de l’application
Découper l’application
Exploiter les données
Concevoir la base de données HBase
Parser le fichier d’entrée dans un mapper
Écrire dans HBase avec un reducer
Mettre en place des clés composites
Utiliser les clés composites
Lancer un modèle MapReduce d’import

Jour 4

Mission 2: Développement des modèles MapReduce

Lire les données de HBase dans un mapper
Agréger les données dans un reducer
Suivre les modèles MapReduce
Déboguer les modèles MapReduce
Explorer les sources d’Hadoop
Réaliser des jointures de données
Résoudre le problème du secondary sort
Optimiser ses modèles MapReduce

Mission 3: Développement des modèles MapReduce

Mettre en place un workflow Oozie
Lancer un workflow Oozie
Filtrer les données de HBase
Exporter dans MySQL grâce à Sqoop
Lancer son workflow avec l’API HTTP REST
Coupler l’application avec une interface web

5. Apache Spark

Jour 1

Introduction à Apache Spark

Apache Spark
MapReduce VS Spark
Caractéristiques d’Apache Spark
Architecture d’Apache Spark
Anatomie d’une application Spark
Interaction avec Spark
Spark sur Hadoop
Composants de Spark

Atelier pratique

Installation de Spark

Préparation d’une VM Linux
Télécharger Apache Spark
Installation d’Apache Spark : redhat /CentOS
Installation d’Apache Spark : Windows
Installation d’Apache Spark : Mac OS
Installation d’Apache Spark : Ubuntu /Debian

Atelier pratique : Installation Spark

Jour 2

Resilient Distributed Datasets ( RDDs )

Introduction aux RDDs (Resilient Distributed Datasets)
Exemple d’un RDD
Caractéristiques des RDDs
Liaison avec Spark (Scala/Java/Python)
Création d’un RDD
Opérations RDD
Actions RDD
Transformation RDD

Atelier pratique

Spark streaming

Définition
Exemple Scala, Java et Python
Concepts de base
Initialisation de StreamingContext
Flux discrétisés (DStreams)

Atelier pratique

Jour 3

Spark SQL

Caractéristiques de Spark SQL
Architecture Spark SQL
Appréhender les abstractions de données de Spark
Exploiter la Spark Session
Créer un Data Frame
Manipuler le DataFrame
Comprendre les formats de stockage
Construire un jeu de données
Importer un fichier Avro
Joindre des DataFrames
Sauvegarder au format Parquet
Employer la syntaxe select
Utiliser un Dataset
Exécuter un programme avec spark-submit
Choisir une distribution Spark
Conclure sur Apache Spark

Atelier pratique

6. Apache Kafka

Jour 1

Introduction à Apache kafka

Présentation de Kafka
Intérêt d’Apache Kafka
Les API de Kafka
Terminologies de Kafka
Atelier pratique

Architecture d’Apache kafka

Architecture du cluster Kafka
Topic
Broker
Zookeeper
Producers
Consumers
Kafka WORKFLOW

Installation et configuration de Apache Kafka

Installation et configuration d’Apache Kafka
Installation de Java
Installation de Zookeeper
Installation de Kafka
Atelier pratique: Installation

Jour 2

Commande Line Interface (CLI)

Démarrez le serveur Kafka
Lister tous les sujets
Créer un topic
Décrire un topic
Publier des messages sur un topic
Consommer des messages
Modifier les sujets d’Apache Kafka
Atelier pratique: CLI

Développement Kafka avec Java

Introduction à la programmation Kafka
Kafka APIs
Création d’un projet Kafka
Java producer
Rappels des producers Java
Producer Java avec clés
Java consumer
Consumer Java au sein d’un groupe de consumers
Consumer Java avec threads
Le consumer Java recherche et attribue
Compatibilité de client bidirectionnelle
Atelier pratique: Développement Kafka

Kafka Stream

Introduction à Kafka Stream
Concepts de Kafka Stream
Architecture de Kafka Stream
Démo: Application wordcount avec kafka stream
Atelier pratique: KStream

7. Elastic Stack Elk

Jour 1

Introduction à la suite ELK (ELK Stack)

Aperçu sur la suite ELK
Autres outils en relation avec ELK
Rôle de Elastic Stack
Installation de la suite ELK
Installation de la suite ELK sur Windows
Installation de la suite ELK sur Docker

Eléments du Stack ELK

Elasticsearch: Le noyau
Kibana: L’outil utilisateur
Logstash: L’outil d’ingestion
Beats: Transfert de données
X-Pack: Le pack de fonctionnalités

Cas d’utilisation la suite ELK

Gestion des logs
Aperçu sur la gestion des logs
Analyse des métriques
Aperçu sur l’analyse des métriques
Recherche de Sites et d’applications
Analyse de sécurité
Aperçu sur l’analyse de sécurité
Monitoring des performances des applications

Jour 2

Chargement des données

Données de chargement en masse
Chargement d’échantillons de données
Définition des types de données

Interrogation des données

Requêtes simples
Requêtes au niveau du terme
Analyse et tokenisation

Analyse des données

Agrégations de base
Filtrer les agrégations
Percentiles et histogrammes

Présentation de vos Insights

Présentation et configuration de Kibana
Création de visualisations dans Kibana
Création de tableaux de bord dans Kibana

Dépannage du Stack

Quand les choses vont mal
Dépannage des ressources

Atelier cas pratique

Installation et configuration (Serveur ElasticSearch, Mettre en place un cluster , Les rôles des
noeuds)

8. Talend Open Studio

Jour 1

Introduction aux ETLs

Présentation des systèmes décisionnels
Architecture d’un système décisionnel
Conception d’un système décisionnel
Datawarehouse Et Datamart
Modélisation dimensionnelle
Les ETL
Table de fait et table de dimension
Atelier pratique

Mise en place de l’environnement de travail

Installation JDK
Installation de base de données Mysql sous WAMP
Installation de base de données Postgres
Installation de la base de données Oracle
Installation de Talend Open Studio For Data Integration
Atelier pratique

Concepts de base de Talend

Création d’un projet TOS
Présentation de Talend Open Studio
Business Modèle
Création d’un job talend
Composants Talend
Famille de composants
Métadonnées dans Talend
Atelier pratique

Différents types de Liens et Contraintes

Triggers
Lien de capture d’erreur
Lien d’itération
Atelier pratique

Jour 2

Travailler avec des Bases de données Mysql, Postgres et Oracle dans Talend

Base de donnée Mysql

Installation
Commandes
Paramétrage d’une connexion et chargement des données en base de données
Extraction des données

Base de donnée Postgres

Installation
Commande
Paramétrage d’une connexion et chargement des données en base de données
Extraction des données

Base de donnée Oracle

Installation
Commandes
Paramétrage d’une connexion et chargement des données en base de données
Extraction des données

Atelier pratique

Contextes et Variables Globales

Introduction aux contextes
Création et utilisation des contextes
Chargement de contextes depuis un fichier
Atelier pratique

Transformation des données

Agrégation de données
Tri de données
Filtrage de données
Conversion de types de données
Atelier pratique

Mappage de données

Le composant tMap
Jointure entre plusieurs sources de données
Filtres sur les données
Gestion des rejets
Atelier pratique

Organisation des Jobs Talend

Travailler avec des Sous Job ou sous un flux
Transmission des paramètres de contexts aux sous job
Evaluer la performance de l’Exécution d’un flux
Atelier pratique

Service Web avec Talend

Récupération des fichiers de données depuis un serveur distant
Reporting et envoie de mail
Atelier pratique

9. Big Data & IOT

Jour 1

L’Internet des Objets

Introduction à l’IoT
Architecture Iot
Domaines d’applications
Big data et Iot
Solution Cloud pour l’Iot
Tours d’Horizon sur Azure

Atelier pratique

Mise en place d’IoT Hub

Découvrir Azure IoT Hub
Créer un Azure IoT Hub pour le portail Azure
Créer un device IoT pour le portail Azure
Installer l’extension IoT pour Azure CLI
Créer un device IoT pour Azure CLI

Atelier pratique

Communication bidirectionnelle d’IoT Hub

Comprendre la communication bidirectionnelle
Créer un device-to-cloud avec .NET Core
Créer un device-to-cloud avec Node.js
Utiliser device-to-cloud avec Azure CLI
Utiliser cloud-to-device avec .NET Core
Utiliser cloud-to-device avec CLI
Appréhender les notions avancées d’Azure IoT Hub

Atelier pratique

Jour 2

Traitement des données en temps réel avec Stream Analytics

Découvrir Azure Stream Analytics
Créer une tâche Azure Stream Analytics
Configurer la source de données IoT Hub
Préparer les données de test
Utiliser Azure Stream Analytics avec des requêtes simples
Utiliser Azure Stream Analytics avec des requêtes complexes

Atelier pratique

Stockage des données IoT

Aborder le stockage des données IoT
Ajouter un compte de stockage
Créer un point de terminaison
Stocker dans Blob Storage
Stocker dans Cosmos DB

Atelier pratique

section 6: Visualisation des données IoT

Utiliser des services de visualisation
Créer un tableau de bord en temps réel
Configurer un tableau de bord côté Power BI
Visualiser les données avec Azure Times Series

Atelier pratique

10. Gouvernance et Sécurité

Jour 1

Introduction à la Gouvernance des données

Rôle des données au 21e siècle
Définition et principes de base de la gouvernance des données
Gouvernance des données Vs Gestion des données
Avantages de la gouvernance des données
Gouvernance des données dans le cloud
Outils de gouvernance des données
Les étapes de la gouvernance des données

Atelier pratique

Déploiement de la gouvernance des données

À qui appartiennent les données et pourquoi est-ce important?
Rôles dans le domaine de la gouvernance des données
Conception du processus de gouvernance des données

Atelier pratique

Gestion d’un programme de gouvernance des données

Gestion et maintien de la gouvernance des données
Suivi et mesure de votre programme

Atelier pratique

11. Mise en place d’un Data Lake

Jour 1

Introduction aux données d’entreprise

Données d’entreprise
Importance de la qualité de la donnée
Données du Big data
Architectures Big Data

Atelier pratique

Introduction aux Data lake

Présentation du Data lake
Pertinence du Data lake dans une entreprise
Avantage du Data lake
Fonctionnement d’un Data Lake
Différence entre le Data Lake et de Data Warehouse
Défis du du Data lake
Approches pour créer un Data Lake
Conclusion

Atelier pratique

Architecture du Data Lake

Architecture du Data lake
Concepts clés du Data Lake
Étapes de maturité du Data Lake
Meilleures pratiques de l’architecture Data Lake

Atelier pratique

L’architecture Lambda basée sur Data Lake

Introduction
Couche d’ingestion de données
Speed layer – traitement des données en temps quasi réel
Couche de stockage de données – stocker toutes les données
Serving layer – livraison et exportation de données
Acquisition layer – Couche d’acquisition de données
Messaging Layer – Couche de livraison de données
Ingestion layer – Couche d’ingestion de données
Exploration de la couche Lambda
Magasins de données relationnelles

Atelier pratique

Écosystème Hadoop pour la mise en œuvre d’un Data lake

Introduction
Distributions Hadoop
Facteurs de sélection d’un stack Big Data pour les entreprises
Écosystème Hadoop pour un Data lake

Jour 2

Acquisition de données de données par lots avec Apache Sqoop

Introduction
Contexte dans Data Lake – Acquisition de données
Fonctionnement de Sqoop
Importation de données à l’aide de Sqoop
Exportation de données à l’aide de Sqoop
Connecteurs Sqoop

Atelier pratique

Acquisition de données de flux de données à l’aide d’Apache Flume

Introduction
Contexte dans Data Lake: acquisition de données
Initiation à la Stream Data (Flux de données)
Données Batch Vs données stream
Acquisition de données de flux – cartographie technologique
Fonctionnement de Flume
Sqoop Vs Flume

Atelier pratique

Couche de messagerie utilisant Apache Kafka

Introduction
Contexte dans Data Lake – couche de messagerie
Couche de messagerie
Couche de messagerie – cartographie technologique
Cycle de vie du flux de données

Atelier pratique

Traitement des données à l’aide d’Apache Flink

Introduction
Contexte dans un lac de données – couche d’ingestion de données
Couche d’ingestion de données
Data Ingestion Layer – cartographie technologique
Fonctionnement de Flink
Architecture Flink

Atelier pratique

Magasin de données à l’aide d’Apache Hadoop

Introduction
Contexte pour Data Lake – Stockage de données et lambda Batch Layer
Stockage de données et Lambda Batch Layer
Stockage de données et couche Lambda Batch – cartographie technologique
Fonctionnement de Hadoop
Architecture Hadoop

Atelier pratique

Magasin de données indexé à l’aide d’Elasticsearch

Introduction
Contexte dans Data Lake: stockage de données et lambda Speed layer
Data Storage et Lambda Speed Layer
Data Storage et Lambda Speed Layer: cartographie technologique
Définition d’Elasticsearch
Fonctionnement d’Elasticsearch
Principes de l’architecture de base d’Elasticsearch

Atelier pratique

Deux de ces modules au choix :

1. NoSQL: HBase

Jour 1

Introduction

Stockage NoSQL
Caractéristiques des bases NoSQL : CAP
Choix d’une base de données NoSQL
Bases de données orientées documents
Historique et Présentation de MongoDB
Cas d’utilisation de MongoDB
Structure des données : notions de documents, de collections de valeurs
Le format JSON
Stockage de JSON
JavaScript pour manipuler du JSON

Atelier pratique

Installation et configuration de MongoDB

Plateformes supportées
Installation de MongoDB sur Windows
Choix de la version
Téléchargement de MongoDB pour Windows
Exécution
Configuration
Lancement de Mongo DB
Connection à MongoDB
Installation de MongoDB sur Linux
Choix de la version
Téléchargement de MongoDB pour Windows
Exécution
Configuration
Lancement de Mongo DB
Connection à MongoDB

Atelier pratique

Jour 2

Prise en main de MongoDb

Utilisation de l’invite interactive
Commandes de manipulation de base de données
Utilisation d’un client graphique
Importation d’une collection
Manipulation du format BSON
Comprendre le type ObjectId

Atelier pratique

Administration de MongoDB

Sauvegarde des données
Configuration de la journalisation
Mise en place d’une réplication
Configuration de la réplication
Teste de la réplication
Mise en place du sharding
Configuration d’une collection pour le sharding

Atelier pratique

Manipulation des documents dans MongoDB

Insérer un document
Modifier et supprimer un document
Utiliser une transaction
Chercher des documents avec FIND()
Comparer FIND() et SELECT en SQL
Utiliser les opérateurs du FIND()
Indexer pour améliorer les performances

Atelier pratique

MongoDB avancé

Comprendre le framework d’agrégation
Découvrir les étapes de l’agrégation
Découvrir les opérateurs des Pipeline d’agrégation

Atelier pratique

2. NoSQL: MongoDB

Jour 1

Introduction

Stockage NoSQL
Caractéristiques des bases NoSQL : CAP
Choix d’une base de données NoSQL
Bases de données orientées documents
Historique et Présentation de MongoDB
Cas d’utilisation de MongoDB
Structure des données : notions de documents, de collections de valeurs
Le format JSON
Stockage de JSON
JavaScript pour manipuler du JSON

Atelier pratique

Installation et configuration de MongoDB

Plateformes supportées
Installation de MongoDB sur Windows
Choix de la version
Téléchargement de MongoDB pour Windows
Exécution
Configuration
Lancement de Mongo DB
Connection à MongoDB
Installation de MongoDB sur Linux
Choix de la version
Téléchargement de MongoDB pour Windows
Exécution
Configuration
Lancement de Mongo DB
Connection à MongoDB

Atelier pratique

Jour 2

Prise en main de MongoDb

Utilisation de l’invite interactive
Commandes de manipulation de base de données
Utilisation d’un client graphique
Importation d’une collection
Manipulation du format BSON
Comprendre le type ObjectId

Atelier pratique

Administration de MongoDB

Sauvegarde des données
Configuration de la journalisation
Mise en place d’une réplication
Configuration de la réplication
Teste de la réplication
Mise en place du sharding
Configuration d’une collection pour le sharding

Atelier pratique

Manipulation des documents dans MongoDB

Insérer un document
Modifier et supprimer un document
Utiliser une transaction
Chercher des documents avec FIND()
Comparer FIND() et SELECT en SQL
Utiliser les opérateurs du FIND()
Indexer pour améliorer les performances

Atelier pratique

MongoDB avancé

Comprendre le framework d’agrégation
Découvrir les étapes de l’agrégation
Découvrir les opérateurs des Pipeline d’agrégation

Atelier pratique

3. NoSQL : Cassandra

Jour 1

Introduction à Cassandra

Base de données NoSQL
Définition de Cassandra
Caractéristiques de Cassandra
Modèle de données Cassandra
Cassandra vs RDBMS
Cassandra vs Hadoop
Cassandra vs HBase
Cassandra vs MongoDB
Cassandra Cqlsh
Commandes Shell
Atelier pratique

Architecture de Cassandra

Composants de l’architecture de Cassandra
Composants de l’architecture de Cassandra
Cassandra Keyspace (Création, modification et suppression d’un Keyspace)
Réplication de données dans Cassandra
Atelier pratique

Installation et configuration de Cassandra

Installation et configuration de Cassandra sur Windows
Installation et configuration de cassandra sur Linux
Installation et configuration de cassandra avec Docker
Atelier pratique

Le langage CQL (Cassandra Query Language)

Modèle de données de Cassandra
API de Cassandra
Types de données CQL
Atelier pratique

Jour 2

Manipulation de tables avec Cassandra

Création de tables
Modification de tables
Suppression ds tables
Tronquer une table
Création d’un index
Suppression de l’Index
Lot (Batch)
Atelier pratique

Manipulation des données avec CQL

Création de données
Mise à jour des données
Lecture des données
Suppression de données
Définition des types de données complexes
Insertion des données dans des types complexes
Modification les types de données complexes
Atelier pratique

Les Clusters avec Cassandra

Les clusters
Démarrage d’un cluster avec Docker Compose
Surveillance de l’ajout des nœuds
Obtention d’informations avec nodetool
Maîtrise de la syntaxe de création de table
Définition d’une clé de partition et de clustering
Modélisation des données
Atelier pratique

Optionnels

Jour 2

Section 4. Web scraping – Niveau intermédiaire

Automatiser la navigation web
Interaction du base du navigateur
Gestion du glisser -déposer
Fonction d’attente du selenium
Fonction d’attente explicite de selenium
Web scraping avec Selenium
Exploration d’un document HTML avec Selenium
Comment isoler les données avec Selenium
Interagir avec la page web
Fonction d’attente du Selenium
Aller plus loin avec le web scraping
Pratique du web scraping avec Selenium
Mini-projet Web Scraping avec Selenium

Section 5. Automatisation de l’accès aux données Web avec l’API

Comprendre les requêtes API
Créer des requêtes d’API
Analyse via JSON
Utilisation des clés API
Lier les appels d’API
Prochaines étapes
Comprendre les requêtes API
Créer des requêtes d’API
Analyser le JSON
Utiliser des clés d’API
Lier les appels d’API
Application – Mini-Projet

Parcours de formation

Parcours 11 étapes - Data Engineering@2x

1. Web Scraping avec Python

Jour 1

Section 1. Web scraping avec Python

Automatiser tout avec Python
Course prerequisites
Découvrir le web scraping
Les opportunités pour l’entreprise.
Quel outil faut-il utiliser ?
Web scraping avec Python
Préparation de l’environnement de travail

Section 2. Automatiser la gestion des fichiers et des dossiers

Comment lire les fichiers
Comment écrire des fichiers
Exécuter les commandes du terminal
Organiser les répertoires
Le répertoire de travail actuel
Chemins absolus et chemins relatifs
Créer de nouveaux dossiers
Le processus de lecture/écriture de fichiers
Copier, déplacer, renommer et supprimer des fichiers et des dossiers
Organiser les Dossiers

Section 3 : Web scraping – niveau de base

La valeur du web scrapping
Création et analyse d’une requête
Explorer la structure HTML
Comment isoler les données
Préparation au grattage paginé
Gratter le contenu paginé
Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping
Mini-projet Web Scraping avec BeautifulSoup

Jour 2

Section 1. Web scraping avec Python

Automatiser tout avec Python
Course prerequisites
Découvrir le web scraping
Les opportunités pour l’entreprise.
Quel outil faut-il utiliser ?
Web scraping avec Python
Préparation de l’environnement de travail

Section 2. Automatiser la gestion des fichiers et des dossiers

Comment lire les fichiers
Comment écrire des fichiers
Exécuter les commandes du terminal
Organiser les répertoires
Le répertoire de travail actuel
Chemins absolus et chemins relatifs
Créer de nouveaux dossiers
Le processus de lecture/écriture de fichiers
Copier, déplacer, renommer et supprimer des fichiers et des dossiers
Organiser les Dossiers

Section 3 : Web scraping – niveau de base

La valeur du web scrapping
Création et analyse d’une requête
Explorer la structure HTML
Comment isoler les données
Préparation au grattage paginé
Gratter le contenu paginé
Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping
Mini-projet Web Scraping avec BeautifulSoup

Jour 1

Section 1. Web scraping avec Python

Automatiser tout avec Python
Course prerequisites
Découvrir le web scraping
Les opportunités pour l’entreprise.
Quel outil faut-il utiliser ?
Web scraping avec Python
Préparation de l’environnement de travail

Section 2. Automatiser la gestion des fichiers et des dossiers

Comment lire les fichiers
Comment écrire des fichiers
Exécuter les commandes du terminal
Organiser les répertoires
Le répertoire de travail actuel
Chemins absolus et chemins relatifs
Créer de nouveaux dossiers
Le processus de lecture/écriture de fichiers
Copier, déplacer, renommer et supprimer des fichiers et des dossiers
Organiser les Dossiers

Section 3 : Web scraping – niveau de base

La valeur du web scrapping
Création et analyse d’une requête
Explorer la structure HTML
Comment isoler les données
Préparation au grattage paginé
Gratter le contenu paginé
Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping
Mini-projet Web Scraping avec BeautifulSoup

Jour 1

Section 1. Web scraping avec Python

Automatiser tout avec Python
Course prerequisites
Découvrir le web scraping
Les opportunités pour l’entreprise.
Quel outil faut-il utiliser ?
Web scraping avec Python
Préparation de l’environnement de travail

Section 2. Automatiser la gestion des fichiers et des dossiers

Comment lire les fichiers
Comment écrire des fichiers
Exécuter les commandes du terminal
Organiser les répertoires
Le répertoire de travail actuel
Chemins absolus et chemins relatifs
Créer de nouveaux dossiers
Le processus de lecture/écriture de fichiers
Copier, déplacer, renommer et supprimer des fichiers et des dossiers
Organiser les Dossiers

Section 3 : Web scraping – niveau de base

La valeur du web scrapping
Création et analyse d’une requête
Explorer la structure HTML
Comment isoler les données
Préparation au grattage paginé
Gratter le contenu paginé
Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping
Mini-projet Web Scraping avec BeautifulSoup

Jour 1

Section 1. Web scraping avec Python

Automatiser tout avec Python
Course prerequisites
Découvrir le web scraping
Les opportunités pour l’entreprise.
Quel outil faut-il utiliser ?
Web scraping avec Python
Préparation de l’environnement de travail

Section 2. Automatiser la gestion des fichiers et des dossiers

Comment lire les fichiers
Comment écrire des fichiers
Exécuter les commandes du terminal
Organiser les répertoires
Le répertoire de travail actuel
Chemins absolus et chemins relatifs
Créer de nouveaux dossiers
Le processus de lecture/écriture de fichiers
Copier, déplacer, renommer et supprimer des fichiers et des dossiers
Organiser les Dossiers

Section 3 : Web scraping – niveau de base

La valeur du web scrapping
Création et analyse d’une requête
Explorer la structure HTML
Comment isoler les données
Préparation au grattage paginé
Gratter le contenu paginé
Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping
Mini-projet Web Scraping avec BeautifulSoup

Jour 1

Section 1. Web scraping avec Python

Automatiser tout avec Python
Course prerequisites
Découvrir le web scraping
Les opportunités pour l’entreprise.
Quel outil faut-il utiliser ?
Web scraping avec Python
Préparation de l’environnement de travail

Section 2. Automatiser la gestion des fichiers et des dossiers

Comment lire les fichiers
Comment écrire des fichiers
Exécuter les commandes du terminal
Organiser les répertoires
Le répertoire de travail actuel
Chemins absolus et chemins relatifs
Créer de nouveaux dossiers
Le processus de lecture/écriture de fichiers
Copier, déplacer, renommer et supprimer des fichiers et des dossiers
Organiser les Dossiers

Section 3 : Web scraping – niveau de base

La valeur du web scrapping
Création et analyse d’une requête
Explorer la structure HTML
Comment isoler les données
Préparation au grattage paginé
Gratter le contenu paginé
Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping
Mini-projet Web Scraping avec BeautifulSoup

Jour 1

Section 1. Web scraping avec Python

Automatiser tout avec Python
Course prerequisites
Découvrir le web scraping
Les opportunités pour l’entreprise.
Quel outil faut-il utiliser ?
Web scraping avec Python
Préparation de l’environnement de travail

Section 2. Automatiser la gestion des fichiers et des dossiers

Comment lire les fichiers
Comment écrire des fichiers
Exécuter les commandes du terminal
Organiser les répertoires
Le répertoire de travail actuel
Chemins absolus et chemins relatifs
Créer de nouveaux dossiers
Le processus de lecture/écriture de fichiers
Copier, déplacer, renommer et supprimer des fichiers et des dossiers
Organiser les Dossiers

Section 3 : Web scraping – niveau de base

La valeur du web scrapping
Création et analyse d’une requête
Explorer la structure HTML
Comment isoler les données
Préparation au grattage paginé
Gratter le contenu paginé
Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping
Mini-projet Web Scraping avec BeautifulSoup

Jour 1

Section 1. Web scraping avec Python

Automatiser tout avec Python
Course prerequisites
Découvrir le web scraping
Les opportunités pour l’entreprise.
Quel outil faut-il utiliser ?
Web scraping avec Python
Préparation de l’environnement de travail

Section 2. Automatiser la gestion des fichiers et des dossiers

Comment lire les fichiers
Comment écrire des fichiers
Exécuter les commandes du terminal
Organiser les répertoires
Le répertoire de travail actuel
Chemins absolus et chemins relatifs
Créer de nouveaux dossiers
Le processus de lecture/écriture de fichiers
Copier, déplacer, renommer et supprimer des fichiers et des dossiers
Organiser les Dossiers

Section 3 : Web scraping – niveau de base

La valeur du web scrapping
Création et analyse d’une requête
Explorer la structure HTML
Comment isoler les données
Préparation au grattage paginé
Gratter le contenu paginé
Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping
Mini-projet Web Scraping avec BeautifulSoup

Jour 1

Section 1. Web scraping avec Python

Automatiser tout avec Python
Course prerequisites
Découvrir le web scraping
Les opportunités pour l’entreprise.
Quel outil faut-il utiliser ?
Web scraping avec Python
Préparation de l’environnement de travail

Section 2. Automatiser la gestion des fichiers et des dossiers

Comment lire les fichiers
Comment écrire des fichiers
Exécuter les commandes du terminal
Organiser les répertoires
Le répertoire de travail actuel
Chemins absolus et chemins relatifs
Créer de nouveaux dossiers
Le processus de lecture/écriture de fichiers
Copier, déplacer, renommer et supprimer des fichiers et des dossiers
Organiser les Dossiers

Section 3 : Web scraping – niveau de base

La valeur du web scrapping
Création et analyse d’une requête
Explorer la structure HTML
Comment isoler les données
Préparation au grattage paginé
Gratter le contenu paginé
Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping
Mini-projet Web Scraping avec BeautifulSoup

Jour 1

Section 1. Web scraping avec Python

Automatiser tout avec Python
Course prerequisites
Découvrir le web scraping
Les opportunités pour l’entreprise.
Quel outil faut-il utiliser ?
Web scraping avec Python
Préparation de l’environnement de travail

Section 2. Automatiser la gestion des fichiers et des dossiers

Comment lire les fichiers
Comment écrire des fichiers
Exécuter les commandes du terminal
Organiser les répertoires
Le répertoire de travail actuel
Chemins absolus et chemins relatifs
Créer de nouveaux dossiers
Le processus de lecture/écriture de fichiers
Copier, déplacer, renommer et supprimer des fichiers et des dossiers
Organiser les Dossiers

Section 3 : Web scraping – niveau de base

La valeur du web scrapping
Création et analyse d’une requête
Explorer la structure HTML
Comment isoler les données
Préparation au grattage paginé
Gratter le contenu paginé
Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping
Mini-projet Web Scraping avec BeautifulSoup

Jour 1

Section 1. Web scraping avec Python

Automatiser tout avec Python
Course prerequisites
Découvrir le web scraping
Les opportunités pour l’entreprise.
Quel outil faut-il utiliser ?
Web scraping avec Python
Préparation de l’environnement de travail

Section 2. Automatiser la gestion des fichiers et des dossiers

Comment lire les fichiers
Comment écrire des fichiers
Exécuter les commandes du terminal
Organiser les répertoires
Le répertoire de travail actuel
Chemins absolus et chemins relatifs
Créer de nouveaux dossiers
Le processus de lecture/écriture de fichiers
Copier, déplacer, renommer et supprimer des fichiers et des dossiers
Organiser les Dossiers

Section 3 : Web scraping – niveau de base

La valeur du web scrapping
Création et analyse d’une requête
Explorer la structure HTML
Comment isoler les données
Préparation au grattage paginé
Gratter le contenu paginé
Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping
Mini-projet Web Scraping avec BeautifulSoup

Jour 1

Section 1. Web scraping avec Python

Automatiser tout avec Python
Course prerequisites
Découvrir le web scraping
Les opportunités pour l’entreprise.
Quel outil faut-il utiliser ?
Web scraping avec Python
Préparation de l’environnement de travail

Section 2. Automatiser la gestion des fichiers et des dossiers

Comment lire les fichiers
Comment écrire des fichiers
Exécuter les commandes du terminal
Organiser les répertoires
Le répertoire de travail actuel
Chemins absolus et chemins relatifs
Créer de nouveaux dossiers
Le processus de lecture/écriture de fichiers
Copier, déplacer, renommer et supprimer des fichiers et des dossiers
Organiser les Dossiers

Section 3 : Web scraping – niveau de base

La valeur du web scrapping
Création et analyse d’une requête
Explorer la structure HTML
Comment isoler les données
Préparation au grattage paginé
Gratter le contenu paginé
Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping
Mini-projet Web Scraping avec BeautifulSoup

Jour 1

Section 1. Web scraping avec Python

Automatiser tout avec Python
Course prerequisites
Découvrir le web scraping
Les opportunités pour l’entreprise.
Quel outil faut-il utiliser ?
Web scraping avec Python
Préparation de l’environnement de travail

Section 2. Automatiser la gestion des fichiers et des dossiers

Comment lire les fichiers
Comment écrire des fichiers
Exécuter les commandes du terminal
Organiser les répertoires
Le répertoire de travail actuel
Chemins absolus et chemins relatifs
Créer de nouveaux dossiers
Le processus de lecture/écriture de fichiers
Copier, déplacer, renommer et supprimer des fichiers et des dossiers
Organiser les Dossiers

Section 3 : Web scraping – niveau de base

La valeur du web scrapping
Création et analyse d’une requête
Explorer la structure HTML
Comment isoler les données
Préparation au grattage paginé
Gratter le contenu paginé
Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping
Mini-projet Web Scraping avec BeautifulSoup

Jour 1

Section 1. Web scraping avec Python

Automatiser tout avec Python
Course prerequisites
Découvrir le web scraping
Les opportunités pour l’entreprise.
Quel outil faut-il utiliser ?
Web scraping avec Python
Préparation de l’environnement de travail

Section 2. Automatiser la gestion des fichiers et des dossiers

Comment lire les fichiers
Comment écrire des fichiers
Exécuter les commandes du terminal
Organiser les répertoires
Le répertoire de travail actuel
Chemins absolus et chemins relatifs
Créer de nouveaux dossiers
Le processus de lecture/écriture de fichiers
Copier, déplacer, renommer et supprimer des fichiers et des dossiers
Organiser les Dossiers

Section 3 : Web scraping – niveau de base

La valeur du web scrapping
Création et analyse d’une requête
Explorer la structure HTML
Comment isoler les données
Préparation au grattage paginé
Gratter le contenu paginé
Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping
Mini-projet Web Scraping avec BeautifulSoup

Programme détaillé Big Data Engineering

Contenu de la formation

1. Enjeux et perspectives

Jour 1

2. Architecture Big Data

Jour 1

3. NoSQL

Jour 1

4. Apache Hadoop

Jour 1

Jour 2

Jour 3

Jour 4

5. Apache Spark

Jour 1

Jour 2

Jour 3

6. Apache Kafka

Jour 1

Jour 2

7. Elastic Stack Elk

Jour 1

Jour 2

8. Talend Open Studio

Jour 1

Jour 2

9. Big Data & IOT

Jour 1

Jour 2

10. Gouvernance et Sécurité

Jour 1

11. Mise en place d’un Data Lake

Jour 1

Jour 2

Deux de ces modules au choix :

1. NoSQL: HBase

Jour 1

Jour 2

2. NoSQL: MongoDB

Jour 1

Jour 2

3. NoSQL : Cassandra

Jour 1

Jour 2

Optionnels

Jour 2

Parcours de formation

1. Web Scraping avec Python

Jour 1

Jour 2

Jour 1

Jour 1

Jour 1

Jour 1

Jour 1

Jour 1

Jour 1

Jour 1

Jour 1

Jour 1

Jour 1

Jour 1

2. Web Scraping avec Python

Vous souhaitez vous inscrire ? en savoir plus ? poser une question ?