Formation Administration de Base de Données SQL Serveur

par adrien@formatome.fr | Août 24, 2023

Devenez Administrateur SQL Server



38 jours



100% finançable



Formation RNCP

Candidater en ligne

Synthèse

Déroulé

Informations pratiques

Suivre une formation

Accueil > Big Data

Jours de formation

Solutions de financement

Une formation pour qui ?

Le parcours certifiant Administration Base de Données SQL Server s’adresse aux :
Salarié d’entreprise, demandeur d’emploi et toute personne en reconversion.
Toute personne souhaitant évoluer vers l’administration de bases de données et les technologies SQL Server.
Développeur informatique JAVA, .NET, PHP ou Mobile.
Ingénieur d’étude ou Architecte système et logiciel ou Consultant Business Intelligence

L’Administrateur de Base de Données SQL Server a pour principale fonction d’organiser et de gérer en toute fiabilité les systèmes de Gestion des données de l’entreprise. Il doit en assurer la cohérence, la qualité et la sécurité.
Il doit être en mesure d’Installer, de configurer et d’administrer les bases de données. Gérer l’espace de stockage physique et logique des bases et veiller à l’intégrité des données stockées.

L’Administrateur/Développeur Base de Données SQL Server maîtrise l’aspect technique et fonctionnel pour la mise
en place d’une solution BI « Business Intelligence », à savoir : SSIS pour l’intégration de données, SSAS pour l’analyse de données et SSRS pour le reporting.

Pré-requis

Pas de prérequis nécessaire pour cette formation. Toutefois, avoir des connaissances en base de données relationnelles et en UML est un plus.

Demandez la documentation complète

A l’issue du cursus certifiant « Administration Base de Données SQL Server », les certifiés seront en mesure de :

Définir et analyser les besoins des utilisateurs, rédiger un cahier des charges technique et fonctionnel.
Modéliser les données et établir le schéma physique.
Créer la Base de Données.
Effectuer des tests sur des données exemples.
Développer des composants sous forme de procédures stockées afin d’implémenter le traitement dans la Base de Données.
Garantir la disponibilité et l’accessibilité des informations.
Construire des algorithmes pour le traitement de données
Mettre en place des solutions BI « BusinessIntelligence »
Maîtriser les services SQL Server pour l’intégration, l’analyse et le reporting : SSIS, SSAS, SSRS Sécuriser une Base de Données SQL Server.
Définir les droits d’accès pour sécuriser l’information
Mettre en place des procédures de sauvegarde et de restauration

Programme détaillé

Introduction BDD SQL

3 jours

Voir le programme

Introduction aux bases de données

Introduction aux bases de données relationnelles
Autres types de base de données
L’analyse des données
Langues de la base de données.

Modélisation de données

Modélisation des données
Modèle de base de données ANSI / SPARC
Modélisation de la relation d’entité.

Normalisation

Pourquoi normaliser les données?
Niveaux de normalisation
Denormalisation.

Des Relations

Cartographie de schéma
Intégrité référentielle.

Performance

Indexage
Performance de la requête
Concurrence.

Vues

Procédures stockées
Autres objets de base de données.

Atelier et cas pratique

Transact SQL pour SQL Server

4 jours

Voir le programme

Introduction à Microsoft SQL Server

L’architecture de base de SQL Server
Éditions et versions SQL Server
Mise en route de SQL Server Management Studio.

Introduction à la requête T-SQL

Présentation de T-SQL
Ensembles compréhensifs
Comprendre la logique des prédictions
Comprendre l’ordre logique des opérations dans les instructions SELECT.

Ecriture des requêtes SELECT

Rédaction d’instructions SELECT simples
Élimination des doublons avec DISTINCT
Utilisation de colonnes et d’alias de table
Rédaction d’expressions simples CASE.

Atelier et Cas pratique

Tri et filtrage des données

Tri des données
Filtrage des données avec les prédicats
Filtrage des données avec TOP et OFFSET-FETCH
Travailler avec des valeurs inconnues.

Utilisation des types de données SQL Server 2016

Présentation des types de données SQL Server 2016
Utilisation des données personnelles
Travailler avec les données de date et d’heure.

Utilisation de DML pour modifier les données

Insertion de données
Modification et suppression de données.

Atelier et cas pratiques

Utilisation des fonctions intégrées

Ecriture de requêtes avec fonctions intégrées
Utilisation des fonctions de conversion
Utilisation des fonctions logiques
Utiliser des fonctions pour travailler avec NULL.

Groupement et agrégation de données

Utilisation des fonctions agrégées
Utilisation de la clause GROUP BY
Filtrage des groupes avec HAVING.

Utilisation de sous-requêtes

Écriture de sous-requêtes auto-contenues
Composer des sous-requêtes corrélées
Utilisation du prédicat EXISTS avec sous-requêtes.

Atelier et cas pratique

Utilisation des expressions de table

Utilisation des vues
Utilisation de fonctions de table intégrées
À l’aide de tables dérivées
Utilisation des expressions de table commune.

Utilisation des opérateurs Set

Ecriture de requêtes auprès de l’opérateur UNION
Utilisation EXCEPT et INTERSECT
Utilisation de l’APPLICATION.

Atelier et cas pratique

Administration BDD SQL

5 jours

Voir le programme

Introduction

Sécurité du serveur SQL
Authentification des connexions à SQL Server
Autoriser les connexions à se connecter à des bases de données
Autorisation dans les serveurs
Bases de données partiellement contenues.

Histoire de SQL Server

Evolution des fonctionnalités de SQL Server

Attribution de serveurs et de fonctions de base de données

Travailler avec les rôles du serveur
Travailler avec des rôles de base de données fixes
Attribution de rôles de base de données définis par l’utilisateur.

Dessins de table avancés

Partitionnement des données
Compressing Data
Tables temporelles.

Autoriser les utilisateurs à accéder aux ressources

Autoriser l’accès des utilisateurs aux objets
Autoriser les utilisateurs à exécuter le code
Configuration des autorisations au niveau du schéma.

Atelier et cas pratique

Protection des données avec cryptage et audit

Options pour auditer l’accès aux données dans SQL Server
Mise en œuvre de l’audit SQL Server
Gestion de l’audit SQL Server
Protection des données avec cryptage.

Modèles de récupération et stratégies de sauvegarde

Comprendre les stratégies de sauvegarde
Journal des transactions SQL Server
Stratégies de sauvegarde de planification.

Sauvegarde des bases de données SQL Server

Sauvegarde des bases de données et des journaux de transactions
Gestion des sauvegardes de base de données
Options de base de données avancées.

Restauration des bases de données SQL Server

Comprendre le processus de restauration
Restauration de bases de données
Scénarios de restauration avancée
Récupération ponctuelle.

Automatisation de la gestion SQL Server

Automatisation de la gestion SQL Server
Utilisation d’un agent SQL Server
Gestion des tâches de l’agent SQL Server
Gestion multi-serveurs.

Atelier et cas pratiques

Configuration de l’agent Security pour SQL Server

Comprendre la sécurité de l’agent SQL Server
Configuration des informations d’identification
Configuration des comptes proxy.

Surveillance de SQL Server avec des alertes et des notifications

Configuration du courrier de la base de données
Surveillance des erreurs SQL Server
Configuration des opérateurs, alertes et notifications
Alertes dans la base de données Azure SQL.
Introduction à la gestion de SQL Server en utilisant PowerShell
- Configurer SQL Server à l’aide de PowerShell
- Administrer SQL Server à l’aide de PowerShell
- Maintenir l’environnement SQL Server à l’aide de PowerShell
- Gestion des bases de données Azure SQL Server via PowerShell.
Tracer l’accès à SQL Server avec des événements étendus
- Concepts fondamentaux des événements étendus
- Travailler avec des événements étendus.
Atelier et Cas pratique

Surveillance de SQL Server
- Activité de surveillance
- Capture et gestion des données de performance
- Analyse des données de performance collectées
- Utilitaire SQL Server.
Dépannage de SQL Server
- Méthode de dépannage SQL Server
- Résolution des problèmes liés au service
- Résolution des problèmes de connexion et de connectivité
- Dépannage des problèmes communs.
Importation et exportation de données
- Transfert de données vers / depuis SQL Server
- Importation et exportation de données de table
- Utilisation de BCP et BULK INSERT pour importer des données
- Déploiement et mise à niveau des applications de niveau de données.
Atelier et Cas pratique

Développement BDD SQL Server

2 jours

Voir le programme

Introduction au développement de bases de données

Introduction à la plate-forme SQL Server
Tâches de développement de base de données SQL Server.

Conception et mise en œuvre de tableaux

Tableaux de conception
Types de données
Travailler avec des schémas
Création et modification de tableaux.

Dessins de table avancés

Partitionnement des données
Compressing Data
Tables temporelles.

Assurer l’intégrité des données grâce à des contraintes

Application de l’intégrité des données
Implémentation de l’intégrité du domaine
Entité de mise en œuvre et intégrité référentielle.

Atelier et cas pratique

Gérer les index

Plans d’exécution
Utilisation de l’ETTD.

Indexation Columnstore

Introduction aux index Columnstore
Création d’index de classe Columnstore
Les index de colonnes de travail.

Conception et réalisation de vues

Introduction aux vues
Création et gestion de vues
Considérations relatives à la performance pour les vues.

Conception et mise en œuvre de procédures stockées

Introduction aux procédures stockées
Travailler avec des procédures stockées
Mise en œuvre des procédures stockées paramétrées
Contrôle du contexte d’exécution.

Atelier et cas pratiques

Tuning et Optimisation SQL Server

4 jours

Voir le programme

Architecture SQL Server, planification et attente

Composants du serveur SQL et système d’exploitation SQL
Windows Scheduling vs SQL Scheduling
Attentes et files d’attente.

E/S SQL Server

Concepts de base
Solutions de stockage
Configuration et test d’E / S.

Structures de base de données

Structure interne de la base de données
Fichier de données internes
TempDB Internals.

Atelier et cas pratique

Mémoire serveur SQL

Mémoire Windows
Mémoire serveur SQL
OLTP en mémoire.

Concurrence et transactions

Concurrence et transactions
Verrouillage interne.

Statistiques et index internes

Statistiques internes et estimation de cardinalité
Index interne
Indices des magasins de colonnes.

Atelier et cas pratique

Analyse des requêtes et de la planification des requêtes

Exécution de la requête et optimisation interne
Analyser les plans de requêtes.

Mise en cache et recompilation des plans

Plan du cache interne
Dépannage des problèmes de cache de plan
Query Store.

Evénements prolongés

Concepts fondamentaux des événements étendus
Mise en œuvre d’événements étendus.

Atelier et cas pratique

Surveillance, suivi et regroupement

Surveillance et suivi
Bâle et benchmarking.

Dépannage des problèmes de performance courants

Résoudre les performances du processeur
Dépannage des performances de la mémoire
Dépanner les performances d’E / S
Dépannage des performances simultanées
Dépannage des performances TempDB.

Atelier et Cas pratique

Introduction à l’Intégration Services (SSIS)

3 jours

Voir le programme

Une visite guidée des services d’intégration

Comprendre les services d’intégration
Explorer et exécuter un paquet de services d’intégration dans BIDS
Explorer et exécuter un forfait en dehors de BIDS.

Flux de contrôle

Vue d’ensemble de Control Flow dans Integration Services
Travailler avec les tâches Workflow
Contraintes de priorité.

Flux de données

La tâche de flux de données
Visualiseurs de données
Transformations de flux de données.

Variables et configurations

Comprendre les variables
Utilisation de variables dans le flux de contrôle
Utilisation de variables dans le flux de données
Configurations
Utilisation de variables et de configurations entre les packages.

Flux de contrôle avancé

Vue d’ensemble du flux de contrôle avancé
Utilisation des conteneurs
Support aux transactions dans les services d’intégration.

Gestion des erreurs et enregistrement

Quand les choses vont mal
Points de contrôle
Manipulation des erreurs et débogage
Enregistrement des emballages
Gestion des événements.

Flux de données avancé

Transformations synchrones et asynchrones
Utilisation des transformations avancées
Manipulation lente des dimensions changeantes.

Déploiement du package

Déploiement de packages
Créer un utilitaire de déploiement de package
Installation d’un paquet
Redéploiement des packages mis à jour.

Gestion des paquets

Aperçu de la gestion des paquets
Gestion des packages Integration Services
Exécution des paquets
Sécurité des services d’intégration.

Scripts et composants personnalisés

Extension des fonctionnalités des services d’intégration par code
Les scripts dans les flux de contrôle avec la tâche de script
Scripting dans les flux de données avec le composant Script
Composants des services personnalisés d’intégration.

Les meilleures pratiques

Meilleures pratiques pour l’utilisation des services d’intégration
Meilleures pratiques pour le développement et le développement de paquets
Meilleures pratiques de flux de données
Meilleures pratiques de déploiement et de gestion.

Aller au-delà de l’ETL

Utilisation des services d’intégration au-delà de l’ETL
Migration et maintenance de serveurs SQL avec services d’intégration
Travailler avec Analysis Services
Utilisation de Windows Management Instrumentation.

Atelier et Cas pratique

Introduction à SQL Server Analysis Services (SSAS)

3 jours

Voir le programme

Qu’est-ce que Microsoft Business Intelligence?

Définir le Business Intelligence
Comprendre la structure du cube
Déployer et afficher un cube d’échantillons
Afficher un cube en utilisant Excel
Afficher un cube en utilisant SQL Reporting Services.

Modélisation OLAP

Comprendre la modélisation OLAP de base (schéma en étoile)
Comprendre la modélisation dimensionnelle (étoiles et flocons de neige)
Comprendre la mesure (fait) et la modélisation de cube
Modèle avec SQL Server Business Intelligence Development Studio (BIDS).

Utilisation de SSAS dans BIDS

Comprendre l’environnement de développement
Créer des sources de données
Créer des vues de source de données
Créer des cubes en utilisant l’Assistant Cube.

SSAS intermédiaire

Découvrez comment créer des indicateurs clés de performance (KPI)
Découvrez comment créer des perspectives
Découvrez comment créer des traductions pour cubes et dimensions
Examinez les trois types d’objets d’action SSAS: régulier, analyse et rapports.

SSAS avancé

Travailler avec des tableaux de faits multiples et la sous-liste d’utilisation de la dimension dans BIDS
Explorez les types de dimensions avancées
Découvrez comment utiliser le Business Intelligence Wizard
Comprendre l’écriture dans les dimensions
Examiner les mesures semi-additifs dans les cubes OLAP.

Stockage et agrégation de cubes

Afficher les dessins d’agrégations
Personnaliser les conceptions d’agrégation
Implémenter la mise en cache proactive
Utiliser les divisions relationnelles et SSAS
Personnaliser le traitement des cubes et des cotes.

Introduction aux requêtes MDX

Comprendre la syntaxe MDX de base
Utilisez l’éditeur de requête MDX dans SSMS
Comprendre les fonctions et tâches MDX communes
Revoir les fonctions de MDX nouvelles à SSAS 2008.

Expressions MDX

Comprendre le sous-formulaire de calcul
Découvrez comment ajouter des membres calculés
Découvrez comment ajouter des commandes de script MDX
Découvrez comment ajouter des assemblages .NET.

Introduction à l’exploration de données

Comprendre les concepts d’exploration de données
Examinez les Algorithmes auxquels SSAS comprend
Envisager les clients d’exploration de données
Comprendre le traitement de la structure minière.

Administration SSAS

Mettre en œuvre SSAS Security
Implémentez les scripts XMLA dans SSMS
Déploiement et synchronisation des bases de données
Comprendre la sauvegarde et la restauration de la base de données SSAS.

Administration et optimisation avancées

Mettre en œuvre SSIS pour gérer les bases de données SSAS
Explorez le regroupement
Explorez les options de scalabilité
Comprendre l’optimisation et la performance des performances.

Introduction aux clients SSAS

Rapports de conception à l’aide de Reporting Services
Concevoir des rapports à l’aide de Report Builder
Implémenter les tableaux et graphiques pivotants Excel 2007
Utilisez Excel 2007 comme client de l’exploration de données
Examiner Microsoft Office SharePoint Server 2007.

Atelier et Cas pratique

Service de Rapport SQL Server (SSRS)

3 jours

Voir le programme

Introduction

SSRS Vue d’ensemble et outils
Caractéristiques des services de rapports
Outils disponibles avec SQL Server 2008 R2
Documentation SQL Servers.

Travailler avec des solutions et des projets

Utilisation des outils de données SQL Server
Comprendre les solutions et les projets
Utilisation de l’interface Visual Studio.

Création de rapports de base

Qu’est-ce qu’une source de données?
Qu’est-ce qu’un ensemble de données?
Utilisation de l’Assistant Rapport
Qu’est ce que Tablix?
Création d’un rapport tabulaire
Création d’un rapport de liste
Qu’est-ce qu’une matrice?
Déploiement d’un projet.

Atelier et cas pratique

Formatage des rapports

Travailler avec des boîtes de texte
Formatage de texte enrichi
Gestion des boîtes de texte
Dessiner des lignes et des boîtes
Images
En-têtes et pieds de page
Ajout d’une carte de document
Rapports de rendu.

Expressions personnalisées

Comprendre les expressions
Définition des expressions
Travailler avec des variables de rapport
Comprendre les fonctions Lookup, LookupSet et Multilookup
Échantillons d’expression.

Résumer et trier

Créer des groupes
Parent / Enfant vs Groupements adjacents
Ajout de totaux et d’agrégations
Création d’agrégats d’agrégats.

Ajouter une souplesse avec les paramètres

Ajouter des paramètres à un rapport
Paramètres du rapport par rapport aux paramètres de requête
Gérer les propriétés des paramètres du rapport
Utiliser des paramètres avec des requêtes SQL et des procédures stockées
Travailler avec des paramètres en cascade
Trier en fonction d’un paramétrage
Rapports filtrés.

Articles de rapport améliorés

Graphiques
Jauges
Ajouter une carte à un rapport
Barre de données, indicateurs et éléments du rapport Sparkline
Regarder les régions de données
Subreports et rapports de forage
Travailler avec des rapports de forage.

Utilisation de Report Manager

Déploiement
Navigateur de gestionnaire de rapports
Comprendre les autorisations
Affichage des rapports
Utilisation de sources de données partagées
Gestion des rapports.

Atelier et Cas pratique

Business Intelligence

5 jours

Voir le programme

Introduction à l’entreposage de données

Vue d’ensemble de l’entreposage de données
Planification d’une solution de BI
Éléments d’une solution de BI
Planification d’un projet de BI
La plate-forme de BI Microsoft.

Planification de l’infrastructure de Business Intelligence SQL Server

Considérations relatives à l’infrastructure de BI
Matériel de stockage de données de planification
Conception d’un entrepôt de données.

Présentation de la conception des entrepôts de données

Conception de tables de dimensions
Tables de conception FACT.

Atelier cas pratique

Conception d’une solution ETL

Présentation de ETL (Extract, Transform, Load)
Planification de l’extraction des données
Planification des transformations de données
Planification du chargement des données.

Conception de modèles de données analytiques

Introduction aux modèles de données analytiques
Conception de modèles de données analytiques.

Atelier cas pratique

Planification d’une solution de livraison de BI

Considérations relatives à la livraison de BI
Scénarios de rapports communs.

Choisir un outil de reporting

Conception d’une solution Reporting Services
Planification d’une solution de reporting
Conception de rapports
Consistance du rapport de planification

Atelier cas pratique

Conception d’une solution de reporting basée sur Excel

Utilisation d’Excel pour le reporting et l’analyse des données
PowerPivot en Excel
Power View in Excel.

Planification d’une solution de SharePoint Server BI

Introduction à SharePoint Server en tant que plateforme BI
Planification de la sécurité pour une solution de SharePoint Server BI
Configuration de Reporting Reporting Services
Planification de la configuration PowerPivot
Planification des services PerformancePoint.

Atelier cas pratique

Services de données de base

Introduction aux services de données de base
Surveillance et optimisation d’une solution de BI
Aperçu du suivi de la BI
surveillance et optimisation de l’entrepôt de données
Surveillance et analyse des services d’analyse
Surveillance et optimisation des services de reporting.

Utilisation d’une solution de BI

Vue d’ensemble des opérations de BI
Opérations ETL
Opérations d’entrepôt de données
Opérations des services d’analyse
Opérations des services de rapports.

Atelier cas pratique

Data Warehouse

5 jours

Voir le programme

Introduction à l’entreposage de données

Vue d’ensemble de l’entreposage de données
Considérations relatives à une solution de stockage de données.

Infrastructure de stockage de données de planification

Considérations relatives à l’infrastructure du Data Warehouse
Matériel de stockage de données de planification.

Conception et implémentation d’un entrepôt de données

Présentation de la conception des entrepôts de données
Conception de tables de dimensions
Concevoir des tables de faits
Conception physique pour un entrepôt de données.

Atelier cas pratique

Création d’une solution ETL avec SSIS

Introduction à ETL avec SSIS
Exploration des sources de données
Mise en œuvre du flux de données
Mise en œuvre du flux de contrôle dans un package SSIS
Introduction au flux de contrôle
Création de packages dynamiques
Utilisation des conteneurs
Gestion de la cohérence
Débogage et dépannage des packages SSIS
Débogage d’un package SSIS
Enregistrement des événements du package SSIS
Manipulation des erreurs dans un package SSIS.

Atelier cas pratique

Mise en œuvre d’une solution d’extraction de données

Extraction de données de planification
Extraction de données modifiées.

Chargement des données dans un entrepôt de données

Planification des charges de données
Utilisation de SSIS pour les charges incrémentales
Utilisation des techniques de chargement Transact-SQL.

Application de la qualité des données

Introduction à la qualité des données
Utilisation des services de qualité des données pour nettoyer les données
Utilisation des services de qualité des données pour nettoyer les données.

Atelier cas pratique

Services de données de base

Introduction aux services de données de base
Mise en œuvre d’un modèle de services de données de base
Gestion des données de base
Création d’un concentrateur de données maître.

Extension des services d’intégration SQL Server

Utilisation de scripts dans SSIS
Utilisation de composants personnalisés dans SSIS.

Atelier cas pratique

Déploiement et configuration des packages SSIS

Vue d’ensemble du déploiement de SSIS Deployer des projets SSIS
Planification de l’exécution du paquet SSIS.

Atelier cas pratique

Informations pratiques

Suivant le baromètre Besoin en Main d’Œuvre 2019 (BMO 2019) et la DARES, le nombre de postes à créer pour le consultant Big Data ainsi que les difficultés de recrutement en 2019 sont comme suit

Nombre de postes à pourvoir

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Quels sont les chiffres associés aux postes et à la formation ?

Salaire pour un junior en moyenne

Salaire pour un senior en moyenne

Recrutements jugés difficiles

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Une question ? Contactez-nous !

Le certificat « Administration Base de Données SQL » va vous ouvrir un large
panel de possibilités et vous permettre d’exercer les métiers suivants :

✔ Consultant BI
✔ Administrateur Base de Données SQL Server
✔ Développeur Base de Données SQL Server
✔ Data Architect après avoir suivi la formation Cegefos : Big Data Architect

Comment suivre une formation chez nous ?

1. Prenez contact avec nos conseillers.
2. Choisissez le format de votre formation : Blended (présentiel et e-learning) ou présentiel
3. Nous validons votre dossier et vous recevez vos identifiants.
4. Vous pouvez commencer la formation.

Financez votre formation !

Une question ? Contactez-nous !

Financement CPF

CPF « Compte Personnel de Formation »

CPF de transition

CPF de transition pour une Reconversion Professionnelle.

PDC

Plan de Développement de Compétences de l’entreprise.

VAE

VAE : Validation des Acquis de l’Expérience.

Contrat PRO

Contrat d’alternance ou de Professionnalisation.



AFPR

Action de Formation Préalable à l’Embauche.

AIF

AIF : Aide Individuelle à la Formation par Pôle Emploi.



POEc

Préparation Opérationnelle Emploi Collective.



POEi

Préparation Opérationnelle Emploi Individuelle.

Financez votre formation !

Découvrez nos solutions

Financement CPF – CPF « Compte Personnel de Formation »

CPF de transition – CPF de transition pour une Reconversion Professionnelle

PDC- Plan de Développement de Compétences de l’entreprise.

VAE – Validation des Acquis de l’Expérience

Contrat PRO – Contrat d’alternance ou de Professionnalisation

AFPR – Action de Formation Préalable à l’Embauche

AIF – Aide Individuelle à la Formation par Pôle Emploi

POEc – Préparation Opérationnelle Emploi Collective

POEi – Préparation Opérationnelle Emploi Individuelle

Contactez-nous

Vous souhaitez vous inscrire ? en savoir plus ? poser une question ?

Formation Big data Architecture et Machine Learning

par adrien@formatome.fr | Août 24, 2023

Devenez Big Data Architecte & Machine Learning



24 jours



100% finançable



Formation RNCP

Candidater en ligne

Synthèse

Déroulé

Informations pratiques

Suivre une formation

Accueil > Big Data

Jours de formation

Solutions de financement

Une formation pour qui ?

La formation Big data Architecture et Machine Learning s’adresse aux :

Directeurs/Chefs de projet ou Responsable métier
Responsable système d’informations
Développeurs informatiques
Consultants en business intelligence
Ingénieurs d’étude, de recherche et développement, Architecte système et logiciel
Consultants techniques, Consultants business
Statisticiens et Mathématiciens

La formation Big Data Architecture et Machine Learning se distingue par la maîtrise de multi-compétences en Gestion de donnés massives.

Cette formation va vous permettre d’acquérir les compétences pour devenir Full Stack Big Data, à savoir : l’architecture et l’engineering Big Data, le stockage NoSQL, l’analyse et la science de données, la visualisation de données, le déploiement en Cloud d’une solution Big Data et l’administration d’une plateforme Big Data.

Maîtriser le concept Big Data pour la recherche, l’analyse, le partage et le stockage de données massives.

Explorer le potentiel BIG DATA au service de tous les métiers (Marketing, Contrôle de Gestion, Ressources humaines, Renseignement, Santé, Banque, Assurance…)

Pré-requis

Avoir suivi la formation Développeur Java J2EE ou Microsoft.NET est un plus
Avoir une expérience des bases de données relationnelles
Posséder des connaissances approfondies en statistique est un plus
Avoir des connaissances en Python
Etre capable de travailler en équipe avec un sens d’écoute et d’analyse

Demandez la documentation complète

A l’issue de la formation Big data Architecture et Machine Learning, le certifié sera en mesure de :

Identifier les besoins et la problématique des directions métiers
Maîtriser les technologies spécifiques au Big Data comme Hadoop, Pig, Hive, Spark, Yarn, Kafka, ELK, ou Cloudera
Mettre en place un Data Lake
Maîtriser les bases de données NoSQL : MongoDB, Cassandra, Neo4j, hBase, Redis…
Maîtriser les technologies spécifiques à la science, à l’analyse ainsi qu’à la visualisation de données : Statistiques, Machine Learning, Deep Learning, langage R, Python, Tableau, PowerBI, R Shiny…
Maîtriser le déploiement des solutions Big Data sur le Cloud : AWS, GCP, Microsoft Azure…
Maîtriser la science de données et l’IA « Intelligence Artificielle » : Sprak Mlib, Scala, PySpark, RPA « Robotic Process Automation »
Construire des modèles prédictifs pour répondre à la problématique
Construire des algorithmes pour améliorer les résultats de recherche et de ciblage
Trouver et rassembler l’ensemble des sources de données structurées ou non structurées nécessaires à l’analyse pertinente
Identifier les opportunités à travers l’open data et les cas d’usage métiers
Concevoir un projet Big Data (acquisition et stockage des données, traitement distribué, analyse de données à large échelle)
Maîtriser les technologies par des études de cas concrètes
Maîtriser les enjeux juridiques et liés à la protection des données

Programme détaillé

01- Big Data: Enjeux et perspectives

1 jour

Voir le programme

Big Data : Introduction

Introduction
Types du big data
Du SQL au NoSQL
Caractéristiques techniques des 5V
Technologies Big Data
Languages Big Data
Acteurs principaux du Big Data
Différents métiers du Big Data
Collecte et traitement des données structurées, semi-structurées et non-structurées
Stockage des données
Diffusion des données
Traitements en temps réel ou différé: Kafka
Architectures réparties : Hadoop
Architecture Cloud / Scalabilité
Impact de l’usage du Big Data
Création de la valeur à partir des données
Exemple d’architecture Big Data

Enjeux du Big Data

Enjeux du big data en france
ROI et Big Data

Marché Du Big Data

Marché de la data au niveau mondial
Évolutions et les acteurs de la chaine de l’offre Big Data
Enjeux stratégiques (création de la valeur)
Opportunités pour les entreprises de services informatiques

Impacts du Big Data sur l’entreprise

Transformation de la relation client
Transformation de l’organisation de l’entreprise
Transformation du produit final
Chaîne des valeurs, développement des nouvelles activités
Productivité et optimisation des dépenses
Apparition des nouveaux rôles/métiers (data scientists et CDO)
Compétences nouvelles à acquérir

Solutions technologiques du Big Data

L’écosystème de la plateforme Hadoop : Pig, Flume, Zookeeper, HBase, Oozie, YARN,
MapReduce…
Les modes de stockage (NoSQL, HDFS) / principes de fonctionnement de MapReduce

Méthodologie de gestion d’un projet Big Data

Mise en place d’un projet Big Data
Méthodologies recommandées pour lancer un projet Big Data
Calcul du retour sur investissement d’un projet Big Data

Atelier pratique

02- Introduction à l’Architecture Big Data

1 jour

Voir le programme

Introduction à l’architecture Big Data

Définition du Big Data
Comprendre le volume
Besoin Big Data
Introduction à l’architecture Big Data
Distribution des données
Rôles d’un projet Big Data
Atelier pratique

Ecosystème Hadoop

Technologies et Outils Big Data
Découvrir l’écosystème Hadoop
Les distributions Hadoop
Atelier pratique

Mode de stockage HDFS et Base NoSql

Comprendre HDFS
HadoopFS
Caractéristiques de HDFS
Les modes de stockage HDFS
Services HDFS
Opération HDFS
Administration d’un cluster HDFS
Comprendre NoSQL
Les modes de stockage NoSQL
Choix du type de la Base de donnée NoSQL
Atelier pratique

Principes du Traitement MapReduce

Principes de fonctionnement de MapReduce
Fonction map()
Fonction reduce()
Conception d’un MapReduce
Atelier pratique

Architecture applicative

Introduction
Différentes étapes de gestion des données (Cycle de vie des données dans le Big Data)
Définition du processus d’ingestion des données
Outil disponibles sur le marché
Modèle d’architecture applicative d’une solution Big Data
Atelier pratique

Architecture technique

Introduction à l’architecture technique
Traitement de données
Qualité des données (Data Quality)
Architectures réparties (Clustering Hadoop)
Atelier pratique

Modèles d’Architectures Big Data

Introduction
Architecture Datalake
Architecture Lambda
Architecture Kappa
Architecture pour l’internet des objets (IoT)
Atelier pratique

Critères de choix d’une architecture Big Data

Introduction
Critères de choix
Le type de traitement
L’utilisateur final des données
La source des données (où les données sont générées)
Format du contenu
Types des données à traiter
Fréquence et taille des données
Méthodologie de traitement des données
Le choix du matériel
Récapitulatif des critères du choix d’une architecture big data
Atelier pratique

03- NoSQL

1 jour

Voir le programme

Introduction aux Bases de données NoSQL

Histoire de NoSQL
Comprendre le modèle NoSQL
NoSQL Vs BDR
Propriétés ACID
Propriétés BASE
Théorème de Brewer ou de CAP
Caractéristiques NoSQL

Atelier pratique

Principaux modèles de BD NoSQL

Familles des Bases de Données NoSQL
Modèle NoSQL « Clé-Valeur »
Modèle NoSQL orienté Colonne
Modèle NoSQL orienté Document
Modèle NoSQL orienté Graphe
Bases de données NoSQL
Comparatif des bases de données NoSQL
Récapitulatif des types de schéma de données NoSQL
HBase
MongoDB
Cassandra
Redis
Couchbase
Elasticsearch
Riak

Atelier pratique

Choix d’une Base de données NoSql

Choisir une base de données NoSQL
Classification des bases de données les plus utilisées

Atelier pratique

04- Hbase / Mongo DB

2 jours

Voir le programme

Introduction à Hbase

Définition de Hbase
Hadoop vs Hbase
Caractéristiques de Hbase
Quand utiliser HBase
Importance des bases de données NoSQL dans Hadoop
Autres type de stockage NoSQL
Comment HBase diffère des autres modèles NoSQL
Quelle base de données NoSQL choisir?
HBase Vs Hive
HBase VS RDBMS

Atelier pratique

Architecture de Hbase

Mécanisme de stockage dans HBase
Stockage orienté colonne vs orienté ligne
Modèle de données HBase
Avantages de l’architecture Apache HBase
Architecture HBase et ses composants importants
Comment les composants Hbase fonctionnent ensemble
Lecture et écriture dans HBase
Récapitulatif des étapes d’écriture Hbase
HBASE vs HDFS
Cas d’utilisation de HBase

Atelier pratique

Installation de Hbase

Modes d’installation d’Apache HBase
Configuration de pré-installation
Création d’un utilisateur Hadoop
Configuration SSH et génération de clés
Mise en place de Java
Mise en place de Hadoop
Installation de Hbase
Comment télécharger la version stable du fichier tar Hbase
Installation de HBase en mode autonome (Standalone)
Installation de HBase en mode Pseudo distribué
Installation de HBase en mode entierement distribué
Dépannage de l’installation de HBase

Atelier pratique

Commandes générales Hbase SHELL

La commande status
La commande version
La commande table_help
La commande whoami

Atelier pratique

Manipulation des tables avec HBASE

Commandes de gestion des tables
Créer une table à l’aide de HBase Shell
Créer une table à l’aide de l’API java
Désactiver une table à l’aide de HBase Shell
Désactiver une table à l’aide de l’API java
Activation d’une table à l’aide de HBase Shell
Activation d’une table à l’aide de l’API java
Décrire et modifier une table à l’aide de Hbase Shell
Décrire et modifier une table à l’aide de l’API java
Existence d’une table à l’aide de HBase Shell
Existence d’une table à l’aide de l’API java
Suppression d’une table à l’aide de HBase Shell
Suppression d’une table à l’aide de l’API java
Fermer une table à l’aide de HBase Shell
Fermer une table à l’aide de l’API java

Atelier pratique

Insérer et récupérer des données dans HBase: exemples get (), put (), scan ()

Insertion ou écriture de données dans la table HBase: Shell
Insertion de données à l’aide de l’API Java
Mise à jour des données à l’aide de HBase Shell
Mise à jour des données à l’aide de l’API Java
Lecture de données à l’aide de HBase Shell
Lecture de données à l’aide de l’API Java
Suppression d’une cellule spécifique dans un tableau à l’aide de HBase Shell
Suppression d’une cellule spécifique dans un tableau à l’aide de l’API Java
Scanner à l’aide de HBase Shell
compter et tronquer
Sécurité

Atelier pratique

Avantages et limitations de Hbase

Goulot d’étranglement des performances
Avantages de HBase
Limitations avec HBase

Introduction

Stockage NoSQL
Caractéristiques des bases NoSQL : CAP
Choix d’une base de données NoSQL
Bases de données orientées documents
Historique et Présentation de MongoDB
Cas d’utilisation de MongoDB
Structure des données : notions de documents, de collections de valeurs
Le format JSON
Stockage de JSON
JavaScript pour manipuler du JSON

Atelier pratique

Installation et configuration de MongoDB

Plateformes supportées
Installation de MongoDB sur Windows
Choix de la version
Téléchargement de MongoDB pour Windows
Exécution
Configuration
Lancement de Mongo DB
Connection à MongoDB
Installation de MongoDB sur Linux
Choix de la version
Téléchargement de MongoDB pour Windows
Exécution
Configuration
Lancement de Mongo DB
Connection à MongoDB

Atelier pratique

Prise en main de MongoDb

Utilisation de l’invite interactive
Commandes de manipulation de base de données
Utilisation d’un client graphique
Importation d’une collection
Manipulation du format BSON
Comprendre le type ObjectId

Atelier pratique

Administration de MongoDB

Sauvegarde des données
Configuration de la journalisation
Mise en place d’une réplication
Configuration de la réplication
Teste de la réplication
Mise en place du sharding
Configuration d’une collection pour le sharding

Atelier pratique

Manipulation des documents dans MongoDB

Insérer un document
Modifier et supprimer un document
Utiliser une transaction
Chercher des documents avec FIND()
Comparer FIND() et SELECT en SQL
Utiliser les opérateurs du FIND()
Indexer pour améliorer les performances

Atelier pratique

MongoDB avancé

Comprendre le framework d’agrégation
Découvrir les étapes de l’agrégation
Découvrir les opérateurs des Pipeline d’agrégation

Atelier pratique

05- Apache Hadoop

4 jours

Voir le programme

Section 1: Introduction à l’écosystème Hadoop

Aborder cette formation
Découvrir NoSQL
Définir le Big Data
Comprendre l’histoire d’Hadoop
Parcourir l’écosystème Hadoop
Différencier les distributions Hadoop
Comprendre le NoSQL
Définition du Big Data
Architecture de Hadoop
L’Écosystème de Hadoop
Rôle des différents composants de l’écosystème Hadoop
Rôle des collecteurs de données
Distributions d’Hadoop

Section 2: Installation de l’environnement Hadoop

Installation de l’environnement Hadoop VM Ubuntu
Installation de l’environnement Hadoop sur Windows
Différencier les distributions Hadoop
Découvrir Cloudera Hadoop
Démarrer une QuickStart VM
Travaux pratique: Installation Hadoop

Section 3: HDFS – La couche de stockage

Comprendre le HDFS
Découvrir HadoopFS
Assimiler les principes du HDFS
Appréhender les services HDFS
Comprendre les opérations HDFS
Configuration de HDFS
Demarrage de HDFS
Administrer le cluster HDFS
Découvrir la gestion des services HDFS
0Manipuler les fichiers en ligne de commande
Exécuter des opérations en Java
Utiliser les InputStream Java
Accéder à HDFS avec WebHDFS
Caractéristiques de HDFS
Architecture de HDFS
Rôle de HDFS
Opérations HDFS
Listing des fichiers dans HDFS
Insertion des données dans HDFS
Extraction des données du HDFS
Arrêt du HDFS

Section 4: Fonctionnement de MapReduce

Appréhender les principes de base
Découvrir la fonction map()
Utiliser la fonction reduce()
Concevoir un MapReduce
Développer le mapper
Développer le reducer
Créer un jeu de données
Créer le driver
Lancer un MapReduce en Java
Suivre l’évolution du MapReduce
Développer un MapReduce en PHP
Lancer des MapReduce avec Hadoop Streaming
Principes de base de MapReduce
Architecture MapReduce
Fonction map()
Fonction reduce()
Conception d’un MapReduce
Développer le mapper
Développer le reducer
Création d’un jeu de données
Création d’un driver
Lancer un MapReduce en Java
Suivi de l’évolution du MapReduce
Développement d’un MapReduce en PHP
Lancement des MapReduce avec Hadoop Streaming
TP : Fonctionnement de MapReduce

Section 5: Base de données NoSQL HBase

Identifier les cas d’utilisation de HBase
Comprendre le modèle Hbase
Administrer HBase
Appréhender les opérations HBase
Gérer les services avec des interfaces web
Lancer des commandes HBase dans le terminal
Filtrer les résultats d’un scan
Utiliser HBase en Java
Utiliser HBase dans les MapReduce
Définition de Hbase
Hbase avec Hadoop
Cas d’utilisation de HBase
Comprendre le modèle Hbase
Installation de Hbase
Architecture
Composants Hbase (Region, Region Server, Region Split)
Lecture et écriture dans Hbase
API Shell
API Java
TP : Base de données NoSQL HBase

Section 6: Apache Oozie -Ordonnanceur de WorkFlow

Définition de Oozie
Caractéristiques Oozie
Fonctionnement de Oozie
Actions Oozie
Oozie Job
Oozie workflow
Coordinateur Oozie
Paramètre Oozie
Monitoring Oozie
Packaging et déploiement d’une application de workflow Oozie

Section 7: Collecte de données avec Apache Sqoop

Introduire scoop anglais
Importer les données avec scoop
Définition de Sqoop
Cible des imports dans le cluster
Architecture de Sqoop
Fonctionnement de Sqoop
Exemple d’import vers HDFS
Exemples d’import vers Hive
Exemple d‘exports

Section 8 : travaux pratiques: Développement d’une application Big Data avec Hadoop

Mission 1: Conception de l’application
Découper l’application
Exploiter les données
Concevoir la base de données HBase
Parser le fichier d’entrée dans un mapper
Écrire dans HBase avec un reducer
Mettre en place des clés composites
Utiliser les clés composites
Lancer un modèle MapReduce d’import

Mission 2: Développement des modèles MapReduce

Lire les données de HBase dans un mapper
Agréger les données dans un reducer
Suivre les modèles MapReduce
Déboguer les modèles MapReduce
Explorer les sources d’Hadoop
Réaliser des jointures de données
Résoudre le problème du secondary sort
Optimiser ses modèles MapReduce

Mission 3: Développement des modèles MapReduce

Mettre en place un workflow Oozie
Lancer un workflow Oozie
Filtrer les données de HBase
Exporter dans MySQL grâce à Sqoop
Lancer son workflow avec l’API HTTP REST
Coupler l’application avec une interface web

06- Apache Spark

3 jours

Voir le programme

Introduction à Apache Spark

Apache Spark
MapReduce VS Spark
Caractéristiques d’Apache Spark
Architecture d’Apache Spark
Anatomie d’une application Spark
Interaction avec Spark
Spark sur Hadoop
Composants de Spark

Atelier pratique

Installation de Spark

Préparation d’une VM Linux
Télécharger Apache Spark
Installation d’Apache Spark : redhat /CentOS
Installation d’Apache Spark : Windows
Installation d’Apache Spark : Mac OS
Installation d’Apache Spark : Ubuntu /Debian

Atelier pratique : Installation Spark

Resilient Distributed Datasets ( RDDs )

Introduction aux RDDs (Resilient Distributed Datasets)
Exemple d’un RDD
Caractéristiques des RDDs
Liaison avec Spark (Scala/Java/Python)
Création d’un RDD
Opérations RDD
Actions RDD
Transformation RDD

Atelier pratique

Spark streaming

Définition
Exemple Scala, Java et Python
Concepts de base
Initialisation de StreamingContext
Flux discrétisés (DStreams)

Atelier pratique

Spark SQL

Caractéristiques de Spark SQL
Architecture Spark SQL
Appréhender les abstractions de données de Spark
Exploiter la Spark Session
Créer un Data Frame
Manipuler le DataFrame
Comprendre les formats de stockage
Construire un jeu de données
Importer un fichier Avro
Joindre des DataFrames
Sauvegarder au format Parquet
Employer la syntaxe select
Utiliser un Dataset
Exécuter un programme avec spark-submit
Choisir une distribution Spark
Conclure sur Apache Spark

Atelier pratique

07- Apache Kafka

2 jours

Voir le programme

Introduction à Apache kafka

Présentation de Kafka
Intérêt d’Apache Kafka
Les API de Kafka
Terminologies de Kafka
Atelier pratique

Architecture d’Apache kafka

Architecture du cluster Kafka
Topic
Broker
Zookeeper
Producers
Consumers
Kafka WORKFLOW

Installation et configuration de Apache Kafka

Installation et configuration d’Apache Kafka
Installation de Java
Installation de Zookeeper
Installation de Kafka
Atelier pratique: Installation

Commande Line Interface (CLI)

Démarrez le serveur Kafka
Lister tous les sujets
Créer un topic
Décrire un topic
Publier des messages sur un topic
Consommer des messages
Modifier les sujets d’Apache Kafka
Atelier pratique: CLI

Développement Kafka avec Java

Introduction à la programmation Kafka
Kafka APIs
Création d’un projet Kafka
Java producer
Rappels des producers Java
Producer Java avec clés
Java consumer
Consumer Java au sein d’un groupe de consumers
Consumer Java avec threads
Le consumer Java recherche et attribue
Compatibilité de client bidirectionnelle
Atelier pratique: Développement Kafka

Kafka Stream

Introduction à Kafka Stream
Concepts de Kafka Stream
Architecture de Kafka Stream
Démo: Application wordcount avec kafka stream
Atelier pratique: KStream

08- Elastic Stack ELK

2 jours

Voir le programme

Introduction à la suite ELK (ELK Stack)

Aperçu sur la suite ELK
Autres outils en relation avec ELK
Rôle de Elastic Stack
Installation de la suite ELK
Installation de la suite ELK sur Windows
Installation de la suite ELK sur Docker

Eléments du Stack ELK

Elasticsearch: Le noyau
Kibana: L’outil utilisateur
Logstash: L’outil d’ingestion
Beats: Transfert de données
X-Pack: Le pack de fonctionnalités

Cas d’utilisation la suite ELK

Gestion des logs
Aperçu sur la gestion des logs
Analyse des métriques
Aperçu sur l’analyse des métriques
Recherche de Sites et d’applications
Analyse de sécurité
Aperçu sur l’analyse de sécurité
Monitoring des performances des applications

Chargement des données

Données de chargement en masse
Chargement d’échantillons de données
Définition des types de données

Interrogation des données

Requêtes simples
Requêtes au niveau du terme
Analyse et tokenisation

Analyse des données

Agrégations de base
Filtrer les agrégations
Percentiles et histogrammes

Présentation de vos Insights

Présentation et configuration de Kibana
Création de visualisations dans Kibana
Création de tableaux de bord dans Kibana

Dépannage du Stack

Quand les choses vont mal
Dépannage des ressources

Atelier cas pratique

Installation et configuration (Serveur ElasticSearch, Mettre en place un cluster , Les rôles des
noeuds)

09- Gouvernance et Sécurité

1 jour

Voir le programme

Introduction à la Gouvernance des données

Rôle des données au 21e siècle
Définition et principes de base de la gouvernance des données
Gouvernance des données Vs Gestion des données
Avantages de la gouvernance des données
Gouvernance des données dans le cloud
Outils de gouvernance des données
Les étapes de la gouvernance des données

Atelier pratique

Déploiement de la gouvernance des données

À qui appartiennent les données et pourquoi est-ce important?
Rôles dans le domaine de la gouvernance des données
Conception du processus de gouvernance des données

Atelier pratique

Gestion d’un programme de gouvernance des données

Gestion et maintien de la gouvernance des données
Suivi et mesure de votre programme

Atelier pratique

10- Mise en place d’un Data Lake

2 jours

Voir le programme

Introduction aux données d’entreprise

Données d’entreprise
Importance de la qualité de la donnée
Données du Big data
Architectures Big Data

Atelier pratique

Introduction aux Data lake

Présentation du Data lake
Pertinence du Data lake dans une entreprise
Avantage du Data lake
Fonctionnement d’un Data Lake
Différence entre le Data Lake et de Data Warehouse
Défis du du Data lake
Approches pour créer un Data Lake
Conclusion

Atelier pratique

Architecture du Data Lake

Architecture du Data lake
Concepts clés du Data Lake
Étapes de maturité du Data Lake
Meilleures pratiques de l’architecture Data Lake

Atelier pratique

L’architecture Lambda basée sur Data Lake

Introduction
Couche d’ingestion de données
Speed layer – traitement des données en temps quasi réel
Couche de stockage de données – stocker toutes les données
Serving layer – livraison et exportation de données
Acquisition layer – Couche d’acquisition de données
Messaging Layer – Couche de livraison de données
Ingestion layer – Couche d’ingestion de données
Exploration de la couche Lambda
Magasins de données relationnelles

Atelier pratique

Écosystème Hadoop pour la mise en œuvre d’un Data lake

Introduction
Distributions Hadoop
Facteurs de sélection d’un stack Big Data pour les entreprises
Écosystème Hadoop pour un Data lake

Acquisition de données de données par lots avec Apache Sqoop

Introduction
Contexte dans Data Lake – Acquisition de données
Fonctionnement de Sqoop
Importation de données à l’aide de Sqoop
Exportation de données à l’aide de Sqoop
Connecteurs Sqoop

Atelier pratique

Acquisition de données de flux de données à l’aide d’Apache Flume

Introduction
Contexte dans Data Lake: acquisition de données
Initiation à la Stream Data (Flux de données)
Données Batch Vs données stream
Acquisition de données de flux – cartographie technologique
Fonctionnement de Flume
Sqoop Vs Flume

Atelier pratique

Couche de messagerie utilisant Apache Kafka

Introduction
Contexte dans Data Lake – couche de messagerie
Couche de messagerie
Couche de messagerie – cartographie technologique
Cycle de vie du flux de données

Atelier pratique

Traitement des données à l’aide d’Apache Flink

Introduction
Contexte dans un lac de données – couche d’ingestion de données
Couche d’ingestion de données
Data Ingestion Layer – cartographie technologique
Fonctionnement de Flink
Architecture Flink

Atelier pratique

Magasin de données à l’aide d’Apache Hadoop

Introduction
Contexte pour Data Lake – Stockage de données et lambda Batch Layer
Stockage de données et Lambda Batch Layer
Stockage de données et couche Lambda Batch – cartographie technologique
Fonctionnement de Hadoop
Architecture Hadoop

Atelier pratique

Magasin de données indexé à l’aide d’Elasticsearch

Introduction
Contexte dans Data Lake: stockage de données et lambda Speed layer
Data Storage et Lambda Speed Layer
Data Storage et Lambda Speed Layer: cartographie technologique
Définition d’Elasticsearch
Fonctionnement d’Elasticsearch
Principes de l’architecture de base d’Elasticsearch

Atelier pratique

11- Python pour la data science

1 jour

Voir le programme

Opérations basiques avec Python

Python pour la data science
Comprendre l’importance de la data science
Expliquer le choix de Python
Installation de Python

Opérations basiques avec Python

Opérations basiques sur les listes
Opérations avancées sur les listes
Les dictionnaires
Les compréhensions

Chargement et préparation des données

Intérêt du prétraitement de données
Chargement des fichiers Excel et CSV
Chargement d’un fichier JSON
Interrogation d’une base de données SQL Server
Concaténation de différentes sources de données
Fusion de différentes sources de données
Manipulation des données manquantes
Maîtrise des statistiques descriptives avec NumPy
Maîtrise des statistiques descriptives avec Pandas

Manipulation des données

Différents types de données
Manipulation des données quantitatives avec NumPy
Techniques d’encodage
Manipulation des données textuelles avec Pandas
Manipulation des données textuelles avec NLTK
Utilisation des séries temporelles
Manipulation des images

Atelier pratique Visualisation des donnée

Visualisation des données

Découvrir les bases de la visualisation de données
Matplotlib
Seaborn
Bokeh
Aller plus loin avec Matplotlib

Initiation au Web scrapig

Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping

Initiation aux algorithmes de machine learning

Régression linéaire
Mise en œuvre la régression linéaire
Algorithme SVM
Utilisation de l’algorithme SVM
Classification naïve bayésienne
Pratique de la classification naïve bayésienne
Algorithme des k-moyennes
Utilisation de l’algorithme des k-moyennes
Analyse en composante principale PCA

Deep learning avec Keras et TensorFlow

Définition du Deep learning
Concepts du deep learning
TensorFlow
Keras
Compréhension et préparation des données
Déploiement du modèle

Atelier Pratique

12- Machine Learning

2 jours

Voir le programme

Initiation au machine Learning

Fondements du Machine Learning
Introduction au Machine Learning
Groupes de Machine Learning
Besoins du Machine Learning
Cycle de vie du Machine Learning
Identification des biais cognitifs humains

Classification du machine Learning

Théorie du Naïve Bayes
Régression logistique binomiale
Théorie k-NN
Arbres de classification
Forêts d’arbres de décision
Support vector machine

Régression linéaire avec Python

Définition de la régression
Régression linéaire univariée
Régression linéaire multivariée
Régression linéaire polynomiale
Régressions régularisées
Programmer une régression linéaire en Python
Utilisation des expressions lambda et des listes en intention
Afficher la régression avec MathPlotLib
L’erreur quadratique
La variance
Le risque

Initiation au clustering

Définition du clustering
Méthode k-means
Clustering hiérarchique

Initiation aux Règles d’association

Définition des règles d’association
Initiation à la méthode A priori
Évaluation des règles d’association candidates

Réduction dimensionnelle

Définition de la réduction dimensionnelle
Utilisation des méthodes de sélection de variables
Méthode ACP
Méthode ADL

Algorithmes Du Machine Learning

Initiation à l’ensemble learning
Apprentissage par renforcement
Régression linéaire simple et multiple
Régression polynomiale
Séries temporelles
Régression logistique et applications en scoring
Classification hiérarchique et non hiérarchique (K-Means)
Classification par arbres de décision ou approche Naïve Bayes
Ramdom Forest (développement des arbres de décision)
Gradiant Boosting
Réseaux de neurones
Machine à support de vecteurs
Deep Learning : exemples et raisons du succès actuel
Text Mining : analyse des corpus de données textuelles

Atelier cas pratique

Numpy Et Scipy

Tableaux et matrices
Algèbre linéaire avec Numpy
Numpy et MathPlotLib

Scikit learn

Machine Learning avec SKLearn
Régression linéaire
Création du modèle
Echantillonnage
Randomisation
Apprentissage avec fit
Prédiction du modèle
Metrics
Choix du modèle
PreProcessing et Pipeline
Régressions non polynomiales

Test et validation des algorithmes

Validation des algorithmes
Atelier cas pratique
Techniques de ré-échantillonnage en jeu d’apprentissage, de validation et de test
Mesures de performance des modèles prédictifs
Matrice de confusion, de coût et la courbe ROC et AUC

Atelier cas pratique

Informations pratiques

Nombre de postes à pourvoir

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Quels sont les chiffres associés aux postes et à la formation ?

Salaire pour un junior en moyenne

Salaire pour un senior en moyenne

Recrutements jugés difficiles

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Une question ? Contactez-nous !

La formation « Big data Architecture et Machine Learning » va vous ouvrir un large panel de possibilités et vous permettre d’exercer les métiers suivants :

✔ Consultant Big Data
✔ Data Architect
✔ Data engineering
✔ Data Analyst
✔ Data Scientist avec Python
✔ Data Scientist avec R
✔ Data Scientist et Intelligence artificielle
✔ Architect cloud AWS, Azure ou GCP pour Big Data
✔ Développeur Full Stack Big Data

Comment suivre une formation chez nous ?

Financez votre formation !

Une question ? Contactez-nous !

Financement CPF

CPF « Compte Personnel de Formation »

CPF de transition

CPF de transition pour une Reconversion Professionnelle.

PDC

Plan de Développement de Compétences de l’entreprise.

VAE

VAE : Validation des Acquis de l’Expérience.

Contrat PRO

Contrat d’alternance ou de Professionnalisation.



AFPR

Action de Formation Préalable à l’Embauche.

AIF

AIF : Aide Individuelle à la Formation par Pôle Emploi.



POEc

Préparation Opérationnelle Emploi Collective.



POEi

Préparation Opérationnelle Emploi Individuelle.

Financez votre formation !

Découvrez nos solutions

Financement CPF – CPF « Compte Personnel de Formation »

CPF de transition – CPF de transition pour une Reconversion Professionnelle

PDC- Plan de Développement de Compétences de l’entreprise.

VAE – Validation des Acquis de l’Expérience

Contrat PRO – Contrat d’alternance ou de Professionnalisation

AFPR – Action de Formation Préalable à l’Embauche

AIF – Aide Individuelle à la Formation par Pôle Emploi

POEc – Préparation Opérationnelle Emploi Collective

POEi – Préparation Opérationnelle Emploi Individuelle

Contactez-nous

Vous souhaitez vous inscrire ? en savoir plus ? poser une question ?

Formation Data science et IA

par adrien@formatome.fr | Août 24, 2023

Devenez Data scientist spécialisé IA



22 jours



100% finançable



Formation RNCP

Candidater en ligne

Synthèse

Déroulé

Informations pratiques

Suivre une formation

Accueil > Big Data

Jours de formation

Solutions de financement

Une formation pour qui ?

La formation Data Science et IA s’adresse aux :

Directeurs/Chefs de projet ou Responsable métier
Responsable système d’informations
Développeurs informatiques
Consultants en business intelligence
Ingénieurs d’étude, de recherche et développement, Architecte système et logiciel
Consultants techniques, Consultants business
Statisticiens et Mathématiciens

Outre la maîtrise des enjeux et des perspectives, la formation Data Science et IA se distingue par la maîtrise de multi-compétences en Gestion de donnés massives.

Cette formation va vous permettre d’acquérir les compétences suivantes : l’architecture et l’engineering Big Data, le stockage NoSQL, l’analyse et la science de données, la visualisation de données, le déploiement en Cloud d’une solution Big Data et l’administration d’une plateforme Big Data.

Maîtriser le concept Big Data pour la recherche, l’analyse, le partage et le stockage de données massives.

Explorer le potentiel BIG DATA au service de tous les métiers (Marketing, Contrôle de Gestion, Ressources humaines, Renseignement, Santé, Banque, Assurance…)

Pré-requis

Avoir suivi la formation Développeur Java J2EE ou Microsoft.NET serait un plus
Avoir une expérience des bases de données relationnelles
Posséder des connaissances approfondies en statistique est un plus
Etre capable de travailler en équipe avec un sens d’écoute et d’analyse
Avoir des connaissances en Python est un plus

Demandez la documentation complète

A l’issue du module Data Science et IA,

vous serez en mesure de :

Identifier les besoins et la problématique des directions métiers
Maîtriser les technologies spécifiques au Big Data comme Hadoop, Pig, Hive, Spark, Yarn, Kafka, ELK, ou Cloudera
Mettre en place un Data Lake
Maîtriser les bases de données NoSQL : MongoDB, Cassandra, Neo4j, hBase, Redis…
Maîtriser les technologies spécifiques à la science, à l’analyse ainsi qu’à la visualisation de données : Statistiques, Machine Learning, Deep Learning, langage R, Python, Tableau, PowerBI, R Shiny…
Maîtriser le déploiement des solutions Big Data sur le Cloud : AWS, GCP, Microsoft Azure…
Maîtriser la science de données et l’IA « Intelligence Artificielle » : Sprak Mlib, Scala, PySpark, RPA « Robotic Process Automation »
Construire des modèles prédictifs pour répondre à la problématique
Construire des algorithmes pour améliorer les résultats de recherche et de ciblage
Trouver et rassembler l’ensemble des sources de données structurées ou non structurées nécessaires à l’analyse pertinente
Identifier les opportunités à travers l’open data et les cas d’usage métiers
Concevoir un projet Big Data (acquisition et stockage des données, traitement distribué, analyse de données à large échelle)
Maîtriser les technologies par des études de cas concrètes
Maîtriser les enjeux juridiques et liés à la protection des données

Programme détaillé

01- NoSQL

1 jour

Voir le programme

Introduction aux Bases de données NoSQL

Histoire de NoSQL
Comprendre le modèle NoSQL
NoSQL Vs BDR
Propriétés ACID
Propriétés BASE
Théorème de Brewer ou de CAP
Caractéristiques NoSQL

Atelier pratique

Principaux modèles de BD NoSQL

Familles des Bases de Données NoSQL
Modèle NoSQL « Clé-Valeur »
Modèle NoSQL orienté Colonne
Modèle NoSQL orienté Document
Modèle NoSQL orienté Graphe
Bases de données NoSQL
Comparatif des bases de données NoSQL
Récapitulatif des types de schéma de données NoSQL
HBase
MongoDB
Cassandra
Redis
Couchbase
Elasticsearch
Riak

Atelier pratique

Choix d’une Base de données NoSql

Choisir une base de données NoSQL
Classification des bases de données les plus utilisées

Atelier pratique

02- Apache Hadoop

4 jours

Voir le programme

Section 1: Introduction à l’écosystème Hadoop

Aborder cette formation
Découvrir NoSQL
Définir le Big Data
Comprendre l’histoire d’Hadoop
Parcourir l’écosystème Hadoop
Différencier les distributions Hadoop
Comprendre le NoSQL
Définition du Big Data
Architecture de Hadoop
L’Écosystème de Hadoop
Rôle des différents composants de l’écosystème Hadoop
Rôle des collecteurs de données
Distributions d’Hadoop

Section 2: Installation de l’environnement Hadoop

Installation de l’environnement Hadoop VM Ubuntu
Installation de l’environnement Hadoop sur Windows
Différencier les distributions Hadoop
Découvrir Cloudera Hadoop
Démarrer une QuickStart VM
Travaux pratique: Installation Hadoop

Section 3: HDFS – La couche de stockage

Comprendre le HDFS
Découvrir HadoopFS
Assimiler les principes du HDFS
Appréhender les services HDFS
Comprendre les opérations HDFS
Configuration de HDFS
Demarrage de HDFS
Administrer le cluster HDFS
Découvrir la gestion des services HDFS
0Manipuler les fichiers en ligne de commande
Exécuter des opérations en Java
Utiliser les InputStream Java
Accéder à HDFS avec WebHDFS
Caractéristiques de HDFS
Architecture de HDFS
Rôle de HDFS
Opérations HDFS
Listing des fichiers dans HDFS
Insertion des données dans HDFS
Extraction des données du HDFS
Arrêt du HDFS

Section 4: Fonctionnement de MapReduce

Appréhender les principes de base
Découvrir la fonction map()
Utiliser la fonction reduce()
Concevoir un MapReduce
Développer le mapper
Développer le reducer
Créer un jeu de données
Créer le driver
Lancer un MapReduce en Java
Suivre l’évolution du MapReduce
Développer un MapReduce en PHP
Lancer des MapReduce avec Hadoop Streaming
Principes de base de MapReduce
Architecture MapReduce
Fonction map()
Fonction reduce()
Conception d’un MapReduce
Développer le mapper
Développer le reducer
Création d’un jeu de données
Création d’un driver
Lancer un MapReduce en Java
Suivi de l’évolution du MapReduce
Développement d’un MapReduce en PHP
Lancement des MapReduce avec Hadoop Streaming
TP : Fonctionnement de MapReduce

Section 5: Base de données NoSQL HBase

Identifier les cas d’utilisation de HBase
Comprendre le modèle Hbase
Administrer HBase
Appréhender les opérations HBase
Gérer les services avec des interfaces web
Lancer des commandes HBase dans le terminal
Filtrer les résultats d’un scan
Utiliser HBase en Java
Utiliser HBase dans les MapReduce
Définition de Hbase
Hbase avec Hadoop
Cas d’utilisation de HBase
Comprendre le modèle Hbase
Installation de Hbase
Architecture
Composants Hbase (Region, Region Server, Region Split)
Lecture et écriture dans Hbase
API Shell
API Java
TP : Base de données NoSQL HBase

Section 6: Apache Oozie -Ordonnanceur de WorkFlow

Définition de Oozie
Caractéristiques Oozie
Fonctionnement de Oozie
Actions Oozie
Oozie Job
Oozie workflow
Coordinateur Oozie
Paramètre Oozie
Monitoring Oozie
Packaging et déploiement d’une application de workflow Oozie

Section 7: Collecte de données avec Apache Sqoop

Introduire scoop anglais
Importer les données avec scoop
Définition de Sqoop
Cible des imports dans le cluster
Architecture de Sqoop
Fonctionnement de Sqoop
Exemple d’import vers HDFS
Exemples d’import vers Hive
Exemple d‘exports

Section 8 : travaux pratiques: Développement d’une application Big Data avec Hadoop

Mission 1: Conception de l’application
Découper l’application
Exploiter les données
Concevoir la base de données HBase
Parser le fichier d’entrée dans un mapper
Écrire dans HBase avec un reducer
Mettre en place des clés composites
Utiliser les clés composites
Lancer un modèle MapReduce d’import

Mission 2: Développement des modèles MapReduce

Lire les données de HBase dans un mapper
Agréger les données dans un reducer
Suivre les modèles MapReduce
Déboguer les modèles MapReduce
Explorer les sources d’Hadoop
Réaliser des jointures de données
Résoudre le problème du secondary sort
Optimiser ses modèles MapReduce

Mission 3: Développement des modèles MapReduce

Mettre en place un workflow Oozie
Lancer un workflow Oozie
Filtrer les données de HBase
Exporter dans MySQL grâce à Sqoop
Lancer son workflow avec l’API HTTP REST
Coupler l’application avec une interface web

03- Introduction à la Data Science

1 jour

Voir le programme

Introduction à la Data Science

Big data

Deep learning

Perceptron
Réseaux neuronaux multicouches (MLP)
Réseaux neuronaux convolutifs (CNN)
Réseaux neuronaux récursifs (RNN)

Machine Learning

Apprentissage automatique supervisé/ non supervisé
Algorithmes du Machine Learning

Principes de la data science

Approche fonctionnelle de base
Variables prédictives
Variables à prédire
Fonctions hypothèses
Estimateurs (biais et variances)
Compromis biais – variance
Fonctions de perte
Régularisation des paramètres
Optimisation des paramètres

Clustering

k-moyens (kMeans)
Clustering hiérarchique
Approche DBSCAN

Classification

Régression logistique
Machines à vecteurs de support (SVM)
Arbres de décisions
K plus proches voisins (kNN)

Traitements en Data Science

Compressions des données
Réglages des modèles

Principes de l’apprentissage d’ensemble

Forêts aléatoires
gradient boosting

Principes de la régression

Explorations des données régressives
Performance des modèles de régression

Atelier Cas pratique

04- Python pour la data science

2 jours

Voir le programme

Opérations basiques avec Python

Python pour la data science
Comprendre l’importance de la data science
Expliquer le choix de Python
Installation de Python

Opérations basiques avec Python

Opérations basiques sur les listes
Opérations avancées sur les listes
Les dictionnaires
Les compréhensions

Chargement et préparation des données

Intérêt du prétraitement de données
Chargement des fichiers Excel et CSV
Chargement d’un fichier JSON
Interrogation d’une base de données SQL Server
Concaténation de différentes sources de données
Fusion de différentes sources de données
Manipulation des données manquantes
Maîtrise des statistiques descriptives avec NumPy
Maîtrise des statistiques descriptives avec Pandas

Manipulation des données

Différents types de données
Manipulation des données quantitatives avec NumPy
Techniques d’encodage
Manipulation des données textuelles avec Pandas
Manipulation des données textuelles avec NLTK
Utilisation des séries temporelles
Manipulation des images

Atelier pratique Visualisation des donnée

Visualisation des données

Découvrir les bases de la visualisation de données
Matplotlib
Seaborn
Bokeh
Aller plus loin avec Matplotlib

Initiation au Web scrapig

Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping

Initiation aux algorithmes de machine learning

Régression linéaire
Mise en œuvre la régression linéaire
Algorithme SVM
Utilisation de l’algorithme SVM
Classification naïve bayésienne
Pratique de la classification naïve bayésienne
Algorithme des k-moyennes
Utilisation de l’algorithme des k-moyennes
Analyse en composante principale PCA

Deep learning avec Keras et TensorFlow

Définition du Deep learning
Concepts du deep learning
TensorFlow
Keras
Compréhension et préparation des données
Déploiement du modèle

Atelier Pratique

05- Machine Learning

3 jours

Voir le programme

Initiation au machine Learning

Fondements du Machine Learning
Introduction au Machine Learning
Groupes de Machine Learning
Besoins du Machine Learning
Cycle de vie du Machine Learning
Identification des biais cognitifs humains

Classification du machine Learning

Théorie du Naïve Bayes
Régression logistique binomiale
Théorie k-NN
Arbres de classification
Forêts d’arbres de décision
Support vector machine

Régression linéaire avec Python

Définition de la régression
Régression linéaire univariée
Régression linéaire multivariée
Régression linéaire polynomiale
Régressions régularisées
Programmer une régression linéaire en Python
Utilisation des expressions lambda et des listes en intention
Afficher la régression avec MathPlotLib
L’erreur quadratique
La variance
Le risque

Initiation au clustering

Définition du clustering
Méthode k-means
Clustering hiérarchique

Initiation aux Règles d’association

Définition des règles d’association
Initiation à la méthode A priori
Évaluation des règles d’association candidates

Réduction dimensionnelle

Définition de la réduction dimensionnelle
Utilisation des méthodes de sélection de variables
Méthode ACP
Méthode ADL

Algorithmes Du Machine Learning

Initiation à l’ensemble learning
Apprentissage par renforcement
Régression linéaire simple et multiple
Régression polynomiale
Séries temporelles
Régression logistique et applications en scoring
Classification hiérarchique et non hiérarchique (K-Means)
Classification par arbres de décision ou approche Naïve Bayes
Ramdom Forest (développement des arbres de décision)
Gradiant Boosting
Réseaux de neurones
Machine à support de vecteurs
Deep Learning : exemples et raisons du succès actuel
Text Mining : analyse des corpus de données textuelles

Atelier cas pratique

Numpy Et Scipy

Tableaux et matrices
Algèbre linéaire avec Numpy
Numpy et MathPlotLib

Scikit learn

Machine Learning avec SKLearn
Régression linéaire
Création du modèle
Echantillonnage
Randomisation
Apprentissage avec fit
Prédiction du modèle
Metrics
Choix du modèle
PreProcessing et Pipeline
Régressions non polynomiales

Test et validation des algorithmes

Validation des algorithmes
Atelier cas pratique
Techniques de ré-échantillonnage en jeu d’apprentissage, de validation et de test
Mesures de performance des modèles prédictifs
Matrice de confusion, de coût et la courbe ROC et AUC

Atelier cas pratique

06- Deep Learning avec Python – Keras ou Tensor Flow

2 jours

Voir le programme

Initiation au deep learning

• Comprendre le succès du deep learning
• Appréhender le machine learning
• Suivre une expérience en data science
• Comprendre le perceptron
• Comprendre le réseau de neurones
• Concevoir un réseau de neurones
• Entraîner un réseau de neurones
• Suivre les itérations de l’algorithme de rétropropagation
• Découvrir le deep learning
• Aborder l’architecture des réseaux de neurones
• Installer Anaconda
• Installer TensorFlow 2
• Lien entre l’IA et le deep learning
• Initiation au deep learning
• Structure d’un modèle de deep learning
• Comprendre le fonctionnement d’un modèle de deep learning
• Deep learning avec python

Atelier cas pratique

Composants de base de TensorFlow

• Prendre en main TensorFlow et les structures de données
• Pourquoi Tensorflow 2.0 ?
• Installation of Tensorflow 2.0
• Utiliser Tensorflow 2.0 avec ANACONDA/Google Colab
• Tensorflow – les structures de données
• Calculs de base sur les tenseurs
• Indexage – Indexation
• Manipulation de formes
• Introduction aux variables
• Introduction aux fonctions

Atelier cas pratique

Utiliser Functional API et Subclassing API

• Développer un modèle Functional API
• Développer un modèle Functional API avec plusieurs couches d’entrée
• Effectuer l’apprentissage d’un modèle Functional API avec plusieurs couches d’entrée
• Développer un modèle Functional API avec plusieurs couches de sortie
• Utiliser Subclassing API

Contrôler et monitorer un réseau de neurones

• Enregistrer un modèle
• Charger un modèle à partir d’un fichier
• Utiliser les callbacks prédéfinis lors de l’entraînement d’un réseau de neurones
• Configurer le critère d’arrêt de l’entraînement d’un réseau de neurones
• Visualiser les résultats avec TensorBoard
• Lancer le serveur TensorBoard
• Aborder les hyperparamètres d’un réseau de neurones
• Développer un programme pour fixer les hyperparamètres
• Utiliser GridSearchCV pour tester plusieurs paramètres
• Entraîner plusieurs réseaux de neurones avec GridSearchCV
• Gérer les hyperparamètres des réseaux de neurones
• Éviter le Sur-apprentissage
• La méthode “Early Stopping”
• Early Stopping dans Keras
• Stabiliser l’apprentissage d’un modèle
• Sauvegarder et réutiliser le modèle entraîné

Atelier cas pratique

Aborder CNN et le transfer learning

• Comprendre les CNN
• Éviter le surapprentissage avec le dropout
• Entraîner avec un CNN
• Réutiliser un réseau de neurones
• Implémenter le transfer learning
• Prédire avec le transfer learning
• Conclure sur TensorFlow
• Réseau à convolution CNN
• Comprendre l’architecture d’un réseau à convolution
• A quoi sert la convolution ?
• Méthode de sous échantillonnage : le Max-Pooling
• Les étapes de base pour créer le modèle CNN
• Application de CNN sur le jeu de données MNIST
• Comprendre l’apprentissage d’un réseau de convolutio

Atelier cas pratique

_________________________

Introduction au Deep Learning

IA et deep learning
Architecture du deep learning
Fonctionnement d’un modèle de deep learning
Architecture d’un réseau de neurones
Construction d’un réseau de neurones
Apprentissage du réseau de neurones
Concepts de Keras
Deep learning avec Keras

Machine Learning et Deep Learning

Apprentissage automatique
Importation des données
Préparation des données
Stabilisation de l’apprentissage d’un modèle avec Keras
Sauvegarde et réutilisation d’un réseau avec Keras
Sauvegarde d’un réseau

Performance des algorithmes

Paramètres de l’apprentissage
Amélioration de l’apprentissage avec Keras
Stratégie d’amélioration
Accélération des calculs avec le cloud computing et le GPU
Accélération des calculs avec le cloud computing et le TPU

Atelier cas pratique

Mettre en œuvre Sequential API de TensorFlow.Keras

• Créer un réseau de neurones
• Créer un réseau de neurones de type MLP
• Accéder aux informations des couches d’un réseau de neurones
• Initialiser les poids et les biais d’un réseau de neurones
• Compiler et entraîner un réseau de neurones
• Comprendre les données de validation
• Traiter les données déséquilibrées
• Analyser les résultats
• Prédire avec un réseau de neurones multiclasse
• Charger les données pour une régression
• Réaliser un réseau de neurones pour une régression linéaire
• Découvrir le Deep learning avec tf.Keras
• Régression linéaire avec tf.keras
• Régression linéaire avec tf.keras
• Régression non linéaire avec tf.keras
• Un exercice simple de classification
• Reconnaissance de l’écriture manuscrite au moyen du MLP
• Reconnaissance de l’écriture manuscrite au moyen du MLP
• Stabiliser l’apprentissage d’un modèle avec tf.Keras
• Classification des images de vêtements

Analyse de textes avec Keras

Word embedding
Application du deep learning sur les textes
Préparation des documents avec Keras
Écriture d’un modèle de word embedding avec Keras
Classification des documents et interprétation des résultats
Amélioration d’un modèle d’analyse de textes avec Keras

Reconnaissance des images avec Keras

Définition de la convolution
Application de la convolution sur des images
Application du deep learning sur des images
Fonctionnement du pooling
Architecture d’un réseau à convolution
Jeu de données d’images
Préparation des images pour l’analyse
Découverte de l’OCR
Reconnaissance des images
Augmentation des données
Préparation des données pour réutiliser les meilleurs modèles de Keras
Réutilisation des meilleurs modèles existants avec Kera

Atelier cas pratique

07- ElasticSearch

2 jours

Voir le programme

Généralités sur les moteur de recherches

Présentation d’ElasticSearch

Installation et configuration

Installation
Configuration
Vue générale de l’API REST
Première indexation
Première recherche
Installation depuis les RPM
Utilisation de l’interface X-Pack monitoring
Premiers pas dans la console Sense
Etude du fichier : elasticsearch.yml.

Indexation de documents

Conception de l’index et de ses documents
Indexer ou supprimer des documents avec l’API Rest
Indexation en masse
Version et gestion optimiste de la concurrence
Présentation du stockage Lucene et refresh
Autres fonctionnalités (routing, consistency, document enfant, …)

Mapping

Définition et rôle du mapping
Types de champs
Champs prédéfinis
Méta données d’un Index

Format des données

Json
Notions de types et de mapping
Mise à jour des types ou re-indexation

Analyse et extraction de texte

La base de l’extraction et analyse de texte
Configuration et utilisation des Analyzers prédéfinis ou customisés
API de vérification de l’analyse de texte

Recherche de documents

Rechercher des documents avec l’API Rest
Gestion des résultats
Les requêtes de recherche
Requêtes vs filtres
Avantages des filtres

Kibana

Présentation par les API d’administration et de supervision
Objectifs
Collecte de données
Logs…
Stockage dans ElasticSearch et mise à disposition dans une interface

Web de graphiques

Démonstrations

Atelier cas pratique

Clustering

Définitions
Cluster
Noeud
Sharding
Nature distribuée d’ElasticSearch
Présentation des fonctionnalités
Stockage distribué
Calculs distribués avec ElasticSearch
Tolérance aux pannes

Fonctionnement

Notion de noeud maître
Stockage des documents
Shard primaire et réplicat
Routage interne des requêtes

Gestion du cluster

Outils d’interrogation
/_cluster/health
Création d’un index
Définition des espaces de stockage (shard)
Allocation à un noeud
Configuration de nouveaux noeuds
Tolérance aux pannes matérielles et répartition du stockage
Gestion des pannes
Fonctionnement en cas de perte d’un noeud
Election d’un nouveau noeud maître si nécessaire
Déclaration de nouveaux shards primaires

Mise en oeuvre X-Pack Security

Présentation des apports de X-Pack Security
Authentification
Gestion des accès aux données (rôles)
Filtrage par adresse IP
Cryptage des données
Contrôle des données
Audit d’activité

Exploitation

Gestion des logs
ES_HOME/logs
Paramétrage de différents niveaux de logs
INFO
DEBUG
TRACE
Suivi des performances
Sauvegardes avec l’API Snapshot

Atelier cas pratique

08- Visualisation de données avec Excel / Power BI / Tableau

2 jours

Voir le programme

EXCEL :

Section 1: Importation et exportation de données (partie 1)

1. Importer dans Excel à partir d’un fichier

Importer des données à partir d’un classeur Excel
Obtenir des données à partir d’un fichier texte ou CSV
Importer des données depuis un fichier XML
Importer des données depuis un fichier JSON
Importer les données d’un dossier
Récupérer les données d’une bibliothèque SharePoint

2. Importer dans Excel à partir d’une base de données

Importer depuis une base de données SQL Server
Importer depuis une base de données Microsoft Access
Obtenir des données Analysis Services
Importer des données SQL Server Analysis Services
Importer des données depuis MySQL Server

3. Importer dans Excel à partir de Microsoft Azure

Importer des données depuis une base de données SQL Server
Importer des données depuis Azure SQL Data Warehouse et Azure
HDInsight
Importer des données depuis un stockage Blob Azure
Importer des données depuis un stockage Table Azure
Importer des données depuis Azure Data Lake Storage

4. Importer dans Excel à partir de services en ligne

Importer des données depuis une liste SharePoint Online
Importer des données depuis Microsoft Exchange Online
Importer des données depuis Dynamics 365
Importer des données depuis Facebook

5. Pdf

Découvrir Power Query
Importer dans Excel à partir d’un fichier
Importer dans Excel à partir d’une base de données
Importer dans Excel à partir de Microsoft Azure
Importer dans Excel à partir de service en ligne

Section 2: Importation et exportation de données (partie 2)

1. Importer dans Excel à partir d’autres sources

Importer des données depuis un tableau ou une plage
Importer des données à partir d’un site web
Importer des données depuis Microsoft Query
Importer des données depuis SharePoint Server
Importer des données à partir d’un flux OData
Importer des données à partir d’Active Directory
Importer des données à partir d’une requête vide

2. Aborder les fonctionnalités complémentaires

Fusionner des sources multiples
Ajouter des sources multiples
Gérer les paramètres des sources de données
Utiliser les options des requêtes
Actualiser les données importées

3. Exporter dans d’autres formats

Exporter un fichier au format texte
Exporter un fichier au format CSV
Exporter un fichier au format XML
Exporter un fichier vers une page web
Exporter un fichier comme classeur Excel
Exporter un fichier en tant que modèle Excel
Exporter un fichier aux formats SYLK et DIF
Exporter un fichier au format PDF
Exporter un tableau dans une liste SharePoint
Exporter un tableau comme diagramme croisé dynamique
Visio
Découvrir les fonctions Exporter et Publier de Microsoft Excel

4. Pdf

Importer dans Excel à partir d’autres sources
Aborder les fonctionnalité complémentaires
Exporter dans d’autres formats

Section 3: Analyse de données avec Power Pivot (partie 1)

1. Power Pivot

Activer Power Pivot
Comprendre l’intérêt du data storytelling
Connaître les avantages et les inconvénients de Power Pivot
Aborder les différences entre Power Pivot et Power BI

2. Exploiter les sources de données

Découvrir l’interface de Power Pivot
Importer des données depuis un fichier Excel
Copier-coller les données
Récupérer des données externes
Importer les données d’un autre fichier Excel
Transférer les données d’un fichier CSV
Collecter les données d’un flux OData
Importer des données avec Power Query

3. Manipuler Power Pivot

Aborder les feuilles de données
Utiliser les options de colonnes de données
Mettre en forme et filtrer des données
Trouver et modifier les métadonnées
Créer et manipuler les perspectives
Tirer parti des colonnes calculées
Exploiter les mesures
Connaître les propriétés de la création de rapports
Employer les synonymes

4. Lecture Pdf

Découvrir Power Pivot
Exploiter les sources de données
Manipuler Power Pivot

Section 4: Analyse de données avec Power Pivot (partie 2)

1. Mettre en place les relations

Découvrir la vue diagramme et les relations entre tables
Comprendre la cardinalité de la relation
Assimiler le sens de filtrage de la relation
Utiliser une table de date

2. Exploiter les indicateurs clés de performance (KPI)

Mettre en place un KPI
Créer un indicateur sur une mesure

3. Établir des hiérarchies

Découvrir la hiérarchie
Modifier les hiérarchies automatiques
Créer une hiérarchie

4. Aborder les tableaux croisés dynamiques

Générer un tableau croisé dynamique
Manipuler les jeux de lignes ou de colonnes
Convertir un tableau croisé dynamique en formules
Partager un tableau croisé dynamique

5. Lecture Pdf

Mettre en place les relations
Exploiter les indicateurs clés de performance (KPI)
Établir des hiérarchies
Aborder les tableaux croisés dynamiques
Section 5: Analyse de données avec Power Query

1. Découvrir Power Query

Définir les objectifs de la formation
Comprendre le complément Power Query pour Excel
Comprendre les ETL et leur utilité
Évaluer les avantages et les limites de l’éditeur de requête
Comparer avec Power BI pour Desktop

2. Transformer ses données

Gérer les erreurs de données
Renommer les colonnes
Définir les types de données
Filtrer les données
Traiter les doublons et les valeurs NULL
Fractionner ou assembler des colonnes
Formater les contenus des colonnes
Transposer une table de données
Chercher et remplacer des valeurs dans une colonne
Regrouper les données
Ajouter des colonnes personnalisées

3. Aller plus loin avec les transformations de données

Combiner des requêtes
Lier les tables et les requêtes

4. Pdf

Mettre en place les relations
Exploiter les indicateurs clés de performance (KPI)
Établir des hiérarchies
Aborder les tableaux croisés dynamiques

TABLEAU :

Introduction à la visualisation avec Tableau

Comprendre les besoins auxquels répond Tableau
Comprendre l’architecture générale
Aborder les prérequis
Découvrir le cycle de travail
Installation de tableau
Parcourir les fichiers source

Connexion à une source et importation des données

Ouvrir Tableau
Se connecter à un fichier Excel
Vérifier les données
Filtrer les chaînes de caractères
Filtrer les données numériques
Filtrer les données de type date
Comprendre la notion de jointure
Ajouter une deuxième feuille de calcul
Ajouter un autre fichier
Exécuter la requête

Création d’un visuel et préparation des données

Explorer la structure d’ensemble d’un fichier Tableau
Prendre en main l’interface de création des visualisations
Créer un histogramme
Utiliser l’étagère Repère pour améliorer le graphique
Utiliser l’étagère Repère pour améliorer l’infobulle
Définir le format d’affichage par défaut pour les mesures
Créer une hiérarchie pour explorer les données
Regrouper les valeurs d’une dimension
Comprendre l’agrégation des mesures
Actualiser les données de l’extrait

Aller plus loin avec les graphiques

Travailler avec les dates
Découvrir la variété des graphiques
Filtrer un graphique
Créer une matrice de graphiques
Créer un graphique en miroir
Créer un graphique à deux axes
Ajouter une ligne de référence
Créer un graphique en secteur

Travailler avec les tableaux

Créer un tableau simple
Créer un tableau simple multidimensionnel
Ajouter une mise en forme conditionnelle
Créer un tableau croisé
Créer un tableau multimesure

Création des formules simples

S’initier aux formules dans Tableau
Créer un champ calculé simple
Créer un champ calculé conditionnel
Créer une mesure discrète
Créer et afficher un paramètre
Utiliser un paramètre dans une formule

Création d’un tableau de bord

Découvrir l’interface d’assemblage d’un tableau de bord
Démarrer et assembler un tableau de bord
Assembler un tableau de bord à l’aide de différents éléments
Paramétrer les interactivités du tableau de bord

Atelier pratique

POWER BI :

Introduction à Power Bi

Présentation De Power BI
Caractéristiques de Power Bi
Composants de Power BI
Cycle de travail dans Power BI Desktop
Configuration des options de Power BI

Création de requêtes basées sur Excel

Importer un fichier Excel composé d’une feuille
Importer un fichier Excel composé de plusieurs feuilles
Importer un TCD Excel
Atelier pratique : Création de requêtes basées sur Excel

Préparation des données

Choix des colonnes
Nettoyage des données
Conversion des données
Transformation des données
Ajout des colonnes selon 2 méthodes
Fusion des requêtes
Combinaison des requêtes
Atelier pratique : Préparation des données

Création de requêtes sur une base de données

Appréhender l’import et la requête directe
Importer les tables
Atelier pratique : Création de requêtes sur une base de données

Création de requêtes sur d’autres sources

Importer plusieurs fichiers Excel
Créer une requête sur un fichier TXT ou CSV
Effectuer une requête à partir du web
Requêter à partir d’un fichier PDF
Atelier pratique : Création de requêtes sur d’autres sources

Organisation des tables et des relations

Utiliser la vue Modèle
Mettre en place les relations
Connaître les bonnes pratiques d’organisation des tables
Formater et organiser les données
Créer une mesure
Atelier pratique : Organisation des tables et des relations

Création de la table de temps

Nécessité d’une table de temps
Créer la table à l’aide d’un script DAX
Associer la table au modèle et ajuster les champs
Déterminer le nombre de tables du temps
Atelier pratique : Création de la table de temps

Mise en place des principaux graphiques et tableaux

Aborder les règles d’ergonomie et de composition d’un rapport
Découvrir l’interface de Power BI
Choisir judicieusement les couleurs
Créer et configurer un histogramme
Créer et configurer un graphique en courbe
Créer un graphique en secteur
Créer une carte
Créer une carte à plusieurs lignes
Ajouter une zone de texte et une image pour le titre
Créer une carte géographique
Atelier pratique : Mise en place des principaux graphiques et les tableaux

Filtrage des données

Créer un segment
Synchroniser les segments entre plusieurs pages
Utiliser le volet Filtre
Atelier pratique : Filtrage des données

Utilisation des tableaux

Créer un tableau simple
Créer un tableau croisé
Dupliquer la mise en forme
Atelier pratique : Utilisation des tableaux

Exportation des données

Récupérer les données au format Excel/CSV et exporter au format PDF
Introduction à Power BI Service
Atelier pratique : Exportation des données

09- RPA (Robotic Process Automation) avec Python

2 jours

Voir le programme

Section 1. Tout automatiser avec Python

Automatiser tout avec Python
Course prerequisites
Découvrir le RPA.
Les opportunités pour l’entreprise.
Les bénéfices de la RPA
Quel outil faut-il utiliser ?
Automatisation avec Python
Préparation de l’environnement de travail
TP
Quiz

Section 2. Automatiser les interactions avec les fichiers, les dossiers et les terminaux

Comment lire les fichiers
Comment écrire des fichiers
Exécuter les commandes du terminal
Organiser les répertoires
Le répertoire de travail actuel
Chemins absolus et chemins relatifs
Créer de nouveaux dossiers
Le processus de lecture/écriture de fichiers
Copier, déplacer, renommer et supprimer des fichiers et des dossiers
Organiser les Dossiers
Quiz

Section 3 : Automatiser l’accès aux données web – niveau de base

La valeur du web scrapping
Création et analyse d’une requête
Explorer la structure HTML
Comment isoler les données
Préparation au grattage paginé
Gratter le contenu paginé
Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping
Mini-projet Web Scraping avec BeautifulSoup
TP
Quiz

Section 4. Automatisation de l’accès aux données Web – Niveau intermédiaire

Automatiser la navigation web
Interaction du base du navigateur
Gestion du glisser -déposer
Fonction d’attente du selenium
Fonction d’attente explicite de selenium
Utiliser les fichiers d’exercice
Comprendre le NLP
Découvrir les domaines et les exemples d’application du NLP
Installer Anaconda
Aborder l’environnement Jupyter
Comprendre le pipeline de modélisation NLP
TP
Quiz

Section 5. Automatisation de l’accès aux données Web – Niveau avancé

Comprendre les requêtes API
Créer des requêtes d’API
Analyse via JSON
Utilisation des clés API
Lier les appels d’API
Prochaines étapes
Comprendre les requêtes API
Créer des requêtes d’API
Analyser le JSON
Utiliser des clés d’API
Lier les appels d’API
Application – Mini-Projet
TP
Quiz

10- NLP – Natural Language Processing

2 jours

Voir le programme

Section 1. Découvrir le NLP

1. Traitement du langage naturel avec Python
2. Connaître les prérequis théoriques et techniques
3. Utiliser les fichiers d’exercice
4. Comprendre le NLP
5. Découvrir les domaines et les exemples d’application du NLP
6. Installer Anaconda
7. Aborder l’environnement Jupyter
8. Comprendre le pipeline de modélisation NLP
9. Support pdf
– Utiliser les fichiers d’exercice
– Comprendre le NLP
– Découvrir les domaines et les exemples d’application du NLP
– Installer Anaconda
– Aborder l’environnement Jupyter
– Comprendre le pipeline de modélisation NLP
10. TP
11. Quiz

Section 2. Traiter un texte avec Python

1. Stocker un texte brut dans une structure de données Python
2. Utiliser Pandas pour lire les données
3. Comprendre les expressions régulières
4. Utiliser les expressions régulières avec le module Re de Python
5. Étudier les fonctions les plus populaires du module Re
6. Support pdf
– Stocker un texte brut dans une structure de données Python
– Utiliser Pandas pour lire les données
– Comprendre les expressions régulières
– Utiliser les expressions régulières avec le module Re de Python
– Étudier les fonctions les plus populaires du module Re
7. TP
8. Quiz

Section 3. Préparer les données

1. Aborder les étapes de préparation des données
2. Réaliser un exemple de nettoyage de données
3. Supprimer les stopwords
4. Réaliser le stemming avec NLTK
5. Pratiquer la lemmatization avec NLTK
6. Comparer le stemming et la lemmatization
7. Support pdf
– Aborder les étapes de préparation des données
– Supprimer les caractères de ponctuation
– Supprimer les stopwords
– Réaliser le stemming avec NLTK
– Réaliser la lemmatization avec NLTK
– Comparer le stemming et la lemmatization
9. TP
10. Quiz

Section 4. Transformer un texte en chiffres

1. Comprendre la vectorisation avec CountVectorizer
2. Utiliser CountVectorizer
3. Effectuer une vectorisation contextuelle avec N-Grams
4. Étudier TF-IDF
5. Utiliser TF-IDF
6. Appréhender le feature engineering
7. Ajouter des features aux données
8. Analyser les features
9. Support pdf
– Comprendre la vectorisation
– Comprendre la vectorisation avec CountVectorizer
– Utiliser CountVectorizer
– Effectuer une vectorisation contextuelle avec N-Grams
– Étudier TF-IDF
– Utiliser TF-IDF
– Appréhender le feature engineering
10. TP
11. Quiz

Section 5. Comprendre l’expérience machine learning – NLP

1. Apprendre la méthode K-fold
2. Comprendre la matrice de confusion d’un modèle de classification
3. Comprendre les mesures de performance d’un modèle NLP
4. Aborder l’overfitting (le surapprentissage)
6. Support pdf
– Apprendre la méthode K-fold
– La validation croisée avec Scikit-learn
– Matrice de Confusion d’un modèle de classification
– Les mesures de performance d’un modèle NLP
7. Quiz

Section 6. Réaliser un modèle de classification avec SVM

1. Modéliser en machine learning
2. Aborder l’algorithme Support Vector Machine
3. Utiliser le SVM avec scikit-learn et CountVectorizer
4. Tester le modèle de classification SVM
5. Mesurer les performances du modèle de classification SVM
6. Utiliser le SVM avec la cross-validation
7. Utiliser le SVM avec TF-IDF
7. Support pdf
– Machine Learning
– Aborder l’algorithme Support Vector Machine
– Utiliser le SVM avec scikit-learn
– Tester le modèle de classification
– Utiliser le SVM avec la cross-validation
8. TP
9. Quiz

Section 7. Réaliser un modèle de classification avec le Random forest

1. Aborder l’algorithme Random forest
2. Utiliser Random forest pour construire un modèle de classification
3. Mesurer les performances d’un modèle de classification Random forest
4. Utiliser Random forest avec K-fold
5. Support pdf
– Aborder l’algorithme Random forest
– Utiliser Random forest pour construire un modèle de classification
– Mesurer les performances d’un modèle de classification Random forest
– Utiliser Random forest avec K-fold
6. TP
7. Quiz

Section 8. Perfectionner un modèle avec l’hyperparamètre

1. Programmer un hyperparamètre avec le modèle SVM
2. Programmer un hyperparamètre avec Random forest
3. Évaluer les résultats d’un hyperparamètre
4. Tester GridSearchCV avec un SVM
5. Tester GridSearchCV avec Random forest
6. Détecter les features les plus importantes avec le Random forest
7. Homogénéiser les données avec TF-IDF
8. Tester Random forest sur des données homogènes
9. Sélectionner un modèle
10. Conclure sur le traitement du NLP avec Python
15. Support pdf
₋ Programmer un hyperparamètre avec le modèle SVM
₋ Programmer un hyperparamètre avec Random forest
₋ Évaluer les résultats d’un hyperparamètre
₋ Tester GridSearchCV avec un SVM
₋ Tester GridSearchCV avec Random forest
16. TP
17. Quiz

Section 9. Examen final

1. Synthèse du cours
2. TP Général
3. Examen final

Informations pratiques

Nombre de postes à pourvoir

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Quels sont les chiffres associés aux postes et à la formation ?

Salaire pour un junior en moyenne

Salaire pour un senior en moyenne

Recrutements jugés difficiles

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Une question ? Contactez-nous !

La formation « Data science et IA » va vous ouvrir un large panel de possibilités et vous permettre d’exercer les métiers suivants :

Comment suivre une formation chez nous ?

Financez votre formation !

Une question ? Contactez-nous !

Financement CPF

CPF « Compte Personnel de Formation »

CPF de transition

CPF de transition pour une Reconversion Professionnelle.

PDC

Plan de Développement de Compétences de l’entreprise.

VAE

VAE : Validation des Acquis de l’Expérience.

Contrat PRO

Contrat d’alternance ou de Professionnalisation.



AFPR

Action de Formation Préalable à l’Embauche.

AIF

AIF : Aide Individuelle à la Formation par Pôle Emploi.



POEc

Préparation Opérationnelle Emploi Collective.



POEi

Préparation Opérationnelle Emploi Individuelle.

Financez votre formation !

Découvrez nos solutions

Financement CPF – CPF « Compte Personnel de Formation »

CPF de transition – CPF de transition pour une Reconversion Professionnelle

PDC- Plan de Développement de Compétences de l’entreprise.

VAE – Validation des Acquis de l’Expérience

Contrat PRO – Contrat d’alternance ou de Professionnalisation

AFPR – Action de Formation Préalable à l’Embauche

AIF – Aide Individuelle à la Formation par Pôle Emploi

POEc – Préparation Opérationnelle Emploi Collective

POEi – Préparation Opérationnelle Emploi Individuelle

Contactez-nous

Vous souhaitez vous inscrire ? en savoir plus ? poser une question ?

Formation Data analyst avec Python et R

par adrien@formatome.fr | Août 24, 2023

Devenez Data analyst avec Python et R



16 jours



100% finançable



Formation RNCP

Candidater en ligne

Synthèse

Déroulé

Informations pratiques

Suivre une formation

Accueil > Big Data

Jours de formation

Solutions de financement

Une formation pour qui ?

La formation Data scientist avec Python et R s’adresse aux :

Directeurs/Chefs de projet ou Responsable métier
Responsable système d’informations
Développeurs informatiques
Consultants en business intelligence
Ingénieurs d’étude, de recherche et développement, Architecte système et logiciel
Consultants techniques, Consultants business
Statisticiens et Mathématiciens

Outre la maîtrise des enjeux et des perspectives, la formation Data Analyst avec Python et R se distingue par la maîtrise de multi-compétences en Gestion de donnés massives.

Maîtriser le concept Big Data pour la recherche, l’analyse, le partage et le stockage de données massives.

Explorer le potentiel BIG DATA au service de tous les métiers (Marketing, Contrôle de Gestion, Ressources humaines, Renseignement, Santé, Banque, Assurance…)

Pré-requis

Avoir suivi la formation Développeur Java J2EE ou Microsoft.NET serait un plus
Avoir une expérience des bases de données relationnelles
Posséder des connaissances approfondies en statistique est un plus
Etre capable de travailler en équipe avec un sens d’écoute et d’analyse
Avoir des connaissances du langage R est un plus

Demandez la documentation complète

A l’issue du module Data analyst avec Python et R, le certifié sera en mesure de :

Identifier les besoins et la problématique des directions métiers
Maîtriser les technologies spécifiques au Big Data comme Hadoop, Pig, Hive, Spark, Yarn, Kafka, ELK, ou Cloudera
Mettre en place un Data Lake
Maîtriser les bases de données NoSQL : MongoDB, Cassandra, Neo4j, hBase, Redis…
Maîtriser les technologies spécifiques à la science, à l’analyse ainsi qu’à la visualisation de données : Statistiques, Machine Learning, Deep Learning, langage R, Python, Tableau, PowerBI, R Shiny…
Maîtriser le déploiement des solutions Big Data sur le Cloud : AWS, GCP, Microsoft Azure…
Maîtriser la science de données et l’IA « Intelligence Artificielle » : Sprak Mlib, Scala, PySpark, RPA « Robotic Process Automation »
Construire des modèles prédictifs pour répondre à la problématique
Construire des algorithmes pour améliorer les résultats de recherche et de ciblage
Trouver et rassembler l’ensemble des sources de données structurées ou non structurées nécessaires à l’analyse pertinente
Identifier les opportunités à travers l’open data et les cas d’usage métiers
Concevoir un projet Big Data (acquisition et stockage des données, traitement distribué, analyse de données à large échelle)
Maîtriser les technologies par des études de cas concrètes
Maîtriser les enjeux juridiques et liés à la protection des données

Programme détaillé

Big Data: Enjeux et perspectives

1 jour

Voir le programme

Big Data : Introduction

Introduction
Types du big data
Du SQL au NoSQL
Caractéristiques techniques des 5V
Technologies Big Data
Languages Big Data
Acteurs principaux du Big Data
Différents métiers du Big Data
Collecte et traitement des données structurées, semi-structurées et non-structurées
Stockage des données
Diffusion des données
Traitements en temps réel ou différé: Kafka
Architectures réparties : Hadoop
Architecture Cloud / Scalabilité
Impact de l’usage du Big Data
Création de la valeur à partir des données
Exemple d’architecture Big Data

Enjeux du Big Data

Enjeux du big data en france
ROI et Big Data

Marché Du Big Data

Marché de la data au niveau mondial
Évolutions et les acteurs de la chaine de l’offre Big Data
Enjeux stratégiques (création de la valeur)
Opportunités pour les entreprises de services informatiques

Impacts du Big Data sur l’entreprise

Transformation de la relation client
Transformation de l’organisation de l’entreprise
Transformation du produit final
Chaîne des valeurs, développement des nouvelles activités
Productivité et optimisation des dépenses
Apparition des nouveaux rôles/métiers (data scientists et CDO)
Compétences nouvelles à acquérir

Solutions technologiques du Big Data

L’écosystème de la plateforme Hadoop : Pig, Flume, Zookeeper, HBase, Oozie, YARN,
MapReduce…
Les modes de stockage (NoSQL, HDFS) / principes de fonctionnement de MapReduce

Méthodologie de gestion d’un projet Big Data

Mise en place d’un projet Big Data
Méthodologies recommandées pour lancer un projet Big Data
Calcul du retour sur investissement d’un projet Big Data

Atelier pratique

Introduction à l’Architecture Big Data

1 jour

Voir le programme

Introduction à l’architecture Big Data

Définition du Big Data
Comprendre le volume
Besoin Big Data
Introduction à l’architecture Big Data
Distribution des données
Rôles d’un projet Big Data
Atelier pratique

Ecosystème Hadoop

Technologies et Outils Big Data
Découvrir l’écosystème Hadoop
Les distributions Hadoop
Atelier pratique

Mode de stockage HDFS et Base NoSql

Comprendre HDFS
HadoopFS
Caractéristiques de HDFS
Les modes de stockage HDFS
Services HDFS
Opération HDFS
Administration d’un cluster HDFS
Comprendre NoSQL
Les modes de stockage NoSQL
Choix du type de la Base de donnée NoSQL
Atelier pratique

Principes du Traitement MapReduce

Principes de fonctionnement de MapReduce
Fonction map()
Fonction reduce()
Conception d’un MapReduce
Atelier pratique

Architecture applicative

Introduction
Différentes étapes de gestion des données (Cycle de vie des données dans le Big Data)
Définition du processus d’ingestion des données
Outil disponibles sur le marché
Modèle d’architecture applicative d’une solution Big Data
Atelier pratique

Architecture technique

Introduction à l’architecture technique
Traitement de données
Qualité des données (Data Quality)
Architectures réparties (Clustering Hadoop)
Atelier pratique

Modèles d’Architectures Big Data

Introduction
Architecture Datalake
Architecture Lambda
Architecture Kappa
Architecture pour l’internet des objets (IoT)
Atelier pratique

Critères de choix d’une architecture Big Data

Introduction
Critères de choix
Le type de traitement
L’utilisateur final des données
La source des données (où les données sont générées)
Format du contenu
Types des données à traiter
Fréquence et taille des données
Méthodologie de traitement des données
Le choix du matériel
Récapitulatif des critères du choix d’une architecture big data
Atelier pratique

NoSQL

1 jour

Voir le programme

Introduction aux Bases de données NoSQL

Histoire de NoSQL
Comprendre le modèle NoSQL
NoSQL Vs BDR
Propriétés ACID
Propriétés BASE
Théorème de Brewer ou de CAP
Caractéristiques NoSQL

Atelier pratique

Principaux modèles de BD NoSQL

Familles des Bases de Données NoSQL
Modèle NoSQL « Clé-Valeur »
Modèle NoSQL orienté Colonne
Modèle NoSQL orienté Document
Modèle NoSQL orienté Graphe
Bases de données NoSQL
Comparatif des bases de données NoSQL
Récapitulatif des types de schéma de données NoSQL
HBase
MongoDB
Cassandra
Redis
Couchbase
Elasticsearch
Riak

Atelier pratique

Choix d’une Base de données NoSql

Choisir une base de données NoSQL
Classification des bases de données les plus utilisées

Atelier pratique

Apache Hadoop

4 jours

Voir le programme

Section 1: Introduction à l’écosystème Hadoop

Aborder cette formation
Découvrir NoSQL
Définir le Big Data
Comprendre l’histoire d’Hadoop
Parcourir l’écosystème Hadoop
Différencier les distributions Hadoop
Comprendre le NoSQL
Définition du Big Data
Architecture de Hadoop
L’Écosystème de Hadoop
Rôle des différents composants de l’écosystème Hadoop
Rôle des collecteurs de données
Distributions d’Hadoop

Section 2: Installation de l’environnement Hadoop

Installation de l’environnement Hadoop VM Ubuntu
Installation de l’environnement Hadoop sur Windows
Différencier les distributions Hadoop
Découvrir Cloudera Hadoop
Démarrer une QuickStart VM
Travaux pratique: Installation Hadoop

Section 3: HDFS – La couche de stockage

Comprendre le HDFS
Découvrir HadoopFS
Assimiler les principes du HDFS
Appréhender les services HDFS
Comprendre les opérations HDFS
Configuration de HDFS
Demarrage de HDFS
Administrer le cluster HDFS
Découvrir la gestion des services HDFS
0Manipuler les fichiers en ligne de commande
Exécuter des opérations en Java
Utiliser les InputStream Java
Accéder à HDFS avec WebHDFS
Caractéristiques de HDFS
Architecture de HDFS
Rôle de HDFS
Opérations HDFS
Listing des fichiers dans HDFS
Insertion des données dans HDFS
Extraction des données du HDFS
Arrêt du HDFS

Section 4: Fonctionnement de MapReduce

Appréhender les principes de base
Découvrir la fonction map()
Utiliser la fonction reduce()
Concevoir un MapReduce
Développer le mapper
Développer le reducer
Créer un jeu de données
Créer le driver
Lancer un MapReduce en Java
Suivre l’évolution du MapReduce
Développer un MapReduce en PHP
Lancer des MapReduce avec Hadoop Streaming
Principes de base de MapReduce
Architecture MapReduce
Fonction map()
Fonction reduce()
Conception d’un MapReduce
Développer le mapper
Développer le reducer
Création d’un jeu de données
Création d’un driver
Lancer un MapReduce en Java
Suivi de l’évolution du MapReduce
Développement d’un MapReduce en PHP
Lancement des MapReduce avec Hadoop Streaming
TP : Fonctionnement de MapReduce

Section 5: Base de données NoSQL HBase

Identifier les cas d’utilisation de HBase
Comprendre le modèle Hbase
Administrer HBase
Appréhender les opérations HBase
Gérer les services avec des interfaces web
Lancer des commandes HBase dans le terminal
Filtrer les résultats d’un scan
Utiliser HBase en Java
Utiliser HBase dans les MapReduce
Définition de Hbase
Hbase avec Hadoop
Cas d’utilisation de HBase
Comprendre le modèle Hbase
Installation de Hbase
Architecture
Composants Hbase (Region, Region Server, Region Split)
Lecture et écriture dans Hbase
API Shell
API Java
TP : Base de données NoSQL HBase

Section 6: Apache Oozie -Ordonnanceur de WorkFlow

Définition de Oozie
Caractéristiques Oozie
Fonctionnement de Oozie
Actions Oozie
Oozie Job
Oozie workflow
Coordinateur Oozie
Paramètre Oozie
Monitoring Oozie
Packaging et déploiement d’une application de workflow Oozie

Section 7: Collecte de données avec Apache Sqoop

Introduire scoop anglais
Importer les données avec scoop
Définition de Sqoop
Cible des imports dans le cluster
Architecture de Sqoop
Fonctionnement de Sqoop
Exemple d’import vers HDFS
Exemples d’import vers Hive
Exemple d‘exports

Section 8 : travaux pratiques: Développement d’une application Big Data avec Hadoop

Mission 1: Conception de l’application
Découper l’application
Exploiter les données
Concevoir la base de données HBase
Parser le fichier d’entrée dans un mapper
Écrire dans HBase avec un reducer
Mettre en place des clés composites
Utiliser les clés composites
Lancer un modèle MapReduce d’import

Mission 2: Développement des modèles MapReduce

Lire les données de HBase dans un mapper
Agréger les données dans un reducer
Suivre les modèles MapReduce
Déboguer les modèles MapReduce
Explorer les sources d’Hadoop
Réaliser des jointures de données
Résoudre le problème du secondary sort
Optimiser ses modèles MapReduce

Mission 3: Développement des modèles MapReduce

Mettre en place un workflow Oozie
Lancer un workflow Oozie
Filtrer les données de HBase
Exporter dans MySQL grâce à Sqoop
Lancer son workflow avec l’API HTTP REST
Coupler l’application avec une interface web

Fondamentaux des statistiques

1 jour

Voir le programme

Introduction aux statistiques

Définition de la statistiques
Enjeux des statistiques
Histoire de la statistique

Démarches scientifique

Méthode scientifique
stratégie statistiques
Pièges de la statistique
Assimiler les normes statistiques ISO
Démarche de l’analyse statistique
Les biais cognitifs

Variables, indicateurs et les types de statistiques

Les types de variables
Les ratios à bon escient
Les types de statistiques
Les sous-familles de statistiques
Les indicateurs statistiques
La distribution statistique

Estimations et Tests

L’estimation statistique
Définition du but des tests
Variantes d’un test statistique
Importance des erreurs
Importance de la p-value
Intervalles statistiques
L’échantillonnage

Atelier pratique

Analyse de données et méthodes statistiques

1 jour

Voir le programme

Introduction à l’analyse de données

Introduction sur l’analyse de données
Métier de data analyst
Rôle et les compétences d’un data analyst

Exploration de la données

Identifier les données
Comprendre les champs et types de données
Retrouver des données
Syntaxe

Préparation et interprétation des données

Interpréter des données
Retrouver des données
Définir les jointures
Comprendre les données et le flux de travail
Découvrir les données nettoyées

Analyse des données avec un Tableau croisé dynamique

Analyse bidimensionnelle: Découvrir les tableaux croisés dynamiques
Aller plus loin avec les TCD
Sélectionner et nommer les données
Fractionner un texte
Éliminer les doublons

Mener à bien un projet d’analyse de données

Définition des bonnes pratiques
Initiation à la gouvernance de données
Erreurs fréquentes
Création des modèles réutilisables
Filtrage avec les jeux de données

Règles métiers et de documentation dans un projet d’analyse de données

Définition des règles métiers
Création d’un dictionnaire de données
Création d’un fichier readme

Méthodes statistiques d’analyse de données

Partie univariée (moyenne, écart type, variance, boite à moustache, histogramme)
Partie multivariée (ACP,AFC,ACM)

Initiation au Machine Learning

Régression linéaire
Régression logistique
Arbres de classification et de régression
Méthode des k plus proches voisins(KNN)
Partitionnement en K-moyennes (K-Mean Clustering)

Visualisation des données

Créer les graphiques de base
Insérer un graphique Excel
Gérer les graphiques et les raccourcis par défaut

Atelier pratique

Statistiques avec R

2 jours

Voir le programme

Aborder les statistiques paramétriques dans R

Introduction au langage R
Exploiter les fichiers source
Étudier les statistiques descriptives
Aller plus loin dans les statistiques descriptives
Connaître le kurtosis et le skewness
Générer et représenter une variable aléatoire
Réviser les variables aléatoires scolaires
Mettre des données sous forme de table de fréquence
Mettre des données sous forme de table de contingence
Calculer la matrice de corrélation et de covariance

Effectuer les tests d’adéquation et d’ajustement

Faire le test d’ajustement du khi-deux
Tester l’ajustement d’une loi de Poisson par le khi-deux
Réaliser un test de normalité à un échantillon de Kolmogorov-Smirnov
Réaliser un test de normalité de Ryan-Joiner
Faire un test de normalité d’Anderson-Darling

Effectuer des tests de position

Calculer la taille d’échantillon d’un test Z
Calculer la puissance d’un test
Vérifier l’intervalle de confiance de la moyenne d’un test Z
Calculer la taille d’un échantillon de test t de Student
Vérifier la puissance d’un test t de Student
Étudier la résolution d’un test t de Student
Vérifier l’intervalle de confiance de la moyenne d’un test t de Student
Produire un test t de Student homoscédastique ou hétéroscédastique
Faire un test t de Student hétéroscédastique
Faire le test de Poisson sur un échantillon
Appliquer le test de Poisson sur deux échantillons

Atelier pratique

Réaliser les tests de proportion

Calculer la taille d’un échantillon de test p
Créer un intervalle de confiance d’une proportion
Comparer les proportions sur une même population
Comparer les proportions sur deux échantillons indépendants

Produire des tests de dispersion

Faire un test de Fisher d’égalité de deux variances
Réaliser le test de Levene d’égalité de deux variances
Créer un test de Bartlett d’égalité de variances

Tester et mesurer dans des tableaux croisés

Réaliser un test d’indépendance du khi-deux d’une table de contingence
Appliquer le test exact de Fisher
Faire une mesure d’association V de Cramér
Réaliser le test de Mantel-Haenszel-Cochran

Tests de valeurs aberrantes

Test de Grubbs
Test de Dixon

Transformations de données non normales

Transformation de Box-Cox
Transformations de Johnson

Atelier pratique

Visualisation de données avec Power BI / R-Shiny

2 jours

Voir le programme

Introduction à Power BI

Présentation De Power BI
Caractéristiques de Power Bi
Composants de Power BI
Cycle de travail dans Power BI Desktop
Configuration des options de Power BI

Création de requêtes basées sur Excel

Importer un fichier Excel composé d’une feuille
Importer un fichier Excel composé de plusieurs feuilles
Importer un TCD Excel
Atelier pratique : Création de requêtes basées sur Excel

Préparation des données

Choix des colonnes
Nettoyage des données
Conversion des données
Transformation des données
Ajout des colonnes selon 2 méthodes
Fusion des requêtes
Combinaison des requêtes
Atelier pratique : Préparation des données

Création de requêtes sur une base de données

Appréhender l’import et la requête directe
Importer les tables
Atelier pratique : Création de requêtes sur une base de données

Création de requêtes sur d’autres sources

Importer plusieurs fichiers Excel
Créer une requête sur un fichier TXT ou CSV
Effectuer une requête à partir du web
Requêter à partir d’un fichier PDF
Atelier pratique : Création de requêtes sur d’autres sources

Organisation des tables et des relations

Utiliser la vue Modèle
Mettre en place les relations
Connaître les bonnes pratiques d’organisation des tables
Formater et organiser les données
Créer une mesure
Atelier pratique : Organisation des tables et des relations

Création de la table de temps

Nécessité d’une table de temps
Créer la table à l’aide d’un script DAX
Associer la table au modèle et ajuster les champs
Déterminer le nombre de tables du temps
Atelier pratique : Création de la table de temps

Mise en place des principaux graphiques et tableaux

Aborder les règles d’ergonomie et de composition d’un rapport
Découvrir l’interface de Power BI
Choisir judicieusement les couleurs
Créer et configurer un histogramme
Créer et configurer un graphique en courbe
Créer un graphique en secteur
Créer une carte
Créer une carte à plusieurs lignes
Ajouter une zone de texte et une image pour le titre
Créer une carte géographique
Atelier pratique : Mise en place des principaux graphiques et les tableaux

Filtrage des données

Créer un segment
Synchroniser les segments entre plusieurs pages
Utiliser le volet Filtre
Atelier pratique : Filtrage des données

Utilisation des tableaux

Créer un tableau simple
Créer un tableau croisé
Dupliquer la mise en forme
Atelier pratique : Utilisation des tableaux

Exportation des données

Récupérer les données au format Excel/CSV et exporter au format PDF
Introduction à Power BI Service
Atelier pratique : Exportation des données

__________________

Introduction à R Shiny

Définition de R-Shiny
Les applications de données
Créer des applications de données avec Shiny
Exécuter des applications Shiny sur votre propre machine
Quitter les applications Shiny sur votre ordinateur local
Déployer des applications sur shinyapps.io
Déployer des applications avec Shiny Server

Applications Shiny à fichier unique et fractionné

Applications de fichier unique (single) avec shinyApp
Applications de fichiers fractionnés (Split-file)
Fichier ui.R
Fichier server.R

Shiny Apps 101

Créer une application Shiny simple à partir de zéro
Comprendre input$var and output$plot
Fonctions de rendu et de sortie
Utilisation de l’argument session
Ne jamais dupliquer les entrées ou sorties

Tableaux de données en Shiny

Choisir une solution de table
Tables statiques avec renderTable
Tables statiques avec kableExtra
Tables interactives avec DT

Obtenir des données dans vos applications Shiny

Applications et données Shiny101
Inclure des fichiers de données dans une application Shiny
Shiny et les packages qui se connectent à l’API
Shiny et les Fichiers .httr-oauth
Variables d’environnement Shiny et R

Atelier cas pratique

Contrôles basés sur les données

Remplir les menus déroulants à partir des données
Choix d’étiquettes dans selectInput
Contrôles interdépendants pour filtrer les données
Contrôler les mises à jour des applications avec actionButton

Autoriser les utilisateurs à Uploader et télécharger des données

Autoriser les utilisateurs à télécharger des données à partir d’une application
Télécharger les données des tables DT
Autoriser les utilisateurs à Uploader des données dans une application
Utiliser rhandsontable pour collecter des données

Résolution de problèmes dans des applications Shiny

Résolution de problèmes dans les applications Shiny 101
Impression sur la console R dans les applications Shiny
Débogage des applications avec shinyjs :: runcodeUI
Utilisation de reactlog pour déboguer les applications Shiny

Rendre les applications Shiny ergonomique

Application de CSS personnalisé aux applications Shiny
Insertion des images dans des applications Shiny
Affichage des fileurs (spinners) de chargement dans les applications Shiny

Déploiement des applications Shiny

Où pouvez-vous déployer des applications Shiny?
Connecter RStudio à shinyapps.io
Gérer les applications Shiny avec rsconnect
Déploiement d’applications par programme

Atelier cas pratique

Informations pratiques

Nombre de postes à pourvoir

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Quels sont les chiffres associés aux postes et à la formation ?

Salaire pour un junior en moyenne

Salaire pour un senior en moyenne

Recrutements jugés difficiles

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Une question ? Contactez-nous !

Le module « Data analyst avec Python et R » va vous ouvrir un large panel de possibilités et vous permettre d’exercer les métiers suivants :

Comment suivre une formation chez nous ?

Financez votre formation !

Une question ? Contactez-nous !

Financement CPF

CPF « Compte Personnel de Formation »

CPF de transition

CPF de transition pour une Reconversion Professionnelle.

PDC

Plan de Développement de Compétences de l’entreprise.

VAE

VAE : Validation des Acquis de l’Expérience.

Contrat PRO

Contrat d’alternance ou de Professionnalisation.



AFPR

Action de Formation Préalable à l’Embauche.

AIF

AIF : Aide Individuelle à la Formation par Pôle Emploi.



POEc

Préparation Opérationnelle Emploi Collective.



POEi

Préparation Opérationnelle Emploi Individuelle.

Financez votre formation !

Découvrez nos solutions

Financement CPF – CPF « Compte Personnel de Formation »

CPF de transition – CPF de transition pour une Reconversion Professionnelle

PDC- Plan de Développement de Compétences de l’entreprise.

VAE – Validation des Acquis de l’Expérience

Contrat PRO – Contrat d’alternance ou de Professionnalisation

AFPR – Action de Formation Préalable à l’Embauche

AIF – Aide Individuelle à la Formation par Pôle Emploi

POEc – Préparation Opérationnelle Emploi Collective

POEi – Préparation Opérationnelle Emploi Individuelle

Contactez-nous

Vous souhaitez vous inscrire ? en savoir plus ? poser une question ?

Formation Big data enginnering et data scientist

par adrien@formatome.fr | Août 24, 2023

Devenez Big data engineer Data scientist



37 jours



100% finançable



Formation RNCP

Candidater en ligne

Synthèse

Déroulé

Informations pratiques

Suivre une formation

Accueil > Big Data

Jours de formation

Solutions de financement

Une formation pour qui ?

La formation Big data enginnering et data scientist s’adresse aux :

Directeurs/Chefs de projet ou Responsable métier
Responsable système d’informations
Développeurs informatiques
Consultants en business intelligence
Ingénieurs d’étude, de recherche et développement, Architecte système et logiciel
Consultants techniques, Consultants business
Statisticiens et Mathématiciens

La formation Big data enginnering et data scientist se distingue par la maîtrise de multi-compétences en Gestion de donnés massives.

Maîtriser le concept Big Data pour la recherche, l’analyse, le partage et le stockage de données massives.

Explorer le potentiel BIG DATA au service de tous les métiers (Marketing, Contrôle de Gestion, Ressources humaines, Renseignement, Santé, Banque, Assurance…)

Pré-requis

Avoir suivi la formation Développeur Java J2EE ou Microsoft.NET serait un plus
Avoir une expérience des bases de données relationnelles
Posséder des connaissances approfondies en statistique est un plus
Etre capable de travailler en équipe avec un sens d’écoute et d’analyse
Avoir des connaissances en Python

Demandez la documentation complète

A l’issue de la formation Big Data enginnering et Data scientist, le certifié sera en mesure de :

Identifier les besoins et la problématique des directions métiers
Maîtriser les technologies spécifiques au Big Data comme Hadoop, Pig, Hive, Spark, Yarn, Kafka, ELK, ou Cloudera
Mettre en place un Data Lake
Maîtriser les bases de données NoSQL : MongoDB, Cassandra, Neo4j, hBase, Redis…
Maîtriser les technologies spécifiques à la science, à l’analyse ainsi qu’à la visualisation de données : Statistiques, Machine Learning, Deep Learning, langage R, Python, Tableau, PowerBI, R Shiny…
Maîtriser le déploiement des solutions Big Data sur le Cloud : AWS, GCP, Microsoft Azure…
Maîtriser la science de données et l’IA « Intelligence Artificielle » : Sprak Mlib, Scala, PySpark, RPA « Robotic Process Automation »
Construire des modèles prédictifs pour répondre à la problématique
Construire des algorithmes pour améliorer les résultats de recherche et de ciblage
Trouver et rassembler l’ensemble des sources de données structurées ou non structurées nécessaires à l’analyse pertinente
Identifier les opportunités à travers l’open data et les cas d’usage métiers
Concevoir un projet Big Data (acquisition et stockage des données, traitement distribué, analyse de données à large échelle)
Maîtriser les technologies par des études de cas concrètes
Maîtriser les enjeux juridiques et liés à la protection des données

Programme détaillé

01- Big Data: Enjeux et perspectives

1 jour

Voir le programme

Big Data : Introduction

Introduction
Types du big data
Du SQL au NoSQL
Caractéristiques techniques des 5V
Technologies Big Data
Languages Big Data
Acteurs principaux du Big Data
Différents métiers du Big Data
Collecte et traitement des données structurées, semi-structurées et non-structurées
Stockage des données
Diffusion des données
Traitements en temps réel ou différé: Kafka
Architectures réparties : Hadoop
Architecture Cloud / Scalabilité
Impact de l’usage du Big Data
Création de la valeur à partir des données
Exemple d’architecture Big Data

Enjeux du Big Data

Enjeux du big data en france
ROI et Big Data

Marché Du Big Data

Marché de la data au niveau mondial
Évolutions et les acteurs de la chaine de l’offre Big Data
Enjeux stratégiques (création de la valeur)
Opportunités pour les entreprises de services informatiques

Impacts du Big Data sur l’entreprise

Transformation de la relation client
Transformation de l’organisation de l’entreprise
Transformation du produit final
Chaîne des valeurs, développement des nouvelles activités
Productivité et optimisation des dépenses
Apparition des nouveaux rôles/métiers (data scientists et CDO)
Compétences nouvelles à acquérir

Solutions technologiques du Big Data

L’écosystème de la plateforme Hadoop : Pig, Flume, Zookeeper, HBase, Oozie, YARN,
MapReduce…
Les modes de stockage (NoSQL, HDFS) / principes de fonctionnement de MapReduce

Méthodologie de gestion d’un projet Big Data

Mise en place d’un projet Big Data
Méthodologies recommandées pour lancer un projet Big Data
Calcul du retour sur investissement d’un projet Big Data

Atelier pratique

02- Introduction à l’Architecture Big Data

1 jour

Voir le programme

Introduction à l’architecture Big Data

Définition du Big Data
Comprendre le volume
Besoin Big Data
Introduction à l’architecture Big Data
Distribution des données
Rôles d’un projet Big Data
Atelier pratique

Ecosystème Hadoop

Technologies et Outils Big Data
Découvrir l’écosystème Hadoop
Les distributions Hadoop
Atelier pratique

Mode de stockage HDFS et Base NoSql

Comprendre HDFS
HadoopFS
Caractéristiques de HDFS
Les modes de stockage HDFS
Services HDFS
Opération HDFS
Administration d’un cluster HDFS
Comprendre NoSQL
Les modes de stockage NoSQL
Choix du type de la Base de donnée NoSQL
Atelier pratique

Principes du Traitement MapReduce

Principes de fonctionnement de MapReduce
Fonction map()
Fonction reduce()
Conception d’un MapReduce
Atelier pratique

Architecture applicative

Introduction
Différentes étapes de gestion des données (Cycle de vie des données dans le Big Data)
Définition du processus d’ingestion des données
Outil disponibles sur le marché
Modèle d’architecture applicative d’une solution Big Data
Atelier pratique

Architecture technique

Introduction à l’architecture technique
Traitement de données
Qualité des données (Data Quality)
Architectures réparties (Clustering Hadoop)
Atelier pratique

Modèles d’Architectures Big Data

Introduction
Architecture Datalake
Architecture Lambda
Architecture Kappa
Architecture pour l’internet des objets (IoT)
Atelier pratique

Critères de choix d’une architecture Big Data

Introduction
Critères de choix
Le type de traitement
L’utilisateur final des données
La source des données (où les données sont générées)
Format du contenu
Types des données à traiter
Fréquence et taille des données
Méthodologie de traitement des données
Le choix du matériel
Récapitulatif des critères du choix d’une architecture big data
Atelier pratique

03- NoSQL

1 jour

Voir le programme

Introduction aux Bases de données NoSQL

Histoire de NoSQL
Comprendre le modèle NoSQL
NoSQL Vs BDR
Propriétés ACID
Propriétés BASE
Théorème de Brewer ou de CAP
Caractéristiques NoSQL

Atelier pratique

Principaux modèles de BD NoSQL

Familles des Bases de Données NoSQL
Modèle NoSQL « Clé-Valeur »
Modèle NoSQL orienté Colonne
Modèle NoSQL orienté Document
Modèle NoSQL orienté Graphe
Bases de données NoSQL
Comparatif des bases de données NoSQL
Récapitulatif des types de schéma de données NoSQL
HBase
MongoDB
Cassandra
Redis
Couchbase
Elasticsearch
Riak

Atelier pratique

Choix d’une Base de données NoSql

Choisir une base de données NoSQL
Classification des bases de données les plus utilisées

Atelier pratique

04- Hbase / Mongo DB / H Base / Cassandra / Redis

4 jours

Voir le programme

Introduction à Hbase

Définition de Hbase
Hadoop vs Hbase
Caractéristiques de Hbase
Quand utiliser HBase
Importance des bases de données NoSQL dans Hadoop
Autres type de stockage NoSQL
Comment HBase diffère des autres modèles NoSQL
Quelle base de données NoSQL choisir?
HBase Vs Hive
HBase VS RDBMS

Atelier pratique

Architecture de Hbase

Mécanisme de stockage dans HBase
Stockage orienté colonne vs orienté ligne
Modèle de données HBase
Avantages de l’architecture Apache HBase
Architecture HBase et ses composants importants
Comment les composants Hbase fonctionnent ensemble
Lecture et écriture dans HBase
Récapitulatif des étapes d’écriture Hbase
HBASE vs HDFS
Cas d’utilisation de HBase

Atelier pratique

Installation de Hbase

Modes d’installation d’Apache HBase
Configuration de pré-installation
Création d’un utilisateur Hadoop
Configuration SSH et génération de clés
Mise en place de Java
Mise en place de Hadoop
Installation de Hbase
Comment télécharger la version stable du fichier tar Hbase
Installation de HBase en mode autonome (Standalone)
Installation de HBase en mode Pseudo distribué
Installation de HBase en mode entierement distribué
Dépannage de l’installation de HBase

Atelier pratique

Commandes générales Hbase SHELL

La commande status
La commande version
La commande table_help
La commande whoami

Atelier pratique

Manipulation des tables avec HBASE

Commandes de gestion des tables
Créer une table à l’aide de HBase Shell
Créer une table à l’aide de l’API java
Désactiver une table à l’aide de HBase Shell
Désactiver une table à l’aide de l’API java
Activation d’une table à l’aide de HBase Shell
Activation d’une table à l’aide de l’API java
Décrire et modifier une table à l’aide de Hbase Shell
Décrire et modifier une table à l’aide de l’API java
Existence d’une table à l’aide de HBase Shell
Existence d’une table à l’aide de l’API java
Suppression d’une table à l’aide de HBase Shell
Suppression d’une table à l’aide de l’API java
Fermer une table à l’aide de HBase Shell
Fermer une table à l’aide de l’API java

Atelier pratique

Insérer et récupérer des données dans HBase: exemples get (), put (), scan ()

Insertion ou écriture de données dans la table HBase: Shell
Insertion de données à l’aide de l’API Java
Mise à jour des données à l’aide de HBase Shell
Mise à jour des données à l’aide de l’API Java
Lecture de données à l’aide de HBase Shell
Lecture de données à l’aide de l’API Java
Suppression d’une cellule spécifique dans un tableau à l’aide de HBase Shell
Suppression d’une cellule spécifique dans un tableau à l’aide de l’API Java
Scanner à l’aide de HBase Shell
compter et tronquer
Sécurité

Atelier pratique

Avantages et limitations de Hbase

Goulot d’étranglement des performances
Avantages de HBase
Limitations avec HBase

Introduction

Stockage NoSQL
Caractéristiques des bases NoSQL : CAP
Choix d’une base de données NoSQL
Bases de données orientées documents
Historique et Présentation de MongoDB
Cas d’utilisation de MongoDB
Structure des données : notions de documents, de collections de valeurs
Le format JSON
Stockage de JSON
JavaScript pour manipuler du JSON

Atelier pratique

Installation et configuration de MongoDB

Plateformes supportées
Installation de MongoDB sur Windows
Choix de la version
Téléchargement de MongoDB pour Windows
Exécution
Configuration
Lancement de Mongo DB
Connection à MongoDB
Installation de MongoDB sur Linux
Choix de la version
Téléchargement de MongoDB pour Windows
Exécution
Configuration
Lancement de Mongo DB
Connection à MongoDB

Atelier pratique

Prise en main de MongoDb

Utilisation de l’invite interactive
Commandes de manipulation de base de données
Utilisation d’un client graphique
Importation d’une collection
Manipulation du format BSON
Comprendre le type ObjectId

Atelier pratique

Administration de MongoDB

Sauvegarde des données
Configuration de la journalisation
Mise en place d’une réplication
Configuration de la réplication
Teste de la réplication
Mise en place du sharding
Configuration d’une collection pour le sharding

Atelier pratique

Manipulation des documents dans MongoDB

Insérer un document
Modifier et supprimer un document
Utiliser une transaction
Chercher des documents avec FIND()
Comparer FIND() et SELECT en SQL
Utiliser les opérateurs du FIND()
Indexer pour améliorer les performances

Atelier pratique

MongoDB avancé

Comprendre le framework d’agrégation
Découvrir les étapes de l’agrégation
Découvrir les opérateurs des Pipeline d’agrégation

Atelier pratique

Introduction à Cassandra

Base de données NoSQL
Définition de Cassandra
Caractéristiques de Cassandra
Modèle de données Cassandra
Cassandra vs RDBMS
Cassandra vs Hadoop
Cassandra vs HBase
Cassandra vs MongoDB
Cassandra Cqlsh
Commandes Shell
Atelier pratique

Architecture de Cassandra

Composants de l’architecture de Cassandra
Composants de l’architecture de Cassandra
Cassandra Keyspace (Création, modification et suppression d’un Keyspace)
Réplication de données dans Cassandra
Atelier pratique

Installation et configuration de Cassandra

Installation et configuration de Cassandra sur Windows
Installation et configuration de cassandra sur Linux
Installation et configuration de cassandra avec Docker
Atelier pratique

Le langage CQL (Cassandra Query Language)

Modèle de données de Cassandra
API de Cassandra
Types de données CQL
Atelier pratique

Manipulation de tables avec Cassandra

Création de tables
Modification de tables
Suppression ds tables
Tronquer une table
Création d’un index
Suppression de l’Index
Lot (Batch)
Atelier pratique

Manipulation des données avec CQL

Création de données
Mise à jour des données
Lecture des données
Suppression de données
Définition des types de données complexes
Insertion des données dans des types complexes
Modification les types de données complexes
Atelier pratique

Les Clusters avec Cassandra

Les clusters
Démarrage d’un cluster avec Docker Compose
Surveillance de l’ajout des nœuds
Obtention d’informations avec nodetool
Maîtrise de la syntaxe de création de table
Définition d’une clé de partition et de clustering
Modélisation des données
Atelier pratique

05- Apache Hadoop

4 jours

Voir le programme

Section 1: Introduction à l’écosystème Hadoop

Aborder cette formation
Découvrir NoSQL
Définir le Big Data
Comprendre l’histoire d’Hadoop
Parcourir l’écosystème Hadoop
Différencier les distributions Hadoop
Comprendre le NoSQL
Définition du Big Data
Architecture de Hadoop
L’Écosystème de Hadoop
Rôle des différents composants de l’écosystème Hadoop
Rôle des collecteurs de données
Distributions d’Hadoop

Section 2: Installation de l’environnement Hadoop

Installation de l’environnement Hadoop VM Ubuntu
Installation de l’environnement Hadoop sur Windows
Différencier les distributions Hadoop
Découvrir Cloudera Hadoop
Démarrer une QuickStart VM
Travaux pratique: Installation Hadoop

Section 3: HDFS – La couche de stockage

Comprendre le HDFS
Découvrir HadoopFS
Assimiler les principes du HDFS
Appréhender les services HDFS
Comprendre les opérations HDFS
Configuration de HDFS
Demarrage de HDFS
Administrer le cluster HDFS
Découvrir la gestion des services HDFS
0Manipuler les fichiers en ligne de commande
Exécuter des opérations en Java
Utiliser les InputStream Java
Accéder à HDFS avec WebHDFS
Caractéristiques de HDFS
Architecture de HDFS
Rôle de HDFS
Opérations HDFS
Listing des fichiers dans HDFS
Insertion des données dans HDFS
Extraction des données du HDFS
Arrêt du HDFS

Section 4: Fonctionnement de MapReduce

Appréhender les principes de base
Découvrir la fonction map()
Utiliser la fonction reduce()
Concevoir un MapReduce
Développer le mapper
Développer le reducer
Créer un jeu de données
Créer le driver
Lancer un MapReduce en Java
Suivre l’évolution du MapReduce
Développer un MapReduce en PHP
Lancer des MapReduce avec Hadoop Streaming
Principes de base de MapReduce
Architecture MapReduce
Fonction map()
Fonction reduce()
Conception d’un MapReduce
Développer le mapper
Développer le reducer
Création d’un jeu de données
Création d’un driver
Lancer un MapReduce en Java
Suivi de l’évolution du MapReduce
Développement d’un MapReduce en PHP
Lancement des MapReduce avec Hadoop Streaming
TP : Fonctionnement de MapReduce

Section 5: Base de données NoSQL HBase

Identifier les cas d’utilisation de HBase
Comprendre le modèle Hbase
Administrer HBase
Appréhender les opérations HBase
Gérer les services avec des interfaces web
Lancer des commandes HBase dans le terminal
Filtrer les résultats d’un scan
Utiliser HBase en Java
Utiliser HBase dans les MapReduce
Définition de Hbase
Hbase avec Hadoop
Cas d’utilisation de HBase
Comprendre le modèle Hbase
Installation de Hbase
Architecture
Composants Hbase (Region, Region Server, Region Split)
Lecture et écriture dans Hbase
API Shell
API Java
TP : Base de données NoSQL HBase

Section 6: Apache Oozie -Ordonnanceur de WorkFlow

Définition de Oozie
Caractéristiques Oozie
Fonctionnement de Oozie
Actions Oozie
Oozie Job
Oozie workflow
Coordinateur Oozie
Paramètre Oozie
Monitoring Oozie
Packaging et déploiement d’une application de workflow Oozie

Section 7: Collecte de données avec Apache Sqoop

Introduire scoop anglais
Importer les données avec scoop
Définition de Sqoop
Cible des imports dans le cluster
Architecture de Sqoop
Fonctionnement de Sqoop
Exemple d’import vers HDFS
Exemples d’import vers Hive
Exemple d‘exports

Section 8 : travaux pratiques: Développement d’une application Big Data avec Hadoop

Mission 1: Conception de l’application
Découper l’application
Exploiter les données
Concevoir la base de données HBase
Parser le fichier d’entrée dans un mapper
Écrire dans HBase avec un reducer
Mettre en place des clés composites
Utiliser les clés composites
Lancer un modèle MapReduce d’import

Mission 2: Développement des modèles MapReduce

Lire les données de HBase dans un mapper
Agréger les données dans un reducer
Suivre les modèles MapReduce
Déboguer les modèles MapReduce
Explorer les sources d’Hadoop
Réaliser des jointures de données
Résoudre le problème du secondary sort
Optimiser ses modèles MapReduce

Mission 3: Développement des modèles MapReduce

Mettre en place un workflow Oozie
Lancer un workflow Oozie
Filtrer les données de HBase
Exporter dans MySQL grâce à Sqoop
Lancer son workflow avec l’API HTTP REST
Coupler l’application avec une interface web

06- Apache Spark

3 jours

Voir le programme

Introduction à Apache Spark

Apache Spark
MapReduce VS Spark
Caractéristiques d’Apache Spark
Architecture d’Apache Spark
Anatomie d’une application Spark
Interaction avec Spark
Spark sur Hadoop
Composants de Spark

Atelier pratique

Installation de Spark

Préparation d’une VM Linux
Télécharger Apache Spark
Installation d’Apache Spark : redhat /CentOS
Installation d’Apache Spark : Windows
Installation d’Apache Spark : Mac OS
Installation d’Apache Spark : Ubuntu /Debian

Atelier pratique : Installation Spark

Resilient Distributed Datasets ( RDDs )

Introduction aux RDDs (Resilient Distributed Datasets)
Exemple d’un RDD
Caractéristiques des RDDs
Liaison avec Spark (Scala/Java/Python)
Création d’un RDD
Opérations RDD
Actions RDD
Transformation RDD

Atelier pratique

Spark streaming

Définition
Exemple Scala, Java et Python
Concepts de base
Initialisation de StreamingContext
Flux discrétisés (DStreams)

Atelier pratique

Spark SQL

Caractéristiques de Spark SQL
Architecture Spark SQL
Appréhender les abstractions de données de Spark
Exploiter la Spark Session
Créer un Data Frame
Manipuler le DataFrame
Comprendre les formats de stockage
Construire un jeu de données
Importer un fichier Avro
Joindre des DataFrames
Sauvegarder au format Parquet
Employer la syntaxe select
Utiliser un Dataset
Exécuter un programme avec spark-submit
Choisir une distribution Spark
Conclure sur Apache Spark

Atelier pratique

07- Apache Kafka

2 jours

Voir le programme

Introduction à Apache kafka

Présentation de Kafka
Intérêt d’Apache Kafka
Les API de Kafka
Terminologies de Kafka
Atelier pratique

Architecture d’Apache kafka

Architecture du cluster Kafka
Topic
Broker
Zookeeper
Producers
Consumers
Kafka WORKFLOW

Installation et configuration de Apache Kafka

Installation et configuration d’Apache Kafka
Installation de Java
Installation de Zookeeper
Installation de Kafka
Atelier pratique: Installation

Commande Line Interface (CLI)

Démarrez le serveur Kafka
Lister tous les sujets
Créer un topic
Décrire un topic
Publier des messages sur un topic
Consommer des messages
Modifier les sujets d’Apache Kafka
Atelier pratique: CLI

Développement Kafka avec Java

Introduction à la programmation Kafka
Kafka APIs
Création d’un projet Kafka
Java producer
Rappels des producers Java
Producer Java avec clés
Java consumer
Consumer Java au sein d’un groupe de consumers
Consumer Java avec threads
Le consumer Java recherche et attribue
Compatibilité de client bidirectionnelle
Atelier pratique: Développement Kafka

Kafka Stream

Introduction à Kafka Stream
Concepts de Kafka Stream
Architecture de Kafka Stream
Démo: Application wordcount avec kafka stream
Atelier pratique: KStream

08- Elastic Stack ELK

2 jours

Voir le programme

Introduction à la suite ELK (ELK Stack)

Aperçu sur la suite ELK
Autres outils en relation avec ELK
Rôle de Elastic Stack
Installation de la suite ELK
Installation de la suite ELK sur Windows
Installation de la suite ELK sur Docker

Eléments du Stack ELK

Elasticsearch: Le noyau
Kibana: L’outil utilisateur
Logstash: L’outil d’ingestion
Beats: Transfert de données
X-Pack: Le pack de fonctionnalités

Cas d’utilisation la suite ELK

Gestion des logs
Aperçu sur la gestion des logs
Analyse des métriques
Aperçu sur l’analyse des métriques
Recherche de Sites et d’applications
Analyse de sécurité
Aperçu sur l’analyse de sécurité
Monitoring des performances des applications

Chargement des données

Données de chargement en masse
Chargement d’échantillons de données
Définition des types de données

Interrogation des données

Requêtes simples
Requêtes au niveau du terme
Analyse et tokenisation

Analyse des données

Agrégations de base
Filtrer les agrégations
Percentiles et histogrammes

Présentation de vos Insights

Présentation et configuration de Kibana
Création de visualisations dans Kibana
Création de tableaux de bord dans Kibana

Dépannage du Stack

Quand les choses vont mal
Dépannage des ressources

Atelier cas pratique

Installation et configuration (Serveur ElasticSearch, Mettre en place un cluster , Les rôles des
noeuds)

09- Gouvernance et Sécurité

1 jour

Voir le programme

Introduction à la Gouvernance des données

Rôle des données au 21e siècle
Définition et principes de base de la gouvernance des données
Gouvernance des données Vs Gestion des données
Avantages de la gouvernance des données
Gouvernance des données dans le cloud
Outils de gouvernance des données
Les étapes de la gouvernance des données

Atelier pratique

Déploiement de la gouvernance des données

À qui appartiennent les données et pourquoi est-ce important?
Rôles dans le domaine de la gouvernance des données
Conception du processus de gouvernance des données

Atelier pratique

Gestion d’un programme de gouvernance des données

Gestion et maintien de la gouvernance des données
Suivi et mesure de votre programme

Atelier pratique

10- Introduction à la data science

1 jour

Voir le programme

Introduction à la Data Science

Big data

Deep learning

Perceptron
Réseaux neuronaux multicouches (MLP)
Réseaux neuronaux convolutifs (CNN)
Réseaux neuronaux récursifs (RNN)

Machine Learning

Apprentissage automatique supervisé/ non supervisé
Algorithmes du Machine Learning

Principes de la data science

Approche fonctionnelle de base
Variables prédictives
Variables à prédire
Fonctions hypothèses
Estimateurs (biais et variances)
Compromis biais – variance
Fonctions de perte
Régularisation des paramètres
Optimisation des paramètres

Clustering

k-moyens (kMeans)
Clustering hiérarchique
Approche DBSCAN

Classification

Régression logistique
Machines à vecteurs de support (SVM)
Arbres de décisions
K plus proches voisins (kNN)

Traitements en Data Science

Compressions des données
Réglages des modèles

Principes de l’apprentissage d’ensemble

Forêts aléatoires
gradient boosting

Principes de la régression

Explorations des données régressives
Performance des modèles de régression

Atelier Cas pratique

11- Python pour la data science

2 jours

Voir le programme

Opérations basiques avec Python

Python pour la data science
Comprendre l’importance de la data science
Expliquer le choix de Python
Installation de Python

Opérations basiques avec Python

Opérations basiques sur les listes
Opérations avancées sur les listes
Les dictionnaires
Les compréhensions

Chargement et préparation des données

Intérêt du prétraitement de données
Chargement des fichiers Excel et CSV
Chargement d’un fichier JSON
Interrogation d’une base de données SQL Server
Concaténation de différentes sources de données
Fusion de différentes sources de données
Manipulation des données manquantes
Maîtrise des statistiques descriptives avec NumPy
Maîtrise des statistiques descriptives avec Pandas

Manipulation des données

Différents types de données
Manipulation des données quantitatives avec NumPy
Techniques d’encodage
Manipulation des données textuelles avec Pandas
Manipulation des données textuelles avec NLTK
Utilisation des séries temporelles
Manipulation des images

Atelier pratique Visualisation des donnée

Visualisation des données

Découvrir les bases de la visualisation de données
Matplotlib
Seaborn
Bokeh
Aller plus loin avec Matplotlib

Initiation au Web scrapig

Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping

Initiation aux algorithmes de machine learning

Régression linéaire
Mise en œuvre la régression linéaire
Algorithme SVM
Utilisation de l’algorithme SVM
Classification naïve bayésienne
Pratique de la classification naïve bayésienne
Algorithme des k-moyennes
Utilisation de l’algorithme des k-moyennes
Analyse en composante principale PCA

Deep learning avec Keras et TensorFlow

Définition du Deep learning
Concepts du deep learning
TensorFlow
Keras
Compréhension et préparation des données
Déploiement du modèle

Atelier Pratique

12- Machine Learning

3 jours

Voir le programme

Initiation au machine Learning

Fondements du Machine Learning
Introduction au Machine Learning
Groupes de Machine Learning
Besoins du Machine Learning
Cycle de vie du Machine Learning
Identification des biais cognitifs humains

Classification du machine Learning

Théorie du Naïve Bayes
Régression logistique binomiale
Théorie k-NN
Arbres de classification
Forêts d’arbres de décision
Support vector machine

Régression linéaire avec Python

Définition de la régression
Régression linéaire univariée
Régression linéaire multivariée
Régression linéaire polynomiale
Régressions régularisées
Programmer une régression linéaire en Python
Utilisation des expressions lambda et des listes en intention
Afficher la régression avec MathPlotLib
L’erreur quadratique
La variance
Le risque

Initiation au clustering

Définition du clustering
Méthode k-means
Clustering hiérarchique

Initiation aux Règles d’association

Définition des règles d’association
Initiation à la méthode A priori
Évaluation des règles d’association candidates

Réduction dimensionnelle

Définition de la réduction dimensionnelle
Utilisation des méthodes de sélection de variables
Méthode ACP
Méthode ADL

Algorithmes Du Machine Learning

Initiation à l’ensemble learning
Apprentissage par renforcement
Régression linéaire simple et multiple
Régression polynomiale
Séries temporelles
Régression logistique et applications en scoring
Classification hiérarchique et non hiérarchique (K-Means)
Classification par arbres de décision ou approche Naïve Bayes
Ramdom Forest (développement des arbres de décision)
Gradiant Boosting
Réseaux de neurones
Machine à support de vecteurs
Deep Learning : exemples et raisons du succès actuel
Text Mining : analyse des corpus de données textuelles

Atelier cas pratique

Numpy Et Scipy

Tableaux et matrices
Algèbre linéaire avec Numpy
Numpy et MathPlotLib

Scikit learn

Machine Learning avec SKLearn
Régression linéaire
Création du modèle
Echantillonnage
Randomisation
Apprentissage avec fit
Prédiction du modèle
Metrics
Choix du modèle
PreProcessing et Pipeline
Régressions non polynomiales

Test et validation des algorithmes

Validation des algorithmes
Atelier cas pratique
Techniques de ré-échantillonnage en jeu d’apprentissage, de validation et de test
Mesures de performance des modèles prédictifs
Matrice de confusion, de coût et la courbe ROC et AUC

Atelier cas pratique

13- Deep Learning avec Python – Keras ou Tensor Flow

2 jours

Voir le programme

Introduction au Deep Learning

IA et deep learning
Architecture du deep learning
Fonctionnement d’un modèle de deep learning
Architecture d’un réseau de neurones
Construction d’un réseau de neurones
Apprentissage du réseau de neurones
Concepts de Keras
Deep learning avec Keras

Machine Learning et Deep Learning

Apprentissage automatique
Importation des données
Préparation des données
Stabilisation de l’apprentissage d’un modèle avec Keras
Sauvegarde et réutilisation d’un réseau avec Keras
Sauvegarde d’un réseau

Performance des algorithmes

Paramètres de l’apprentissage
Amélioration de l’apprentissage avec Keras
Stratégie d’amélioration
Accélération des calculs avec le cloud computing et le GPU
Accélération des calculs avec le cloud computing et le TPU

Atelier cas pratique

Analyse de textes avec Keras

Word embedding
Application du deep learning sur les textes
Préparation des documents avec Keras
Écriture d’un modèle de word embedding avec Keras
Classification des documents et interprétation des résultats
Amélioration d’un modèle d’analyse de textes avec Keras

Reconnaissance des images avec Keras

Définition de la convolution
Application de la convolution sur des images
Application du deep learning sur des images
Fonctionnement du pooling
Architecture d’un réseau à convolution
Jeu de données d’images
Préparation des images pour l’analyse
Découverte de l’OCR
Reconnaissance des images
Augmentation des données
Préparation des données pour réutiliser les meilleurs modèles de Keras
Réutilisation des meilleurs modèles existants avec Kera

Atelier cas pratique

________

Initiation au deep learning

Atelier cas pratique

Composants de base de TensorFlow

Atelier cas pratique

Mettre en œuvre Sequential API de TensorFlow.Keras

Atelier cas pratique

Utiliser Functional API et Subclassing API

Contrôler et monitorer un réseau de neurones

Atelier cas pratique

Aborder CNN et le transfer learning

Atelier cas pratique

14- Mise en place d’un Data Lake

2 jours

Voir le programme

Introduction aux données d’entreprise

Données d’entreprise
Importance de la qualité de la donnée
Données du Big data
Architectures Big Data

Atelier pratique

Introduction aux Data lake

Présentation du Data lake
Pertinence du Data lake dans une entreprise
Avantage du Data lake
Fonctionnement d’un Data Lake
Différence entre le Data Lake et de Data Warehouse
Défis du du Data lake
Approches pour créer un Data Lake
Conclusion

Atelier pratique

Architecture du Data Lake

Architecture du Data lake
Concepts clés du Data Lake
Étapes de maturité du Data Lake
Meilleures pratiques de l’architecture Data Lake

Atelier pratique

L’architecture Lambda basée sur Data Lake

Introduction
Couche d’ingestion de données
Speed layer – traitement des données en temps quasi réel
Couche de stockage de données – stocker toutes les données
Serving layer – livraison et exportation de données
Acquisition layer – Couche d’acquisition de données
Messaging Layer – Couche de livraison de données
Ingestion layer – Couche d’ingestion de données
Exploration de la couche Lambda
Magasins de données relationnelles

Atelier pratique

Écosystème Hadoop pour la mise en œuvre d’un Data lake

Introduction
Distributions Hadoop
Facteurs de sélection d’un stack Big Data pour les entreprises
Écosystème Hadoop pour un Data lake

Acquisition de données de données par lots avec Apache Sqoop

Introduction
Contexte dans Data Lake – Acquisition de données
Fonctionnement de Sqoop
Importation de données à l’aide de Sqoop
Exportation de données à l’aide de Sqoop
Connecteurs Sqoop

Atelier pratique

Acquisition de données de flux de données à l’aide d’Apache Flume

Introduction
Contexte dans Data Lake: acquisition de données
Initiation à la Stream Data (Flux de données)
Données Batch Vs données stream
Acquisition de données de flux – cartographie technologique
Fonctionnement de Flume
Sqoop Vs Flume

Atelier pratique

Couche de messagerie utilisant Apache Kafka

Introduction
Contexte dans Data Lake – couche de messagerie
Couche de messagerie
Couche de messagerie – cartographie technologique
Cycle de vie du flux de données

Atelier pratique

Traitement des données à l’aide d’Apache Flink

Introduction
Contexte dans un lac de données – couche d’ingestion de données
Couche d’ingestion de données
Data Ingestion Layer – cartographie technologique
Fonctionnement de Flink
Architecture Flink

Atelier pratique

Magasin de données à l’aide d’Apache Hadoop

Introduction
Contexte pour Data Lake – Stockage de données et lambda Batch Layer
Stockage de données et Lambda Batch Layer
Stockage de données et couche Lambda Batch – cartographie technologique
Fonctionnement de Hadoop
Architecture Hadoop

Atelier pratique

Magasin de données indexé à l’aide d’Elasticsearch

Introduction
Contexte dans Data Lake: stockage de données et lambda Speed layer
Data Storage et Lambda Speed Layer
Data Storage et Lambda Speed Layer: cartographie technologique
Définition d’Elasticsearch
Fonctionnement d’Elasticsearch
Principes de l’architecture de base d’Elasticsearch

Atelier pratique

15- ElasticSearch

1 jour

Voir le programme

Généralités sur les moteur de recherches

Présentation d’ElasticSearch

Installation et configuration

Installation
Configuration
Vue générale de l’API REST
Première indexation
Première recherche
Installation depuis les RPM
Utilisation de l’interface X-Pack monitoring
Premiers pas dans la console Sense
Etude du fichier : elasticsearch.yml.

Indexation de documents

Conception de l’index et de ses documents
Indexer ou supprimer des documents avec l’API Rest
Indexation en masse
Version et gestion optimiste de la concurrence
Présentation du stockage Lucene et refresh
Autres fonctionnalités (routing, consistency, document enfant, …)

Mapping

Définition et rôle du mapping
Types de champs
Champs prédéfinis
Méta données d’un Index

Format des données

Json
Notions de types et de mapping
Mise à jour des types ou re-indexation

Analyse et extraction de texte

La base de l’extraction et analyse de texte
Configuration et utilisation des Analyzers prédéfinis ou customisés
API de vérification de l’analyse de texte

Recherche de documents

Rechercher des documents avec l’API Rest
Gestion des résultats
Les requêtes de recherche
Requêtes vs filtres
Avantages des filtres

Kibana

Présentation par les API d’administration et de supervision
Objectifs
Collecte de données
Logs…
Stockage dans ElasticSearch et mise à disposition dans une interface

Web de graphiques

Démonstrations

Atelier cas pratique

Clustering

Définitions
Cluster
Noeud
Sharding
Nature distribuée d’ElasticSearch
Présentation des fonctionnalités
Stockage distribué
Calculs distribués avec ElasticSearch
Tolérance aux pannes

Fonctionnement

Notion de noeud maître
Stockage des documents
Shard primaire et réplicat
Routage interne des requêtes

Gestion du cluster

Outils d’interrogation
/_cluster/health
Création d’un index
Définition des espaces de stockage (shard)
Allocation à un noeud
Configuration de nouveaux noeuds
Tolérance aux pannes matérielles et répartition du stockage
Gestion des pannes
Fonctionnement en cas de perte d’un noeud
Election d’un nouveau noeud maître si nécessaire
Déclaration de nouveaux shards primaires

Mise en oeuvre X-Pack Security

Présentation des apports de X-Pack Security
Authentification
Gestion des accès aux données (rôles)
Filtrage par adresse IP
Cryptage des données
Contrôle des données
Audit d’activité

Exploitation

Gestion des logs
ES_HOME/logs
Paramétrage de différents niveaux de logs
INFO
DEBUG
TRACE
Suivi des performances
Sauvegardes avec l’API Snapshot

Atelier cas pratique

16- RPA (Robotic Process Automation) avec Python

2 jours

Voir le programme

Section 1. Tout automatiser avec Python

Automatiser tout avec Python
Course prerequisites
Découvrir le RPA.
Les opportunités pour l’entreprise.
Les bénéfices de la RPA
Quel outil faut-il utiliser ?
Automatisation avec Python
Préparation de l’environnement de travail
TP
Quiz

Section 2. Automatiser les interactions avec les fichiers, les dossiers et les terminaux

Comment lire les fichiers
Comment écrire des fichiers
Exécuter les commandes du terminal
Organiser les répertoires
Le répertoire de travail actuel
Chemins absolus et chemins relatifs
Créer de nouveaux dossiers
Le processus de lecture/écriture de fichiers
Copier, déplacer, renommer et supprimer des fichiers et des dossiers
Organiser les Dossiers
Quiz

Section 3 : Automatiser l’accès aux données web – niveau de base

La valeur du web scrapping
Création et analyse d’une requête
Explorer la structure HTML
Comment isoler les données
Préparation au grattage paginé
Gratter le contenu paginé
Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping
Mini-projet Web Scraping avec BeautifulSoup
TP
Quiz

Section 4. Automatisation de l’accès aux données Web – Niveau intermédiaire

Automatiser la navigation web
Interaction du base du navigateur
Gestion du glisser -déposer
Fonction d’attente du selenium
Fonction d’attente explicite de selenium
Utiliser les fichiers d’exercice
Comprendre le NLP
Découvrir les domaines et les exemples d’application du NLP
Installer Anaconda
Aborder l’environnement Jupyter
Comprendre le pipeline de modélisation NLP
TP
Quiz

Section 5. Automatisation de l’accès aux données Web – Niveau avancé

Comprendre les requêtes API
Créer des requêtes d’API
Analyse via JSON
Utilisation des clés API
Lier les appels d’API
Prochaines étapes
Comprendre les requêtes API
Créer des requêtes d’API
Analyser le JSON
Utiliser des clés d’API
Lier les appels d’API
Application – Mini-Projet
TP
Quiz

17- NLP – Natural Language Processing

2 jours

Voir le programme

Section 1. Découvrir le NLP

Section 2. Traiter un texte avec Python

Section 3. Préparer les données

Section 4. Transformer un texte en chiffres

Section 5. Comprendre l’expérience machine learning – NLP

Section 6. Réaliser un modèle de classification avec SVM

Section 7. Réaliser un modèle de classification avec le Random forest

Section 8. Perfectionner un modèle avec l’hyperparamètre

Section 9. Examen final

1. Synthèse du cours
2. TP Général
3. Examen final

18- Visualisation de données avec Excel / Power BI / Tableau

2 jours

Voir le programme

EXCEL :

Section 1: Importation et exportation de données (partie 1)

1. Importer dans Excel à partir d’un fichier

Importer des données à partir d’un classeur Excel
Obtenir des données à partir d’un fichier texte ou CSV
Importer des données depuis un fichier XML
Importer des données depuis un fichier JSON
Importer les données d’un dossier
Récupérer les données d’une bibliothèque SharePoint

2. Importer dans Excel à partir d’une base de données

Importer depuis une base de données SQL Server
Importer depuis une base de données Microsoft Access
Obtenir des données Analysis Services
Importer des données SQL Server Analysis Services
Importer des données depuis MySQL Server

3. Importer dans Excel à partir de Microsoft Azure

Importer des données depuis une base de données SQL Server
Importer des données depuis Azure SQL Data Warehouse et Azure
HDInsight
Importer des données depuis un stockage Blob Azure
Importer des données depuis un stockage Table Azure
Importer des données depuis Azure Data Lake Storage

4. Importer dans Excel à partir de services en ligne

Importer des données depuis une liste SharePoint Online
Importer des données depuis Microsoft Exchange Online
Importer des données depuis Dynamics 365
Importer des données depuis Facebook

5. Pdf

Découvrir Power Query
Importer dans Excel à partir d’un fichier
Importer dans Excel à partir d’une base de données
Importer dans Excel à partir de Microsoft Azure
Importer dans Excel à partir de service en ligne

Section 2: Importation et exportation de données (partie 2)

1. Importer dans Excel à partir d’autres sources

Importer des données depuis un tableau ou une plage
Importer des données à partir d’un site web
Importer des données depuis Microsoft Query
Importer des données depuis SharePoint Server
Importer des données à partir d’un flux OData
Importer des données à partir d’Active Directory
Importer des données à partir d’une requête vide

2. Aborder les fonctionnalités complémentaires

Fusionner des sources multiples
Ajouter des sources multiples
Gérer les paramètres des sources de données
Utiliser les options des requêtes
Actualiser les données importées

3. Exporter dans d’autres formats

Exporter un fichier au format texte
Exporter un fichier au format CSV
Exporter un fichier au format XML
Exporter un fichier vers une page web
Exporter un fichier comme classeur Excel
Exporter un fichier en tant que modèle Excel
Exporter un fichier aux formats SYLK et DIF
Exporter un fichier au format PDF
Exporter un tableau dans une liste SharePoint
Exporter un tableau comme diagramme croisé dynamique
Visio
Découvrir les fonctions Exporter et Publier de Microsoft Excel

4. Pdf

Importer dans Excel à partir d’autres sources
Aborder les fonctionnalité complémentaires
Exporter dans d’autres formats

Section 3: Analyse de données avec Power Pivot (partie 1)

1. Power Pivot

Activer Power Pivot
Comprendre l’intérêt du data storytelling
Connaître les avantages et les inconvénients de Power Pivot
Aborder les différences entre Power Pivot et Power BI

2. Exploiter les sources de données

Découvrir l’interface de Power Pivot
Importer des données depuis un fichier Excel
Copier-coller les données
Récupérer des données externes
Importer les données d’un autre fichier Excel
Transférer les données d’un fichier CSV
Collecter les données d’un flux OData
Importer des données avec Power Query

3. Manipuler Power Pivot

Aborder les feuilles de données
Utiliser les options de colonnes de données
Mettre en forme et filtrer des données
Trouver et modifier les métadonnées
Créer et manipuler les perspectives
Tirer parti des colonnes calculées
Exploiter les mesures
Connaître les propriétés de la création de rapports
Employer les synonymes

4. Lecture Pdf

Découvrir Power Pivot
Exploiter les sources de données
Manipuler Power Pivot

Section 4: Analyse de données avec Power Pivot (partie 2)

1. Mettre en place les relations

Découvrir la vue diagramme et les relations entre tables
Comprendre la cardinalité de la relation
Assimiler le sens de filtrage de la relation
Utiliser une table de date

2. Exploiter les indicateurs clés de performance (KPI)

Mettre en place un KPI
Créer un indicateur sur une mesure

3. Établir des hiérarchies

Découvrir la hiérarchie
Modifier les hiérarchies automatiques
Créer une hiérarchie

4. Aborder les tableaux croisés dynamiques

Générer un tableau croisé dynamique
Manipuler les jeux de lignes ou de colonnes
Convertir un tableau croisé dynamique en formules
Partager un tableau croisé dynamique

5. Lecture Pdf

Mettre en place les relations
Exploiter les indicateurs clés de performance (KPI)
Établir des hiérarchies
Aborder les tableaux croisés dynamiques
Section 5: Analyse de données avec Power Query

1. Découvrir Power Query

Définir les objectifs de la formation
Comprendre le complément Power Query pour Excel
Comprendre les ETL et leur utilité
Évaluer les avantages et les limites de l’éditeur de requête
Comparer avec Power BI pour Desktop

2. Transformer ses données

Gérer les erreurs de données
Renommer les colonnes
Définir les types de données
Filtrer les données
Traiter les doublons et les valeurs NULL
Fractionner ou assembler des colonnes
Formater les contenus des colonnes
Transposer une table de données
Chercher et remplacer des valeurs dans une colonne
Regrouper les données
Ajouter des colonnes personnalisées

3. Aller plus loin avec les transformations de données

Combiner des requêtes
Lier les tables et les requêtes

4. Pdf

Mettre en place les relations
Exploiter les indicateurs clés de performance (KPI)
Établir des hiérarchies
Aborder les tableaux croisés dynamiques

TABLEAU :

Introduction à la visualisation avec Tableau

Comprendre les besoins auxquels répond Tableau
Comprendre l’architecture générale
Aborder les prérequis
Découvrir le cycle de travail
Installation de tableau
Parcourir les fichiers source

Connexion à une source et importation des données

Ouvrir Tableau
Se connecter à un fichier Excel
Vérifier les données
Filtrer les chaînes de caractères
Filtrer les données numériques
Filtrer les données de type date
Comprendre la notion de jointure
Ajouter une deuxième feuille de calcul
Ajouter un autre fichier
Exécuter la requête

Création d’un visuel et préparation des données

Explorer la structure d’ensemble d’un fichier Tableau
Prendre en main l’interface de création des visualisations
Créer un histogramme
Utiliser l’étagère Repère pour améliorer le graphique
Utiliser l’étagère Repère pour améliorer l’infobulle
Définir le format d’affichage par défaut pour les mesures
Créer une hiérarchie pour explorer les données
Regrouper les valeurs d’une dimension
Comprendre l’agrégation des mesures
Actualiser les données de l’extrait

Aller plus loin avec les graphiques

Travailler avec les dates
Découvrir la variété des graphiques
Filtrer un graphique
Créer une matrice de graphiques
Créer un graphique en miroir
Créer un graphique à deux axes
Ajouter une ligne de référence
Créer un graphique en secteur

Travailler avec les tableaux

Créer un tableau simple
Créer un tableau simple multidimensionnel
Ajouter une mise en forme conditionnelle
Créer un tableau croisé
Créer un tableau multimesure

Création des formules simples

S’initier aux formules dans Tableau
Créer un champ calculé simple
Créer un champ calculé conditionnel
Créer une mesure discrète
Créer et afficher un paramètre
Utiliser un paramètre dans une formule

Création d’un tableau de bord

Découvrir l’interface d’assemblage d’un tableau de bord
Démarrer et assembler un tableau de bord
Assembler un tableau de bord à l’aide de différents éléments
Paramétrer les interactivités du tableau de bord

Atelier pratique

POWER BI :

Introduction à Power Bi

Présentation De Power BI
Caractéristiques de Power Bi
Composants de Power BI
Cycle de travail dans Power BI Desktop
Configuration des options de Power BI

Création de requêtes basées sur Excel

Importer un fichier Excel composé d’une feuille
Importer un fichier Excel composé de plusieurs feuilles
Importer un TCD Excel
Atelier pratique : Création de requêtes basées sur Excel

Préparation des données

Choix des colonnes
Nettoyage des données
Conversion des données
Transformation des données
Ajout des colonnes selon 2 méthodes
Fusion des requêtes
Combinaison des requêtes
Atelier pratique : Préparation des données

Création de requêtes sur une base de données

Appréhender l’import et la requête directe
Importer les tables
Atelier pratique : Création de requêtes sur une base de données

Création de requêtes sur d’autres sources

Importer plusieurs fichiers Excel
Créer une requête sur un fichier TXT ou CSV
Effectuer une requête à partir du web
Requêter à partir d’un fichier PDF
Atelier pratique : Création de requêtes sur d’autres sources

Organisation des tables et des relations

Utiliser la vue Modèle
Mettre en place les relations
Connaître les bonnes pratiques d’organisation des tables
Formater et organiser les données
Créer une mesure
Atelier pratique : Organisation des tables et des relations

Création de la table de temps

Nécessité d’une table de temps
Créer la table à l’aide d’un script DAX
Associer la table au modèle et ajuster les champs
Déterminer le nombre de tables du temps
Atelier pratique : Création de la table de temps

Mise en place des principaux graphiques et tableaux

Aborder les règles d’ergonomie et de composition d’un rapport
Découvrir l’interface de Power BI
Choisir judicieusement les couleurs
Créer et configurer un histogramme
Créer et configurer un graphique en courbe
Créer un graphique en secteur
Créer une carte
Créer une carte à plusieurs lignes
Ajouter une zone de texte et une image pour le titre
Créer une carte géographique
Atelier pratique : Mise en place des principaux graphiques et les tableaux

Filtrage des données

Créer un segment
Synchroniser les segments entre plusieurs pages
Utiliser le volet Filtre
Atelier pratique : Filtrage des données

Utilisation des tableaux

Créer un tableau simple
Créer un tableau croisé
Dupliquer la mise en forme
Atelier pratique : Utilisation des tableaux

Exportation des données

Récupérer les données au format Excel/CSV et exporter au format PDF
Introduction à Power BI Service
Atelier pratique : Exportation des données

Informations pratiques

Nombre de postes à pourvoir

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Quels sont les chiffres associés aux postes et à la formation ?

Salaire pour un junior en moyenne

Salaire pour un senior en moyenne

Recrutements jugés difficiles

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Une question ? Contactez-nous !

La formation « Big Data enginnering et Data scientist » va vous ouvrir un large panel de possibilités et vous permettre d’exercer les métiers suivants :

Comment suivre une formation chez nous ?

Financez votre formation !

Une question ? Contactez-nous !

Financement CPF

CPF « Compte Personnel de Formation »

CPF de transition

CPF de transition pour une Reconversion Professionnelle.

PDC

Plan de Développement de Compétences de l’entreprise.

VAE

VAE : Validation des Acquis de l’Expérience.

Contrat PRO

Contrat d’alternance ou de Professionnalisation.



AFPR

Action de Formation Préalable à l’Embauche.

AIF

AIF : Aide Individuelle à la Formation par Pôle Emploi.



POEc

Préparation Opérationnelle Emploi Collective.



POEi

Préparation Opérationnelle Emploi Individuelle.

Financez votre formation !

Découvrez nos solutions

Financement CPF – CPF « Compte Personnel de Formation »

CPF de transition – CPF de transition pour une Reconversion Professionnelle

PDC- Plan de Développement de Compétences de l’entreprise.

VAE – Validation des Acquis de l’Expérience

Contrat PRO – Contrat d’alternance ou de Professionnalisation

AFPR – Action de Formation Préalable à l’Embauche

AIF – Aide Individuelle à la Formation par Pôle Emploi

POEc – Préparation Opérationnelle Emploi Collective

POEi – Préparation Opérationnelle Emploi Individuelle

Contactez-nous

Formation Administration de Base de Données SQL Serveur

Devenez Administrateur SQL Server

Jours de formation

Solutions de financement

A l’issue du cursus certifiant « Administration Base de Données SQL Server », les certifiés seront en mesure de :

Programme détaillé

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Informations pratiques

Nombre de postes à pourvoir

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Quels sont les chiffres associés aux postes et à la formation ?

Salaire pour un junior en moyenne

Salaire pour un senior en moyenne

Recrutements jugés difficiles

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Le certificat « Administration Base de Données SQL » va vous ouvrir un largepanel de possibilités et vous permettre d’exercer les métiers suivants :

Comment suivre une formation chez nous ?

Financez votre formation !

Financement CPF

CPF de transition

PDC

VAE

Contrat PRO

AFPR

AIF

POEc

POEi

Découvrez nos solutions

Vous souhaitez vous inscrire ? en savoir plus ? poser une question ?

Formation Big data Architecture et Machine Learning

Devenez Big Data Architecte & Machine Learning

Jours de formation

Solutions de financement

A l’issue de la formation Big data Architecture et Machine Learning, le certifié sera en mesure de :

Programme détaillé

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Informations pratiques

Nombre de postes à pourvoir

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Quels sont les chiffres associés aux postes et à la formation ?

Salaire pour un junior en moyenne

Salaire pour un senior en moyenne

Recrutements jugés difficiles

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

La formation « Big data Architecture et Machine Learning » va vous ouvrir un large panel de possibilités et vous permettre d’exercer les métiers suivants :

Comment suivre une formation chez nous ?

Financez votre formation !

Financement CPF

Le certificat « Administration Base de Données SQL » va vous ouvrir un large
panel de possibilités et vous permettre d’exercer les métiers suivants :