Devenez Data scientist spécialisé IA

22 jours

100% finançable

Formation RNCP

Synthèse
Déroulé
Informations pratiques
Suivre une formation
Accueil > Projets > Big Data > Formation Data science et IA

Jours de formation

Solutions de financement

Une formation pour qui ?

La formation Data Science et IA s’adresse aux :

  • Directeurs/Chefs de projet ou Responsable métier
  • Responsable système d’informations
  • Développeurs informatiques
  • Consultants en business intelligence
  • Ingénieurs d’étude, de recherche et développement, Architecte système et logiciel
  • Consultants techniques, Consultants business
  • Statisticiens et Mathématiciens

 

Outre la maîtrise des enjeux et des perspectives, la formation Data Science et IA se distingue par la maîtrise de multi-compétences en Gestion de donnés massives.

Cette formation va vous permettre d’acquérir les compétences suivantes : l’architecture et l’engineering Big Data, le stockage NoSQL, l’analyse et la science de données, la visualisation de données, le déploiement en Cloud d’une solution Big Data et l’administration d’une plateforme Big Data.

Maîtriser le concept Big Data pour la recherche, l’analyse, le partage et le stockage de données massives.

Explorer le potentiel BIG DATA au service de tous les métiers (Marketing, Contrôle de Gestion, Ressources humaines, Renseignement, Santé, Banque, Assurance…)

Pré-requis

  • Avoir suivi la formation Développeur Java J2EE ou Microsoft.NET serait un plus
  • Avoir une expérience des bases de données relationnelles
  • Posséder des connaissances approfondies en statistique est un plus
  • Etre capable de travailler en équipe avec un sens d’écoute et d’analyse
  • Avoir des connaissances en Python est un plus

A l’issue du module Data Science et IA,

vous serez en mesure de :

  • Identifier les besoins et la problématique des directions métiers
  • Maîtriser les technologies spécifiques au Big Data comme Hadoop, Pig, Hive, Spark, Yarn, Kafka, ELK, ou Cloudera
  • Mettre en place un Data Lake
  • Maîtriser les bases de données NoSQL : MongoDB, Cassandra, Neo4j, hBase, Redis…
  • Maîtriser les technologies spécifiques à la science, à l’analyse ainsi qu’à la visualisation de données : Statistiques, Machine Learning, Deep Learning, langage R, Python, Tableau, PowerBI, R Shiny…
  • Maîtriser le déploiement des solutions Big Data sur le Cloud : AWS, GCP, Microsoft Azure…
  • Maîtriser la science de données et l’IA « Intelligence Artificielle » : Sprak Mlib, Scala, PySpark, RPA « Robotic Process Automation »
  • Construire des modèles prédictifs pour répondre à la problématique
  • Construire des algorithmes pour améliorer les résultats de recherche et de ciblage
  • Trouver et rassembler l’ensemble des sources de données structurées ou non structurées nécessaires à l’analyse pertinente
  • Identifier les opportunités à travers l’open data et les cas d’usage métiers
  • Concevoir un projet Big Data (acquisition et stockage des données, traitement distribué, analyse de données à large échelle)
  • Maîtriser les technologies par des études de cas concrètes
  • Maîtriser les enjeux juridiques et liés à la protection des données

Programme détaillé

01- NoSQL

1 jour

Voir le programme
Introduction aux Bases de données NoSQL

  • Histoire de NoSQL
  • Comprendre le modèle NoSQL
  • NoSQL Vs BDR
  • Propriétés ACID
  • Propriétés BASE
  • Théorème de Brewer ou de CAP
  • Caractéristiques NoSQL

Atelier pratique

Principaux modèles de BD NoSQL

  • Familles des Bases de Données NoSQL
  • Modèle NoSQL « Clé-Valeur »
  • Modèle NoSQL orienté Colonne
  • Modèle NoSQL orienté Document
  • Modèle NoSQL orienté Graphe
  • Bases de données NoSQL
  • Comparatif des bases de données NoSQL
  • Récapitulatif des types de schéma de données NoSQL
  • HBase
  • MongoDB
  • Cassandra
  • Redis
  • Couchbase
  • Elasticsearch
  • Riak

Atelier pratique

Choix d’une Base de données NoSql

  • Choisir une base de données NoSQL
  • Classification des bases de données les plus utilisées

Atelier pratique

02- Apache Hadoop

4 jours

Voir le programme
Section 1: Introduction à l’écosystème Hadoop

  • Aborder cette formation
  • Découvrir NoSQL
  • Définir le Big Data
  • Comprendre l’histoire d’Hadoop
  • Parcourir l’écosystème Hadoop
  • Différencier les distributions Hadoop
  • Comprendre le NoSQL
  • Définition du Big Data
  • Architecture de Hadoop
  • L’Écosystème de Hadoop
  • Rôle des différents composants de l’écosystème Hadoop
  • Rôle des collecteurs de données
  • Distributions d’Hadoop

Section 2: Installation de l’environnement Hadoop

  • Installation de l’environnement Hadoop VM Ubuntu
  • Installation de l’environnement Hadoop sur Windows
  • Différencier les distributions Hadoop
  • Découvrir Cloudera Hadoop
  • Démarrer une QuickStart VM
  • Travaux pratique: Installation Hadoop

Section 3: HDFS – La couche de stockage

  • Comprendre le HDFS
  • Découvrir HadoopFS
  • Assimiler les principes du HDFS
  • Appréhender les services HDFS
  • Comprendre les opérations HDFS
  • Configuration de HDFS
  • Demarrage de HDFS
  • Administrer le cluster HDFS
  • Découvrir la gestion des services HDFS
  • 0Manipuler les fichiers en ligne de commande
  • Exécuter des opérations en Java
  • Utiliser les InputStream Java
  • Accéder à HDFS avec WebHDFS
  • Caractéristiques de HDFS
  • Architecture de HDFS
  • Rôle de HDFS
  • Opérations HDFS
  • Listing des fichiers dans HDFS
  • Insertion des données dans HDFS
  • Extraction des données du HDFS
  • Arrêt du HDFS

Section 4: Fonctionnement de MapReduce

  • Appréhender les principes de base
  • Découvrir la fonction map()
  • Utiliser la fonction reduce()
  • Concevoir un MapReduce
  • Développer le mapper
  • Développer le reducer
  • Créer un jeu de données
  • Créer le driver
  • Lancer un MapReduce en Java
  • Suivre l’évolution du MapReduce
  • Développer un MapReduce en PHP
  • Lancer des MapReduce avec Hadoop Streaming
  • Principes de base de MapReduce
  • Architecture MapReduce
  • Fonction map()
  • Fonction reduce()
  • Conception d’un MapReduce
  • Développer le mapper
  • Développer le reducer
  • Création d’un jeu de données
  • Création d’un driver
  • Lancer un MapReduce en Java
  • Suivi de l’évolution du MapReduce
  • Développement d’un MapReduce en PHP
  • Lancement des MapReduce avec Hadoop Streaming
  • TP : Fonctionnement de MapReduce

Section 5: Base de données NoSQL HBase

  • Identifier les cas d’utilisation de HBase
  • Comprendre le modèle Hbase
  • Administrer HBase
  • Appréhender les opérations HBase
  • Gérer les services avec des interfaces web
  • Lancer des commandes HBase dans le terminal
  • Filtrer les résultats d’un scan
  • Utiliser HBase en Java
  • Utiliser HBase dans les MapReduce
  • Définition de Hbase
  • Hbase avec Hadoop
  • Cas d’utilisation de HBase
  • Comprendre le modèle Hbase
  • Installation de Hbase
  • Architecture
  • Composants Hbase (Region, Region Server, Region Split)
  • Lecture et écriture dans Hbase
  • API Shell
  • API Java
  • TP : Base de données NoSQL HBase

Section 6: Apache Oozie -Ordonnanceur de WorkFlow

  • Définition de Oozie
  • Caractéristiques Oozie
  • Fonctionnement de Oozie
  • Actions Oozie
  • Oozie Job
  • Oozie workflow
  • Coordinateur Oozie
  • Paramètre Oozie
  • Monitoring Oozie
  • Packaging et déploiement d’une application de workflow Oozie

Section 7: Collecte de données avec Apache Sqoop

  • Introduire scoop anglais
  • Importer les données avec scoop
  • Définition de Sqoop
  • Cible des imports dans le cluster
  • Architecture de Sqoop
  • Fonctionnement de Sqoop
  • Exemple d’import vers HDFS
  • Exemples d’import vers Hive
  • Exemple d‘exports

Section 8 : travaux pratiques: Développement d’une application Big Data avec Hadoop

  • Mission 1: Conception de l’application
  • Découper l’application
  • Exploiter les données
  • Concevoir la base de données HBase
  • Parser le fichier d’entrée dans un mapper
  • Écrire dans HBase avec un reducer
  • Mettre en place des clés composites
  • Utiliser les clés composites
  • Lancer un modèle MapReduce d’import

Mission 2: Développement des modèles MapReduce

  • Lire les données de HBase dans un mapper
  • Agréger les données dans un reducer
  • Suivre les modèles MapReduce
  • Déboguer les modèles MapReduce
  • Explorer les sources d’Hadoop
  • Réaliser des jointures de données
  • Résoudre le problème du secondary sort
  • Optimiser ses modèles MapReduce

Mission 3: Développement des modèles MapReduce

  • Mettre en place un workflow Oozie
  • Lancer un workflow Oozie
  • Filtrer les données de HBase
  • Exporter dans MySQL grâce à Sqoop
  • Lancer son workflow avec l’API HTTP REST
  • Coupler l’application avec une interface web
03- Introduction à la Data Science

1 jour

Voir le programme

Introduction à la Data Science

Big data

Deep learning

  • Perceptron
  • Réseaux neuronaux multicouches (MLP)
  • Réseaux neuronaux convolutifs (CNN)
  • Réseaux neuronaux récursifs (RNN)

Machine Learning

  • Apprentissage automatique supervisé/ non supervisé
  • Algorithmes du Machine Learning

Principes de la data science

  • Approche fonctionnelle de base
  • Variables prédictives
  • Variables à prédire
  • Fonctions hypothèses
  • Estimateurs (biais et variances)
  • Compromis biais – variance
  • Fonctions de perte
  • Régularisation des paramètres
  • Optimisation des paramètres

Clustering

  • k-moyens (kMeans)
  • Clustering hiérarchique
  • Approche DBSCAN

Classification

  • Régression logistique
  • Machines à vecteurs de support (SVM)
  • Arbres de décisions
  • K plus proches voisins (kNN)

Traitements en Data Science

  • Compressions des données
  • Réglages des modèles

Principes de l’apprentissage d’ensemble

  • Forêts aléatoires
  • gradient boosting

Principes de la régression

  • Explorations des données régressives
  • Performance des modèles de régression

Atelier Cas pratique

04- Python pour la data science

2 jours

Voir le programme
Opérations basiques avec Python

  • Python pour la data science
  • Comprendre l’importance de la data science
  • Expliquer le choix de Python
  • Installation de Python

Opérations basiques avec Python

  • Opérations basiques sur les listes
  • Opérations avancées sur les listes
  • Les dictionnaires
  • Les compréhensions

Chargement et préparation des données

  • Intérêt du prétraitement de données
  • Chargement des fichiers Excel et CSV
  • Chargement d’un fichier JSON
  • Interrogation d’une base de données SQL Server
  • Concaténation de différentes sources de données
  • Fusion de différentes sources de données
  • Manipulation des données manquantes
  • Maîtrise des statistiques descriptives avec NumPy
  • Maîtrise des statistiques descriptives avec Pandas

Manipulation des données

  • Différents types de données
  • Manipulation des données quantitatives avec NumPy
  • Techniques d’encodage
  • Manipulation des données textuelles avec Pandas
  • Manipulation des données textuelles avec NLTK
  • Utilisation des séries temporelles
  • Manipulation des images

Atelier pratique Visualisation des donnée

Visualisation des données

  • Découvrir les bases de la visualisation de données
  • Matplotlib
  • Seaborn
  • Bokeh
  • Aller plus loin avec Matplotlib

Initiation au Web scrapig

  • Web scraping
  • Exploration d’un document HTML avec Beautiful Soup
  • Objets Tag et NavigableString
  • Aller plus loin avec le web scraping
  • Pratique du web scraping

Initiation aux algorithmes de machine learning

  • Régression linéaire
  • Mise en œuvre la régression linéaire
  • Algorithme SVM
  • Utilisation de l’algorithme SVM
  • Classification naïve bayésienne
  • Pratique de la classification naïve bayésienne
  • Algorithme des k-moyennes
  • Utilisation de l’algorithme des k-moyennes
  • Analyse en composante principale PCA

Deep learning avec Keras et TensorFlow

  • Définition du Deep learning
  • Concepts du deep learning
  • TensorFlow
  • Keras
  • Compréhension et préparation des données
  • Déploiement du modèle

Atelier Pratique

05- Machine Learning

3 jours

Voir le programme
Initiation au machine Learning

  • Fondements du Machine Learning
  • Introduction au Machine Learning
  • Groupes de Machine Learning
  • Besoins du Machine Learning
  • Cycle de vie du Machine Learning
  • Identification des biais cognitifs humains

Classification du machine Learning

  • Théorie du Naïve Bayes
  • Régression logistique binomiale
  • Théorie k-NN
  • Arbres de classification
  • Forêts d’arbres de décision
  • Support vector machine

Régression linéaire avec Python

  • Définition de la régression
  • Régression linéaire univariée
  • Régression linéaire multivariée
  • Régression linéaire polynomiale
  • Régressions régularisées
  • Programmer une régression linéaire en Python
  • Utilisation des expressions lambda et des listes en intention
  • Afficher la régression avec MathPlotLib
  • L’erreur quadratique
  • La variance
  • Le risque

Initiation au clustering

  • Définition du clustering
  • Méthode k-means
  • Clustering hiérarchique

Initiation aux Règles d’association

  • Définition des règles d’association
  • Initiation à la méthode A priori
  • Évaluation des règles d’association candidates

Réduction dimensionnelle

  • Définition de la réduction dimensionnelle
  • Utilisation des méthodes de sélection de variables
  • Méthode ACP
  • Méthode ADL

Algorithmes Du Machine Learning

  • Initiation à l’ensemble learning
  • Apprentissage par renforcement
  • Régression linéaire simple et multiple
  • Régression polynomiale
  • Séries temporelles
  • Régression logistique et applications en scoring
  • Classification hiérarchique et non hiérarchique (K-Means)
  • Classification par arbres de décision ou approche Naïve Bayes
  • Ramdom Forest (développement des arbres de décision)
  • Gradiant Boosting
  • Réseaux de neurones
  • Machine à support de vecteurs
  • Deep Learning : exemples et raisons du succès actuel
  • Text Mining : analyse des corpus de données textuelles

Atelier cas pratique

 

Numpy Et Scipy

  • Tableaux et matrices
  • Algèbre linéaire avec Numpy
  • Numpy et MathPlotLib

Scikit learn

  • Machine Learning avec SKLearn
  • Régression linéaire
  • Création du modèle
  • Echantillonnage
  • Randomisation
  • Apprentissage avec fit
  • Prédiction du modèle
  • Metrics
  • Choix du modèle
  • PreProcessing et Pipeline
  • Régressions non polynomiales

Test et validation des algorithmes

  • Validation des algorithmes
  • Atelier cas pratique
  • Techniques de ré-échantillonnage en jeu d’apprentissage, de validation et de test
  • Mesures de performance des modèles prédictifs
  • Matrice de confusion, de coût et la courbe ROC et AUC

Atelier cas pratique

06- Deep Learning avec Python – Keras ou Tensor Flow

2 jours

Voir le programme
 Initiation au deep learning

• Comprendre le succès du deep learning
• Appréhender le machine learning
• Suivre une expérience en data science
• Comprendre le perceptron
• Comprendre le réseau de neurones
• Concevoir un réseau de neurones
• Entraîner un réseau de neurones
• Suivre les itérations de l’algorithme de rétropropagation
• Découvrir le deep learning
• Aborder l’architecture des réseaux de neurones
• Installer Anaconda
• Installer TensorFlow 2
• Lien entre l’IA et le deep learning
• Initiation au deep learning
• Structure d’un modèle de deep learning
• Comprendre le fonctionnement d’un modèle de deep learning
• Deep learning avec python

Atelier cas pratique

Composants de base de TensorFlow

• Prendre en main TensorFlow et les structures de données
• Pourquoi Tensorflow 2.0 ?
• Installation of Tensorflow 2.0
• Utiliser Tensorflow 2.0 avec ANACONDA/Google Colab
• Tensorflow – les structures de données
• Calculs de base sur les tenseurs
• Indexage – Indexation
• Manipulation de formes
• Introduction aux variables
• Introduction aux fonctions

Atelier cas pratique

Utiliser Functional API et Subclassing API

• Développer un modèle Functional API
• Développer un modèle Functional API avec plusieurs couches d’entrée
• Effectuer l’apprentissage d’un modèle Functional API avec plusieurs couches d’entrée
• Développer un modèle Functional API avec plusieurs couches de sortie
• Utiliser Subclassing API

Contrôler et monitorer un réseau de neurones

• Enregistrer un modèle
• Charger un modèle à partir d’un fichier
• Utiliser les callbacks prédéfinis lors de l’entraînement d’un réseau de neurones
• Configurer le critère d’arrêt de l’entraînement d’un réseau de neurones
• Visualiser les résultats avec TensorBoard
• Lancer le serveur TensorBoard
• Aborder les hyperparamètres d’un réseau de neurones
• Développer un programme pour fixer les hyperparamètres
• Utiliser GridSearchCV pour tester plusieurs paramètres
• Entraîner plusieurs réseaux de neurones avec GridSearchCV
• Gérer les hyperparamètres des réseaux de neurones
• Éviter le Sur-apprentissage
• La méthode “Early Stopping”
• Early Stopping dans Keras
• Stabiliser l’apprentissage d’un modèle
• Sauvegarder et réutiliser le modèle entraîné

Atelier cas pratique

Aborder CNN et le transfer learning

• Comprendre les CNN
• Éviter le surapprentissage avec le dropout
• Entraîner avec un CNN
• Réutiliser un réseau de neurones
• Implémenter le transfer learning
• Prédire avec le transfer learning
• Conclure sur TensorFlow
• Réseau à convolution CNN
• Comprendre l’architecture d’un réseau à convolution
• A quoi sert la convolution ?
• Méthode de sous échantillonnage : le Max-Pooling
• Les étapes de base pour créer le modèle CNN
• Application de CNN sur le jeu de données MNIST
• Comprendre l’apprentissage d’un réseau de convolutio

Atelier cas pratique 

_________________________

Introduction au Deep Learning

  • IA et deep learning
  • Architecture du deep learning
  • Fonctionnement d’un modèle de deep learning
  • Architecture d’un réseau de neurones
  • Construction d’un réseau de neurones
  • Apprentissage du réseau de neurones
  • Concepts de Keras
  • Deep learning avec Keras

Machine Learning et Deep Learning

  • Apprentissage automatique
  • Importation des données
  • Préparation des données
  • Stabilisation de l’apprentissage d’un modèle avec Keras
  • Sauvegarde et réutilisation d’un réseau avec Keras
  • Sauvegarde d’un réseau

Performance des algorithmes

  • Paramètres de l’apprentissage
  • Amélioration de l’apprentissage avec Keras
  • Stratégie d’amélioration
  • Accélération des calculs avec le cloud computing et le GPU
  • Accélération des calculs avec le cloud computing et le TPU

Atelier cas pratique

Mettre en œuvre Sequential API de TensorFlow.Keras

• Créer un réseau de neurones
• Créer un réseau de neurones de type MLP
• Accéder aux informations des couches d’un réseau de neurones
• Initialiser les poids et les biais d’un réseau de neurones
• Compiler et entraîner un réseau de neurones
• Comprendre les données de validation
• Traiter les données déséquilibrées
• Analyser les résultats
• Prédire avec un réseau de neurones multiclasse
• Charger les données pour une régression
• Réaliser un réseau de neurones pour une régression linéaire
• Découvrir le Deep learning avec tf.Keras
• Régression linéaire avec tf.keras
• Régression linéaire avec tf.keras
• Régression non linéaire avec tf.keras
• Un exercice simple de classification
• Reconnaissance de l’écriture manuscrite au moyen du MLP
• Reconnaissance de l’écriture manuscrite au moyen du MLP
• Stabiliser l’apprentissage d’un modèle avec tf.Keras
• Classification des images de vêtements

Analyse de textes avec Keras

  • Word embedding
  • Application du deep learning sur les textes
  • Préparation des documents avec Keras
  • Écriture d’un modèle de word embedding avec Keras
  • Classification des documents et interprétation des résultats
  • Amélioration d’un modèle d’analyse de textes avec Keras

Reconnaissance des images avec Keras

  • Définition de la convolution
  • Application de la convolution sur des images
  • Application du deep learning sur des images
  • Fonctionnement du pooling
  • Architecture d’un réseau à convolution
  • Jeu de données d’images
  • Préparation des images pour l’analyse
  • Découverte de l’OCR
  • Reconnaissance des images
  • Augmentation des données
  • Préparation des données pour réutiliser les meilleurs modèles de Keras
  • Réutilisation des meilleurs modèles existants avec Kera

Atelier cas pratique

 

07- ElasticSearch

2 jours

Voir le programme
Généralités sur les moteur de recherches

Présentation d’ElasticSearch

Installation et configuration

  • Installation
  • Configuration
  • Vue générale de l’API REST
  • Première indexation
  • Première recherche
  • Installation depuis les RPM
  • Utilisation de l’interface X-Pack monitoring
  • Premiers pas dans la console Sense
  • Etude du fichier : elasticsearch.yml.

Indexation de documents

  • Conception de l’index et de ses documents
  • Indexer ou supprimer des documents avec l’API Rest
  • Indexation en masse
  • Version et gestion optimiste de la concurrence
  • Présentation du stockage Lucene et refresh
  • Autres fonctionnalités (routing, consistency, document enfant, …)

Mapping

  • Définition et rôle du mapping
  • Types de champs
  • Champs prédéfinis
  • Méta données d’un Index

Format des données

  • Json
  • Notions de types et de mapping
  • Mise à jour des types ou re-indexation

Analyse et extraction de texte

  • La base de l’extraction et analyse de texte
  • Configuration et utilisation des Analyzers prédéfinis ou customisés
  • API de vérification de l’analyse de texte

Recherche de documents

  • Rechercher des documents avec l’API Rest
  • Gestion des résultats
  • Les requêtes de recherche
  • Requêtes vs filtres
  • Avantages des filtres

Kibana

  • Présentation par les API d’administration et de supervision
  • Objectifs
  • Collecte de données
  • Logs…
  • Stockage dans ElasticSearch et mise à disposition dans une interface

Web de graphiques

  • Démonstrations

Atelier cas pratique

Clustering

  • Définitions
  • Cluster
  • Noeud
  • Sharding
  • Nature distribuée d’ElasticSearch
  • Présentation des fonctionnalités
  • Stockage distribué
  • Calculs distribués avec ElasticSearch
  • Tolérance aux pannes

Fonctionnement

  • Notion de noeud maître
  • Stockage des documents
  • Shard primaire et réplicat
  • Routage interne des requêtes

Gestion du cluster

  • Outils d’interrogation
  • /_cluster/health
  • Création d’un index
  • Définition des espaces de stockage (shard)
  • Allocation à un noeud
  • Configuration de nouveaux noeuds
  • Tolérance aux pannes matérielles et répartition du stockage
  • Gestion des pannes
  • Fonctionnement en cas de perte d’un noeud
  • Election d’un nouveau noeud maître si nécessaire
  • Déclaration de nouveaux shards primaires

Mise en oeuvre X-Pack Security

  • Présentation des apports de X-Pack Security
  • Authentification
  • Gestion des accès aux données (rôles)
  • Filtrage par adresse IP
  • Cryptage des données
  • Contrôle des données
  • Audit d’activité

Exploitation

  • Gestion des logs
  • ES_HOME/logs
  • Paramétrage de différents niveaux de logs
  • INFO
  • DEBUG
  • TRACE
  • Suivi des performances
  • Sauvegardes avec l’API Snapshot

Atelier cas pratique

08- Visualisation de données avec Excel / Power BI / Tableau

2 jours

Voir le programme
EXCEL : 

Section 1: Importation et exportation de données (partie 1)

1. Importer dans Excel à partir d’un fichier

  • Importer des données à partir d’un classeur Excel
  • Obtenir des données à partir d’un fichier texte ou CSV
  • Importer des données depuis un fichier XML
  • Importer des données depuis un fichier JSON
  • Importer les données d’un dossier
  • Récupérer les données d’une bibliothèque SharePoint

2. Importer dans Excel à partir d’une base de données

  • Importer depuis une base de données SQL Server
  • Importer depuis une base de données Microsoft Access
  • Obtenir des données Analysis Services
  • Importer des données SQL Server Analysis Services
  • Importer des données depuis MySQL Server

3. Importer dans Excel à partir de Microsoft Azure

  • Importer des données depuis une base de données SQL Server
  • Importer des données depuis Azure SQL Data Warehouse et Azure
  • HDInsight
  • Importer des données depuis un stockage Blob Azure
  • Importer des données depuis un stockage Table Azure
  • Importer des données depuis Azure Data Lake Storage

4. Importer dans Excel à partir de services en ligne

  • Importer des données depuis une liste SharePoint Online
  • Importer des données depuis Microsoft Exchange Online
  • Importer des données depuis Dynamics 365
  • Importer des données depuis Facebook

5. Pdf

  • Découvrir Power Query
  • Importer dans Excel à partir d’un fichier
  • Importer dans Excel à partir d’une base de données
  • Importer dans Excel à partir de Microsoft Azure
  • Importer dans Excel à partir de service en ligne

Section 2: Importation et exportation de données (partie 2)

1. Importer dans Excel à partir d’autres sources

  • Importer des données depuis un tableau ou une plage
  • Importer des données à partir d’un site web
  • Importer des données depuis Microsoft Query
  • Importer des données depuis SharePoint Server
  • Importer des données à partir d’un flux OData
  • Importer des données à partir d’Active Directory
  • Importer des données à partir d’une requête vide

2. Aborder les fonctionnalités complémentaires

  • Fusionner des sources multiples
  • Ajouter des sources multiples
  • Gérer les paramètres des sources de données
  • Utiliser les options des requêtes
  • Actualiser les données importées

3. Exporter dans d’autres formats

  • Exporter un fichier au format texte
  • Exporter un fichier au format CSV
  • Exporter un fichier au format XML
  • Exporter un fichier vers une page web
  • Exporter un fichier comme classeur Excel
  • Exporter un fichier en tant que modèle Excel
  • Exporter un fichier aux formats SYLK et DIF
  • Exporter un fichier au format PDF
  • Exporter un tableau dans une liste SharePoint
  • Exporter un tableau comme diagramme croisé dynamique
  • Visio
  • Découvrir les fonctions Exporter et Publier de Microsoft Excel

4. Pdf

  • Importer dans Excel à partir d’autres sources
  • Aborder les fonctionnalité complémentaires
  • Exporter dans d’autres formats

Section 3: Analyse de données avec Power Pivot (partie 1)

1. Power Pivot

  • Activer Power Pivot
  • Comprendre l’intérêt du data storytelling
  • Connaître les avantages et les inconvénients de Power Pivot
  • Aborder les différences entre Power Pivot et Power BI

2. Exploiter les sources de données

  • Découvrir l’interface de Power Pivot
  • Importer des données depuis un fichier Excel
  • Copier-coller les données
  • Récupérer des données externes
  • Importer les données d’un autre fichier Excel
  • Transférer les données d’un fichier CSV
  • Collecter les données d’un flux OData
  • Importer des données avec Power Query

3. Manipuler Power Pivot

  • Aborder les feuilles de données
  • Utiliser les options de colonnes de données
  • Mettre en forme et filtrer des données
  • Trouver et modifier les métadonnées
  • Créer et manipuler les perspectives
  • Tirer parti des colonnes calculées
  • Exploiter les mesures
  • Connaître les propriétés de la création de rapports
  • Employer les synonymes

4. Lecture Pdf

  • Découvrir Power Pivot
  • Exploiter les sources de données
  • Manipuler Power Pivot

Section 4: Analyse de données avec Power Pivot (partie 2)

1. Mettre en place les relations

  • Découvrir la vue diagramme et les relations entre tables
  • Comprendre la cardinalité de la relation
  • Assimiler le sens de filtrage de la relation
  • Utiliser une table de date

2. Exploiter les indicateurs clés de performance (KPI)

  • Mettre en place un KPI
  • Créer un indicateur sur une mesure

3. Établir des hiérarchies

  • Découvrir la hiérarchie
  • Modifier les hiérarchies automatiques
  • Créer une hiérarchie

4. Aborder les tableaux croisés dynamiques

  • Générer un tableau croisé dynamique
  • Manipuler les jeux de lignes ou de colonnes
  • Convertir un tableau croisé dynamique en formules
  • Partager un tableau croisé dynamique

5. Lecture Pdf

  • Mettre en place les relations
  • Exploiter les indicateurs clés de performance (KPI)
  • Établir des hiérarchies
  • Aborder les tableaux croisés dynamiques
  • Section 5: Analyse de données avec Power Query

1. Découvrir Power Query

  • Définir les objectifs de la formation
  • Comprendre le complément Power Query pour Excel
  • Comprendre les ETL et leur utilité
  • Évaluer les avantages et les limites de l’éditeur de requête
  • Comparer avec Power BI pour Desktop

2. Transformer ses données

  • Gérer les erreurs de données
  • Renommer les colonnes
  • Définir les types de données
  • Filtrer les données
  • Traiter les doublons et les valeurs NULL
  • Fractionner ou assembler des colonnes
  • Formater les contenus des colonnes
  • Transposer une table de données
  • Chercher et remplacer des valeurs dans une colonne
  • Regrouper les données
  • Ajouter des colonnes personnalisées

3. Aller plus loin avec les transformations de données

  • Combiner des requêtes
  • Lier les tables et les requêtes

4. Pdf

  • Mettre en place les relations
  • Exploiter les indicateurs clés de performance (KPI)
  • Établir des hiérarchies
  • Aborder les tableaux croisés dynamiques

TABLEAU : 

Introduction à la visualisation avec Tableau

  • Comprendre les besoins auxquels répond Tableau
  • Comprendre l’architecture générale
  • Aborder les prérequis
  • Découvrir le cycle de travail
  • Installation de tableau
  • Parcourir les fichiers source

Connexion à une source et importation des données

  • Ouvrir Tableau
  • Se connecter à un fichier Excel
  • Vérifier les données
  • Filtrer les chaînes de caractères
  • Filtrer les données numériques
  • Filtrer les données de type date
  • Comprendre la notion de jointure
  • Ajouter une deuxième feuille de calcul
  • Ajouter un autre fichier
  • Exécuter la requête

Création d’un visuel et préparation des données

  • Explorer la structure d’ensemble d’un fichier Tableau
  • Prendre en main l’interface de création des visualisations
  • Créer un histogramme
  • Utiliser l’étagère Repère pour améliorer le graphique
  • Utiliser l’étagère Repère pour améliorer l’infobulle
  • Définir le format d’affichage par défaut pour les mesures
  • Créer une hiérarchie pour explorer les données
  • Regrouper les valeurs d’une dimension
  • Comprendre l’agrégation des mesures
  • Actualiser les données de l’extrait

Aller plus loin avec les graphiques

  • Travailler avec les dates
  • Découvrir la variété des graphiques
  • Filtrer un graphique
  • Créer une matrice de graphiques
  • Créer un graphique en miroir
  • Créer un graphique à deux axes
  • Ajouter une ligne de référence
  • Créer un graphique en secteur

Travailler avec les tableaux 

  • Créer un tableau simple
  • Créer un tableau simple multidimensionnel
  • Ajouter une mise en forme conditionnelle
  • Créer un tableau croisé
  • Créer un tableau multimesure

Création des formules simples

  • S’initier aux formules dans Tableau
  • Créer un champ calculé simple
  • Créer un champ calculé conditionnel
  • Créer une mesure discrète
  • Créer et afficher un paramètre
  • Utiliser un paramètre dans une formule

Création d’un tableau de bord

  • Découvrir l’interface d’assemblage d’un tableau de bord
  • Démarrer et assembler un tableau de bord
  • Assembler un tableau de bord à l’aide de différents éléments
  • Paramétrer les interactivités du tableau de bord

Atelier pratique

 

POWER BI :

 

Introduction à Power Bi

  • Présentation De Power BI
  • Caractéristiques de Power Bi
  • Composants de Power BI
  • Cycle de travail dans Power BI Desktop
  • Configuration des options de Power BI

Création de  requêtes basées sur Excel

  • Importer un fichier Excel composé d’une feuille
  • Importer un fichier Excel composé de plusieurs feuilles
  • Importer un TCD Excel
  • Atelier pratique : Création de requêtes basées sur Excel

Préparation des données

  • Choix des colonnes
  • Nettoyage des données
  • Conversion des données
  • Transformation des données
  • Ajout des colonnes selon 2 méthodes
  • Fusion des requêtes
  • Combinaison des requêtes
  • Atelier pratique : Préparation des données

Création de requêtes sur une base de données

  • Appréhender l’import et la requête directe
  • Importer les tables
  • Atelier pratique : Création de requêtes sur une base de données

Création de requêtes sur d’autres sources

  • Importer plusieurs fichiers Excel
  • Créer une requête sur un fichier TXT ou CSV
  • Effectuer une requête à partir du web
  • Requêter à partir d’un fichier PDF
  • Atelier pratique : Création de requêtes sur d’autres sources

Organisation des tables et des relations

  • Utiliser la vue Modèle
  • Mettre en place les relations
  • Connaître les bonnes pratiques d’organisation des tables
  • Formater et organiser les données
  • Créer une mesure
  • Atelier pratique : Organisation des tables et des relations

Création de la table de temps

  • Nécessité d’une table de temps
  • Créer la table à l’aide d’un script DAX
  • Associer la table au modèle et ajuster les champs
  • Déterminer le nombre de tables du temps
  • Atelier pratique : Création de la table de temps

Mise en place des principaux graphiques et tableaux

  • Aborder les règles d’ergonomie et de composition d’un rapport
  • Découvrir l’interface de Power BI
  • Choisir judicieusement les couleurs
  • Créer et configurer un histogramme
  • Créer et configurer un graphique en courbe
  • Créer un graphique en secteur
  • Créer une carte
  • Créer une carte à plusieurs lignes
  • Ajouter une zone de texte et une image pour le titre
  • Créer une carte géographique
  • Atelier pratique : Mise en place des principaux graphiques et les tableaux

Filtrage des données

  • Créer un segment
  • Synchroniser les segments entre plusieurs pages
  • Utiliser le volet Filtre
  • Atelier pratique : Filtrage des données

Utilisation des tableaux

  • Créer un tableau simple
  • Créer un tableau croisé
  • Dupliquer la mise en forme
  • Atelier pratique : Utilisation des tableaux

Exportation des données

  • Récupérer les données au format Excel/CSV et exporter au format PDF
  • Introduction à Power BI Service
  • Atelier pratique : Exportation des données
09- RPA (Robotic Process Automation) avec Python

2 jours

Voir le programme
Section 1. Tout automatiser avec Python

  • Automatiser tout avec Python
  • Course prerequisites
  • Découvrir le RPA.
  • Les opportunités pour l’entreprise.
  • Les bénéfices de la RPA
  • Quel outil faut-il utiliser ?
  • Automatisation avec Python
  • Préparation de l’environnement de travail
  • TP
  • Quiz

Section 2. Automatiser les interactions avec les fichiers, les dossiers et les terminaux

  • Comment lire les fichiers
  • Comment écrire des fichiers
  • Exécuter les commandes du terminal
  • Organiser les répertoires
  • Le répertoire de travail actuel
  • Chemins absolus et chemins relatifs
  • Créer de nouveaux dossiers
  • Le processus de lecture/écriture de fichiers
  • Copier, déplacer, renommer et supprimer des fichiers et des dossiers
  • Organiser les Dossiers
  • Quiz

Section 3 : Automatiser l’accès aux données web – niveau de base

  • La valeur du web scrapping
  • Création et analyse d’une requête
  • Explorer la structure HTML
  • Comment isoler les données
  • Préparation au grattage paginé
  • Gratter le contenu paginé
  • Web scraping
  • Exploration d’un document HTML avec Beautiful Soup
  • Objets Tag et NavigableString
  • Aller plus loin avec le web scraping
  • Pratique du web scraping
  • Mini-projet Web Scraping avec BeautifulSoup
  • TP
  • Quiz

Section 4. Automatisation de l’accès aux données Web – Niveau intermédiaire

  • Automatiser la navigation web
  • Interaction du base du navigateur
  • Gestion du glisser -déposer
  • Fonction d’attente du selenium
  • Fonction d’attente explicite de selenium
  • Utiliser les fichiers d’exercice
  • Comprendre le NLP
  • Découvrir les domaines et les exemples d’application du NLP
  • Installer Anaconda
  • Aborder l’environnement Jupyter
  • Comprendre le pipeline de modélisation NLP
  • TP
  • Quiz

Section 5. Automatisation de l’accès aux données Web – Niveau avancé

  • Comprendre les requêtes API
  • Créer des requêtes d’API
  • Analyse via JSON
  • Utilisation des clés API
  • Lier les appels d’API
  • Prochaines étapes
  • Comprendre les requêtes API
  • Créer des requêtes d’API
  • Analyser le JSON
  • Utiliser des clés d’API
  • Lier les appels d’API
  • Application – Mini-Projet
  • TP
  • Quiz
10- NLP – Natural Language Processing

2 jours

Voir le programme

Section 1. Découvrir le NLP

1. Traitement du langage naturel avec Python
2. Connaître les prérequis théoriques et techniques
3. Utiliser les fichiers d’exercice
4. Comprendre le NLP
5. Découvrir les domaines et les exemples d’application du NLP
6. Installer Anaconda
7. Aborder l’environnement Jupyter
8. Comprendre le pipeline de modélisation NLP
9. Support pdf
– Utiliser les fichiers d’exercice
– Comprendre le NLP
– Découvrir les domaines et les exemples d’application du NLP
– Installer Anaconda
– Aborder l’environnement Jupyter
– Comprendre le pipeline de modélisation NLP
10. TP
11. Quiz

Section 2. Traiter un texte avec Python

1. Stocker un texte brut dans une structure de données Python
2. Utiliser Pandas pour lire les données
3. Comprendre les expressions régulières
4. Utiliser les expressions régulières avec le module Re de Python
5. Étudier les fonctions les plus populaires du module Re
6. Support pdf
– Stocker un texte brut dans une structure de données Python
– Utiliser Pandas pour lire les données
– Comprendre les expressions régulières
– Utiliser les expressions régulières avec le module Re de Python
– Étudier les fonctions les plus populaires du module Re
7. TP
8. Quiz

Section 3. Préparer les données

1. Aborder les étapes de préparation des données
2. Réaliser un exemple de nettoyage de données
3. Supprimer les stopwords
4. Réaliser le stemming avec NLTK
5. Pratiquer la lemmatization avec NLTK
6. Comparer le stemming et la lemmatization
7. Support pdf
– Aborder les étapes de préparation des données
– Supprimer les caractères de ponctuation
– Supprimer les stopwords
– Réaliser le stemming avec NLTK
– Réaliser la lemmatization avec NLTK
– Comparer le stemming et la lemmatization
9. TP
10. Quiz

Section 4. Transformer un texte en chiffres

1. Comprendre la vectorisation avec CountVectorizer
2. Utiliser CountVectorizer
3. Effectuer une vectorisation contextuelle avec N-Grams
4. Étudier TF-IDF
5. Utiliser TF-IDF
6. Appréhender le feature engineering
7. Ajouter des features aux données
8. Analyser les features
9. Support pdf
– Comprendre la vectorisation
– Comprendre la vectorisation avec CountVectorizer
– Utiliser CountVectorizer
– Effectuer une vectorisation contextuelle avec N-Grams
– Étudier TF-IDF
– Utiliser TF-IDF
– Appréhender le feature engineering
10. TP
11. Quiz

Section 5. Comprendre l’expérience machine learning – NLP

1. Apprendre la méthode K-fold
2. Comprendre la matrice de confusion d’un modèle de classification
3. Comprendre les mesures de performance d’un modèle NLP
4. Aborder l’overfitting (le surapprentissage)
6. Support pdf
– Apprendre la méthode K-fold
– La validation croisée avec Scikit-learn
– Matrice de Confusion d’un modèle de classification
– Les mesures de performance d’un modèle NLP
7. Quiz

 

Section 6. Réaliser un modèle de classification avec SVM

1. Modéliser en machine learning
2. Aborder l’algorithme Support Vector Machine
3. Utiliser le SVM avec scikit-learn et CountVectorizer
4. Tester le modèle de classification SVM
5. Mesurer les performances du modèle de classification SVM
6. Utiliser le SVM avec la cross-validation
7. Utiliser le SVM avec TF-IDF
7. Support pdf
– Machine Learning
– Aborder l’algorithme Support Vector Machine
– Utiliser le SVM avec scikit-learn
– Tester le modèle de classification
– Utiliser le SVM avec la cross-validation
8. TP
9. Quiz

Section 7. Réaliser un modèle de classification avec le Random forest

1. Aborder l’algorithme Random forest
2. Utiliser Random forest pour construire un modèle de classification
3. Mesurer les performances d’un modèle de classification Random forest
4. Utiliser Random forest avec K-fold
5. Support pdf
– Aborder l’algorithme Random forest
– Utiliser Random forest pour construire un modèle de classification
– Mesurer les performances d’un modèle de classification Random forest
– Utiliser Random forest avec K-fold
6. TP
7. Quiz

Section 8. Perfectionner un modèle avec l’hyperparamètre

1. Programmer un hyperparamètre avec le modèle SVM
2. Programmer un hyperparamètre avec Random forest
3. Évaluer les résultats d’un hyperparamètre
4. Tester GridSearchCV avec un SVM
5. Tester GridSearchCV avec Random forest
6. Détecter les features les plus importantes avec le Random forest
7. Homogénéiser les données avec TF-IDF
8. Tester Random forest sur des données homogènes
9. Sélectionner un modèle
10. Conclure sur le traitement du NLP avec Python
15. Support pdf
₋ Programmer un hyperparamètre avec le modèle SVM
₋ Programmer un hyperparamètre avec Random forest
₋ Évaluer les résultats d’un hyperparamètre
₋ Tester GridSearchCV avec un SVM
₋ Tester GridSearchCV avec Random forest
16. TP
17. Quiz

Section 9. Examen final

1. Synthèse du cours
2. TP Général
3. Examen final

Informations pratiques

Suivant le baromètre Besoin en Main d’Œuvre 2019 (BMO 2019) et la DARES, le nombre de postes à créer pour le consultant Big Data ainsi que les difficultés de recrutement en 2019 sont comme suit

Nombre de postes à pourvoir

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Quels sont les chiffres associés aux postes et à la formation ?

Salaire pour un junior en moyenne

Salaire pour un senior en moyenne

Recrutements jugés difficiles

%

National

%

Île-de-France

%

Auvergne-Rhône-Alpes

%

Occitanie

La formation « Data science et IA » va vous ouvrir un large panel de possibilités et vous permettre d’exercer les métiers suivants :

 

✔ Consultant Big Data
✔ Data Architect
✔ Data engineering
✔ Data Analyst
✔ Data Scientist avec Python
✔ Data Scientist avec R
✔ Data Scientist et Intelligence artificielle
✔ Architect cloud AWS, Azure ou GCP pour Big Data
✔ Développeur Full Stack Big Data

Comment suivre une formation chez nous ?

1. Prenez contact avec nos conseillers.
2. Choisissez le format de votre formation : Blended (présentiel et e-learning) ou présentiel
3. Nous validons votre dossier et vous recevez vos identifiants.
4. Vous pouvez commencer la formation.
tooltip text

Financez votre formation !

Financement CPF

CPF « Compte Personnel de Formation »
+

CPF de transition

CPF de transition pour une Reconversion Professionnelle.
g

PDC

Plan de Développement de Compétences de l’entreprise.
Z

VAE

VAE : Validation des Acquis de l’Expérience.
i

Contrat PRO

Contrat d’alternance ou de Professionnalisation.

AFPR

Action de Formation Préalable à l’Embauche.
o

AIF

AIF : Aide Individuelle à la Formation par Pôle Emploi.

POEc

Préparation Opérationnelle Emploi Collective.

POEi

Préparation Opérationnelle Emploi Individuelle.
Financez votre formation !

Découvrez nos solutions
Financement CPF – CPF « Compte Personnel de Formation »

 

CPF de transition – CPF de transition pour une Reconversion Professionnelle

 

PDC- Plan de Développement de Compétences de l’entreprise.

 

VAE – Validation des Acquis de l’Expérience

 

Contrat PRO – Contrat d’alternance ou de Professionnalisation

 

AFPR – Action de Formation Préalable à l’Embauche

 

AIF – Aide Individuelle à la Formation par Pôle Emploi

 

POEc – Préparation Opérationnelle Emploi Collective

 

POEi – Préparation Opérationnelle Emploi Individuelle

 

Contactez-nous

Vous souhaitez vous inscrire ? en savoir plus ? poser une question ?

6 + 4 =