Devenez Data scientist spécialisé IA



22 jours



100% finançable



Formation RNCP

Candidater en ligne

Synthèse

Déroulé

Informations pratiques

Suivre une formation

Accueil > Projets > Big Data > Formation Data science et IA

Jours de formation

Solutions de financement

Une formation pour qui ?

La formation Data Science et IA s’adresse aux :

Directeurs/Chefs de projet ou Responsable métier
Responsable système d’informations
Développeurs informatiques
Consultants en business intelligence
Ingénieurs d’étude, de recherche et développement, Architecte système et logiciel
Consultants techniques, Consultants business
Statisticiens et Mathématiciens

Outre la maîtrise des enjeux et des perspectives, la formation Data Science et IA se distingue par la maîtrise de multi-compétences en Gestion de donnés massives.

Cette formation va vous permettre d’acquérir les compétences suivantes : l’architecture et l’engineering Big Data, le stockage NoSQL, l’analyse et la science de données, la visualisation de données, le déploiement en Cloud d’une solution Big Data et l’administration d’une plateforme Big Data.

Maîtriser le concept Big Data pour la recherche, l’analyse, le partage et le stockage de données massives.

Explorer le potentiel BIG DATA au service de tous les métiers (Marketing, Contrôle de Gestion, Ressources humaines, Renseignement, Santé, Banque, Assurance…)

Pré-requis

Avoir suivi la formation Développeur Java J2EE ou Microsoft.NET serait un plus
Avoir une expérience des bases de données relationnelles
Posséder des connaissances approfondies en statistique est un plus
Etre capable de travailler en équipe avec un sens d’écoute et d’analyse
Avoir des connaissances en Python est un plus

Demandez la documentation complète

A l’issue du module Data Science et IA,

vous serez en mesure de :

Identifier les besoins et la problématique des directions métiers
Maîtriser les technologies spécifiques au Big Data comme Hadoop, Pig, Hive, Spark, Yarn, Kafka, ELK, ou Cloudera
Mettre en place un Data Lake
Maîtriser les bases de données NoSQL : MongoDB, Cassandra, Neo4j, hBase, Redis…
Maîtriser les technologies spécifiques à la science, à l’analyse ainsi qu’à la visualisation de données : Statistiques, Machine Learning, Deep Learning, langage R, Python, Tableau, PowerBI, R Shiny…
Maîtriser le déploiement des solutions Big Data sur le Cloud : AWS, GCP, Microsoft Azure…
Maîtriser la science de données et l’IA « Intelligence Artificielle » : Sprak Mlib, Scala, PySpark, RPA « Robotic Process Automation »
Construire des modèles prédictifs pour répondre à la problématique
Construire des algorithmes pour améliorer les résultats de recherche et de ciblage
Trouver et rassembler l’ensemble des sources de données structurées ou non structurées nécessaires à l’analyse pertinente
Identifier les opportunités à travers l’open data et les cas d’usage métiers
Concevoir un projet Big Data (acquisition et stockage des données, traitement distribué, analyse de données à large échelle)
Maîtriser les technologies par des études de cas concrètes
Maîtriser les enjeux juridiques et liés à la protection des données

Programme détaillé

01- NoSQL

1 jour

Voir le programme

Introduction aux Bases de données NoSQL

Histoire de NoSQL
Comprendre le modèle NoSQL
NoSQL Vs BDR
Propriétés ACID
Propriétés BASE
Théorème de Brewer ou de CAP
Caractéristiques NoSQL

Atelier pratique

Principaux modèles de BD NoSQL

Familles des Bases de Données NoSQL
Modèle NoSQL « Clé-Valeur »
Modèle NoSQL orienté Colonne
Modèle NoSQL orienté Document
Modèle NoSQL orienté Graphe
Bases de données NoSQL
Comparatif des bases de données NoSQL
Récapitulatif des types de schéma de données NoSQL
HBase
MongoDB
Cassandra
Redis
Couchbase
Elasticsearch
Riak

Atelier pratique

Choix d’une Base de données NoSql

Choisir une base de données NoSQL
Classification des bases de données les plus utilisées

Atelier pratique

02- Apache Hadoop

4 jours

Voir le programme

Section 1: Introduction à l’écosystème Hadoop

Aborder cette formation
Découvrir NoSQL
Définir le Big Data
Comprendre l’histoire d’Hadoop
Parcourir l’écosystème Hadoop
Différencier les distributions Hadoop
Comprendre le NoSQL
Définition du Big Data
Architecture de Hadoop
L’Écosystème de Hadoop
Rôle des différents composants de l’écosystème Hadoop
Rôle des collecteurs de données
Distributions d’Hadoop

Section 2: Installation de l’environnement Hadoop

Installation de l’environnement Hadoop VM Ubuntu
Installation de l’environnement Hadoop sur Windows
Différencier les distributions Hadoop
Découvrir Cloudera Hadoop
Démarrer une QuickStart VM
Travaux pratique: Installation Hadoop

Section 3: HDFS – La couche de stockage

Comprendre le HDFS
Découvrir HadoopFS
Assimiler les principes du HDFS
Appréhender les services HDFS
Comprendre les opérations HDFS
Configuration de HDFS
Demarrage de HDFS
Administrer le cluster HDFS
Découvrir la gestion des services HDFS
0Manipuler les fichiers en ligne de commande
Exécuter des opérations en Java
Utiliser les InputStream Java
Accéder à HDFS avec WebHDFS
Caractéristiques de HDFS
Architecture de HDFS
Rôle de HDFS
Opérations HDFS
Listing des fichiers dans HDFS
Insertion des données dans HDFS
Extraction des données du HDFS
Arrêt du HDFS

Section 4: Fonctionnement de MapReduce

Appréhender les principes de base
Découvrir la fonction map()
Utiliser la fonction reduce()
Concevoir un MapReduce
Développer le mapper
Développer le reducer
Créer un jeu de données
Créer le driver
Lancer un MapReduce en Java
Suivre l’évolution du MapReduce
Développer un MapReduce en PHP
Lancer des MapReduce avec Hadoop Streaming
Principes de base de MapReduce
Architecture MapReduce
Fonction map()
Fonction reduce()
Conception d’un MapReduce
Développer le mapper
Développer le reducer
Création d’un jeu de données
Création d’un driver
Lancer un MapReduce en Java
Suivi de l’évolution du MapReduce
Développement d’un MapReduce en PHP
Lancement des MapReduce avec Hadoop Streaming
TP : Fonctionnement de MapReduce

Section 5: Base de données NoSQL HBase

Identifier les cas d’utilisation de HBase
Comprendre le modèle Hbase
Administrer HBase
Appréhender les opérations HBase
Gérer les services avec des interfaces web
Lancer des commandes HBase dans le terminal
Filtrer les résultats d’un scan
Utiliser HBase en Java
Utiliser HBase dans les MapReduce
Définition de Hbase
Hbase avec Hadoop
Cas d’utilisation de HBase
Comprendre le modèle Hbase
Installation de Hbase
Architecture
Composants Hbase (Region, Region Server, Region Split)
Lecture et écriture dans Hbase
API Shell
API Java
TP : Base de données NoSQL HBase

Section 6: Apache Oozie -Ordonnanceur de WorkFlow

Définition de Oozie
Caractéristiques Oozie
Fonctionnement de Oozie
Actions Oozie
Oozie Job
Oozie workflow
Coordinateur Oozie
Paramètre Oozie
Monitoring Oozie
Packaging et déploiement d’une application de workflow Oozie

Section 7: Collecte de données avec Apache Sqoop

Introduire scoop anglais
Importer les données avec scoop
Définition de Sqoop
Cible des imports dans le cluster
Architecture de Sqoop
Fonctionnement de Sqoop
Exemple d’import vers HDFS
Exemples d’import vers Hive
Exemple d‘exports

Section 8 : travaux pratiques: Développement d’une application Big Data avec Hadoop

Mission 1: Conception de l’application
Découper l’application
Exploiter les données
Concevoir la base de données HBase
Parser le fichier d’entrée dans un mapper
Écrire dans HBase avec un reducer
Mettre en place des clés composites
Utiliser les clés composites
Lancer un modèle MapReduce d’import

Mission 2: Développement des modèles MapReduce

Lire les données de HBase dans un mapper
Agréger les données dans un reducer
Suivre les modèles MapReduce
Déboguer les modèles MapReduce
Explorer les sources d’Hadoop
Réaliser des jointures de données
Résoudre le problème du secondary sort
Optimiser ses modèles MapReduce

Mission 3: Développement des modèles MapReduce

Mettre en place un workflow Oozie
Lancer un workflow Oozie
Filtrer les données de HBase
Exporter dans MySQL grâce à Sqoop
Lancer son workflow avec l’API HTTP REST
Coupler l’application avec une interface web

03- Introduction à la Data Science

1 jour

Voir le programme

Introduction à la Data Science

Big data

Deep learning

Perceptron
Réseaux neuronaux multicouches (MLP)
Réseaux neuronaux convolutifs (CNN)
Réseaux neuronaux récursifs (RNN)

Machine Learning

Apprentissage automatique supervisé/ non supervisé
Algorithmes du Machine Learning

Principes de la data science

Approche fonctionnelle de base
Variables prédictives
Variables à prédire
Fonctions hypothèses
Estimateurs (biais et variances)
Compromis biais – variance
Fonctions de perte
Régularisation des paramètres
Optimisation des paramètres

Clustering

k-moyens (kMeans)
Clustering hiérarchique
Approche DBSCAN

Classification

Régression logistique
Machines à vecteurs de support (SVM)
Arbres de décisions
K plus proches voisins (kNN)

Traitements en Data Science

Compressions des données
Réglages des modèles

Principes de l’apprentissage d’ensemble

Forêts aléatoires
gradient boosting

Principes de la régression

Explorations des données régressives
Performance des modèles de régression

Atelier Cas pratique

04- Python pour la data science

2 jours

Voir le programme

Opérations basiques avec Python

Python pour la data science
Comprendre l’importance de la data science
Expliquer le choix de Python
Installation de Python

Opérations basiques avec Python

Opérations basiques sur les listes
Opérations avancées sur les listes
Les dictionnaires
Les compréhensions

Chargement et préparation des données

Intérêt du prétraitement de données
Chargement des fichiers Excel et CSV
Chargement d’un fichier JSON
Interrogation d’une base de données SQL Server
Concaténation de différentes sources de données
Fusion de différentes sources de données
Manipulation des données manquantes
Maîtrise des statistiques descriptives avec NumPy
Maîtrise des statistiques descriptives avec Pandas

Manipulation des données

Différents types de données
Manipulation des données quantitatives avec NumPy
Techniques d’encodage
Manipulation des données textuelles avec Pandas
Manipulation des données textuelles avec NLTK
Utilisation des séries temporelles
Manipulation des images

Atelier pratique Visualisation des donnée

Visualisation des données

Découvrir les bases de la visualisation de données
Matplotlib
Seaborn
Bokeh
Aller plus loin avec Matplotlib

Initiation au Web scrapig

Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping

Initiation aux algorithmes de machine learning

Régression linéaire
Mise en œuvre la régression linéaire
Algorithme SVM
Utilisation de l’algorithme SVM
Classification naïve bayésienne
Pratique de la classification naïve bayésienne
Algorithme des k-moyennes
Utilisation de l’algorithme des k-moyennes
Analyse en composante principale PCA

Deep learning avec Keras et TensorFlow

Définition du Deep learning
Concepts du deep learning
TensorFlow
Keras
Compréhension et préparation des données
Déploiement du modèle

Atelier Pratique

05- Machine Learning

3 jours

Voir le programme

Initiation au machine Learning

Fondements du Machine Learning
Introduction au Machine Learning
Groupes de Machine Learning
Besoins du Machine Learning
Cycle de vie du Machine Learning
Identification des biais cognitifs humains

Classification du machine Learning

Théorie du Naïve Bayes
Régression logistique binomiale
Théorie k-NN
Arbres de classification
Forêts d’arbres de décision
Support vector machine

Régression linéaire avec Python

Définition de la régression
Régression linéaire univariée
Régression linéaire multivariée
Régression linéaire polynomiale
Régressions régularisées
Programmer une régression linéaire en Python
Utilisation des expressions lambda et des listes en intention
Afficher la régression avec MathPlotLib
L’erreur quadratique
La variance
Le risque

Initiation au clustering

Définition du clustering
Méthode k-means
Clustering hiérarchique

Initiation aux Règles d’association

Définition des règles d’association
Initiation à la méthode A priori
Évaluation des règles d’association candidates

Réduction dimensionnelle

Définition de la réduction dimensionnelle
Utilisation des méthodes de sélection de variables
Méthode ACP
Méthode ADL

Algorithmes Du Machine Learning

Initiation à l’ensemble learning
Apprentissage par renforcement
Régression linéaire simple et multiple
Régression polynomiale
Séries temporelles
Régression logistique et applications en scoring
Classification hiérarchique et non hiérarchique (K-Means)
Classification par arbres de décision ou approche Naïve Bayes
Ramdom Forest (développement des arbres de décision)
Gradiant Boosting
Réseaux de neurones
Machine à support de vecteurs
Deep Learning : exemples et raisons du succès actuel
Text Mining : analyse des corpus de données textuelles

Atelier cas pratique

Numpy Et Scipy

Tableaux et matrices
Algèbre linéaire avec Numpy
Numpy et MathPlotLib

Scikit learn

Machine Learning avec SKLearn
Régression linéaire
Création du modèle
Echantillonnage
Randomisation
Apprentissage avec fit
Prédiction du modèle
Metrics
Choix du modèle
PreProcessing et Pipeline
Régressions non polynomiales

Test et validation des algorithmes

Validation des algorithmes
Atelier cas pratique
Techniques de ré-échantillonnage en jeu d’apprentissage, de validation et de test
Mesures de performance des modèles prédictifs
Matrice de confusion, de coût et la courbe ROC et AUC

Atelier cas pratique

06- Deep Learning avec Python – Keras ou Tensor Flow

2 jours

Voir le programme

Initiation au deep learning

• Comprendre le succès du deep learning
• Appréhender le machine learning
• Suivre une expérience en data science
• Comprendre le perceptron
• Comprendre le réseau de neurones
• Concevoir un réseau de neurones
• Entraîner un réseau de neurones
• Suivre les itérations de l’algorithme de rétropropagation
• Découvrir le deep learning
• Aborder l’architecture des réseaux de neurones
• Installer Anaconda
• Installer TensorFlow 2
• Lien entre l’IA et le deep learning
• Initiation au deep learning
• Structure d’un modèle de deep learning
• Comprendre le fonctionnement d’un modèle de deep learning
• Deep learning avec python

Atelier cas pratique

Composants de base de TensorFlow

• Prendre en main TensorFlow et les structures de données
• Pourquoi Tensorflow 2.0 ?
• Installation of Tensorflow 2.0
• Utiliser Tensorflow 2.0 avec ANACONDA/Google Colab
• Tensorflow – les structures de données
• Calculs de base sur les tenseurs
• Indexage – Indexation
• Manipulation de formes
• Introduction aux variables
• Introduction aux fonctions

Atelier cas pratique

Utiliser Functional API et Subclassing API

• Développer un modèle Functional API
• Développer un modèle Functional API avec plusieurs couches d’entrée
• Effectuer l’apprentissage d’un modèle Functional API avec plusieurs couches d’entrée
• Développer un modèle Functional API avec plusieurs couches de sortie
• Utiliser Subclassing API

Contrôler et monitorer un réseau de neurones

• Enregistrer un modèle
• Charger un modèle à partir d’un fichier
• Utiliser les callbacks prédéfinis lors de l’entraînement d’un réseau de neurones
• Configurer le critère d’arrêt de l’entraînement d’un réseau de neurones
• Visualiser les résultats avec TensorBoard
• Lancer le serveur TensorBoard
• Aborder les hyperparamètres d’un réseau de neurones
• Développer un programme pour fixer les hyperparamètres
• Utiliser GridSearchCV pour tester plusieurs paramètres
• Entraîner plusieurs réseaux de neurones avec GridSearchCV
• Gérer les hyperparamètres des réseaux de neurones
• Éviter le Sur-apprentissage
• La méthode “Early Stopping”
• Early Stopping dans Keras
• Stabiliser l’apprentissage d’un modèle
• Sauvegarder et réutiliser le modèle entraîné

Atelier cas pratique

Aborder CNN et le transfer learning

• Comprendre les CNN
• Éviter le surapprentissage avec le dropout
• Entraîner avec un CNN
• Réutiliser un réseau de neurones
• Implémenter le transfer learning
• Prédire avec le transfer learning
• Conclure sur TensorFlow
• Réseau à convolution CNN
• Comprendre l’architecture d’un réseau à convolution
• A quoi sert la convolution ?
• Méthode de sous échantillonnage : le Max-Pooling
• Les étapes de base pour créer le modèle CNN
• Application de CNN sur le jeu de données MNIST
• Comprendre l’apprentissage d’un réseau de convolutio

Atelier cas pratique

_________________________

Introduction au Deep Learning

IA et deep learning
Architecture du deep learning
Fonctionnement d’un modèle de deep learning
Architecture d’un réseau de neurones
Construction d’un réseau de neurones
Apprentissage du réseau de neurones
Concepts de Keras
Deep learning avec Keras

Machine Learning et Deep Learning

Apprentissage automatique
Importation des données
Préparation des données
Stabilisation de l’apprentissage d’un modèle avec Keras
Sauvegarde et réutilisation d’un réseau avec Keras
Sauvegarde d’un réseau

Performance des algorithmes

Paramètres de l’apprentissage
Amélioration de l’apprentissage avec Keras
Stratégie d’amélioration
Accélération des calculs avec le cloud computing et le GPU
Accélération des calculs avec le cloud computing et le TPU

Atelier cas pratique

Mettre en œuvre Sequential API de TensorFlow.Keras

• Créer un réseau de neurones
• Créer un réseau de neurones de type MLP
• Accéder aux informations des couches d’un réseau de neurones
• Initialiser les poids et les biais d’un réseau de neurones
• Compiler et entraîner un réseau de neurones
• Comprendre les données de validation
• Traiter les données déséquilibrées
• Analyser les résultats
• Prédire avec un réseau de neurones multiclasse
• Charger les données pour une régression
• Réaliser un réseau de neurones pour une régression linéaire
• Découvrir le Deep learning avec tf.Keras
• Régression linéaire avec tf.keras
• Régression linéaire avec tf.keras
• Régression non linéaire avec tf.keras
• Un exercice simple de classification
• Reconnaissance de l’écriture manuscrite au moyen du MLP
• Reconnaissance de l’écriture manuscrite au moyen du MLP
• Stabiliser l’apprentissage d’un modèle avec tf.Keras
• Classification des images de vêtements

Analyse de textes avec Keras

Word embedding
Application du deep learning sur les textes
Préparation des documents avec Keras
Écriture d’un modèle de word embedding avec Keras
Classification des documents et interprétation des résultats
Amélioration d’un modèle d’analyse de textes avec Keras

Reconnaissance des images avec Keras

Définition de la convolution
Application de la convolution sur des images
Application du deep learning sur des images
Fonctionnement du pooling
Architecture d’un réseau à convolution
Jeu de données d’images
Préparation des images pour l’analyse
Découverte de l’OCR
Reconnaissance des images
Augmentation des données
Préparation des données pour réutiliser les meilleurs modèles de Keras
Réutilisation des meilleurs modèles existants avec Kera

Atelier cas pratique

07- ElasticSearch

2 jours

Voir le programme

Généralités sur les moteur de recherches

Présentation d’ElasticSearch

Installation et configuration

Installation
Configuration
Vue générale de l’API REST
Première indexation
Première recherche
Installation depuis les RPM
Utilisation de l’interface X-Pack monitoring
Premiers pas dans la console Sense
Etude du fichier : elasticsearch.yml.

Indexation de documents

Conception de l’index et de ses documents
Indexer ou supprimer des documents avec l’API Rest
Indexation en masse
Version et gestion optimiste de la concurrence
Présentation du stockage Lucene et refresh
Autres fonctionnalités (routing, consistency, document enfant, …)

Mapping

Définition et rôle du mapping
Types de champs
Champs prédéfinis
Méta données d’un Index

Format des données

Json
Notions de types et de mapping
Mise à jour des types ou re-indexation

Analyse et extraction de texte

La base de l’extraction et analyse de texte
Configuration et utilisation des Analyzers prédéfinis ou customisés
API de vérification de l’analyse de texte

Recherche de documents

Rechercher des documents avec l’API Rest
Gestion des résultats
Les requêtes de recherche
Requêtes vs filtres
Avantages des filtres

Kibana

Présentation par les API d’administration et de supervision
Objectifs
Collecte de données
Logs…
Stockage dans ElasticSearch et mise à disposition dans une interface

Web de graphiques

Démonstrations

Atelier cas pratique

Clustering

Définitions
Cluster
Noeud
Sharding
Nature distribuée d’ElasticSearch
Présentation des fonctionnalités
Stockage distribué
Calculs distribués avec ElasticSearch
Tolérance aux pannes

Fonctionnement

Notion de noeud maître
Stockage des documents
Shard primaire et réplicat
Routage interne des requêtes

Gestion du cluster

Outils d’interrogation
/_cluster/health
Création d’un index
Définition des espaces de stockage (shard)
Allocation à un noeud
Configuration de nouveaux noeuds
Tolérance aux pannes matérielles et répartition du stockage
Gestion des pannes
Fonctionnement en cas de perte d’un noeud
Election d’un nouveau noeud maître si nécessaire
Déclaration de nouveaux shards primaires

Mise en oeuvre X-Pack Security

Présentation des apports de X-Pack Security
Authentification
Gestion des accès aux données (rôles)
Filtrage par adresse IP
Cryptage des données
Contrôle des données
Audit d’activité

Exploitation

Gestion des logs
ES_HOME/logs
Paramétrage de différents niveaux de logs
INFO
DEBUG
TRACE
Suivi des performances
Sauvegardes avec l’API Snapshot

Atelier cas pratique

08- Visualisation de données avec Excel / Power BI / Tableau

2 jours

Voir le programme

EXCEL :

Section 1: Importation et exportation de données (partie 1)

1. Importer dans Excel à partir d’un fichier

Importer des données à partir d’un classeur Excel
Obtenir des données à partir d’un fichier texte ou CSV
Importer des données depuis un fichier XML
Importer des données depuis un fichier JSON
Importer les données d’un dossier
Récupérer les données d’une bibliothèque SharePoint

2. Importer dans Excel à partir d’une base de données

Importer depuis une base de données SQL Server
Importer depuis une base de données Microsoft Access
Obtenir des données Analysis Services
Importer des données SQL Server Analysis Services
Importer des données depuis MySQL Server

3. Importer dans Excel à partir de Microsoft Azure

Importer des données depuis une base de données SQL Server
Importer des données depuis Azure SQL Data Warehouse et Azure
HDInsight
Importer des données depuis un stockage Blob Azure
Importer des données depuis un stockage Table Azure
Importer des données depuis Azure Data Lake Storage

4. Importer dans Excel à partir de services en ligne

Importer des données depuis une liste SharePoint Online
Importer des données depuis Microsoft Exchange Online
Importer des données depuis Dynamics 365
Importer des données depuis Facebook

5. Pdf

Découvrir Power Query
Importer dans Excel à partir d’un fichier
Importer dans Excel à partir d’une base de données
Importer dans Excel à partir de Microsoft Azure
Importer dans Excel à partir de service en ligne

Section 2: Importation et exportation de données (partie 2)

1. Importer dans Excel à partir d’autres sources

Importer des données depuis un tableau ou une plage
Importer des données à partir d’un site web
Importer des données depuis Microsoft Query
Importer des données depuis SharePoint Server
Importer des données à partir d’un flux OData
Importer des données à partir d’Active Directory
Importer des données à partir d’une requête vide

2. Aborder les fonctionnalités complémentaires

Fusionner des sources multiples
Ajouter des sources multiples
Gérer les paramètres des sources de données
Utiliser les options des requêtes
Actualiser les données importées

3. Exporter dans d’autres formats

Exporter un fichier au format texte
Exporter un fichier au format CSV
Exporter un fichier au format XML
Exporter un fichier vers une page web
Exporter un fichier comme classeur Excel
Exporter un fichier en tant que modèle Excel
Exporter un fichier aux formats SYLK et DIF
Exporter un fichier au format PDF
Exporter un tableau dans une liste SharePoint
Exporter un tableau comme diagramme croisé dynamique
Visio
Découvrir les fonctions Exporter et Publier de Microsoft Excel

4. Pdf

Importer dans Excel à partir d’autres sources
Aborder les fonctionnalité complémentaires
Exporter dans d’autres formats

Section 3: Analyse de données avec Power Pivot (partie 1)

1. Power Pivot

Activer Power Pivot
Comprendre l’intérêt du data storytelling
Connaître les avantages et les inconvénients de Power Pivot
Aborder les différences entre Power Pivot et Power BI

2. Exploiter les sources de données

Découvrir l’interface de Power Pivot
Importer des données depuis un fichier Excel
Copier-coller les données
Récupérer des données externes
Importer les données d’un autre fichier Excel
Transférer les données d’un fichier CSV
Collecter les données d’un flux OData
Importer des données avec Power Query

3. Manipuler Power Pivot

Aborder les feuilles de données
Utiliser les options de colonnes de données
Mettre en forme et filtrer des données
Trouver et modifier les métadonnées
Créer et manipuler les perspectives
Tirer parti des colonnes calculées
Exploiter les mesures
Connaître les propriétés de la création de rapports
Employer les synonymes

4. Lecture Pdf

Découvrir Power Pivot
Exploiter les sources de données
Manipuler Power Pivot

Section 4: Analyse de données avec Power Pivot (partie 2)

1. Mettre en place les relations

Découvrir la vue diagramme et les relations entre tables
Comprendre la cardinalité de la relation
Assimiler le sens de filtrage de la relation
Utiliser une table de date

2. Exploiter les indicateurs clés de performance (KPI)

Mettre en place un KPI
Créer un indicateur sur une mesure

3. Établir des hiérarchies

Découvrir la hiérarchie
Modifier les hiérarchies automatiques
Créer une hiérarchie

4. Aborder les tableaux croisés dynamiques

Générer un tableau croisé dynamique
Manipuler les jeux de lignes ou de colonnes
Convertir un tableau croisé dynamique en formules
Partager un tableau croisé dynamique

5. Lecture Pdf

Mettre en place les relations
Exploiter les indicateurs clés de performance (KPI)
Établir des hiérarchies
Aborder les tableaux croisés dynamiques
Section 5: Analyse de données avec Power Query

1. Découvrir Power Query

Définir les objectifs de la formation
Comprendre le complément Power Query pour Excel
Comprendre les ETL et leur utilité
Évaluer les avantages et les limites de l’éditeur de requête
Comparer avec Power BI pour Desktop

2. Transformer ses données

Gérer les erreurs de données
Renommer les colonnes
Définir les types de données
Filtrer les données
Traiter les doublons et les valeurs NULL
Fractionner ou assembler des colonnes
Formater les contenus des colonnes
Transposer une table de données
Chercher et remplacer des valeurs dans une colonne
Regrouper les données
Ajouter des colonnes personnalisées

3. Aller plus loin avec les transformations de données

Combiner des requêtes
Lier les tables et les requêtes

4. Pdf

Mettre en place les relations
Exploiter les indicateurs clés de performance (KPI)
Établir des hiérarchies
Aborder les tableaux croisés dynamiques

TABLEAU :

Introduction à la visualisation avec Tableau

Comprendre les besoins auxquels répond Tableau
Comprendre l’architecture générale
Aborder les prérequis
Découvrir le cycle de travail
Installation de tableau
Parcourir les fichiers source

Connexion à une source et importation des données

Ouvrir Tableau
Se connecter à un fichier Excel
Vérifier les données
Filtrer les chaînes de caractères
Filtrer les données numériques
Filtrer les données de type date
Comprendre la notion de jointure
Ajouter une deuxième feuille de calcul
Ajouter un autre fichier
Exécuter la requête

Création d’un visuel et préparation des données

Explorer la structure d’ensemble d’un fichier Tableau
Prendre en main l’interface de création des visualisations
Créer un histogramme
Utiliser l’étagère Repère pour améliorer le graphique
Utiliser l’étagère Repère pour améliorer l’infobulle
Définir le format d’affichage par défaut pour les mesures
Créer une hiérarchie pour explorer les données
Regrouper les valeurs d’une dimension
Comprendre l’agrégation des mesures
Actualiser les données de l’extrait

Aller plus loin avec les graphiques

Travailler avec les dates
Découvrir la variété des graphiques
Filtrer un graphique
Créer une matrice de graphiques
Créer un graphique en miroir
Créer un graphique à deux axes
Ajouter une ligne de référence
Créer un graphique en secteur

Travailler avec les tableaux

Créer un tableau simple
Créer un tableau simple multidimensionnel
Ajouter une mise en forme conditionnelle
Créer un tableau croisé
Créer un tableau multimesure

Création des formules simples

S’initier aux formules dans Tableau
Créer un champ calculé simple
Créer un champ calculé conditionnel
Créer une mesure discrète
Créer et afficher un paramètre
Utiliser un paramètre dans une formule

Création d’un tableau de bord

Découvrir l’interface d’assemblage d’un tableau de bord
Démarrer et assembler un tableau de bord
Assembler un tableau de bord à l’aide de différents éléments
Paramétrer les interactivités du tableau de bord

Atelier pratique

POWER BI :

Introduction à Power Bi

Présentation De Power BI
Caractéristiques de Power Bi
Composants de Power BI
Cycle de travail dans Power BI Desktop
Configuration des options de Power BI

Création de requêtes basées sur Excel

Importer un fichier Excel composé d’une feuille
Importer un fichier Excel composé de plusieurs feuilles
Importer un TCD Excel
Atelier pratique : Création de requêtes basées sur Excel

Préparation des données

Choix des colonnes
Nettoyage des données
Conversion des données
Transformation des données
Ajout des colonnes selon 2 méthodes
Fusion des requêtes
Combinaison des requêtes
Atelier pratique : Préparation des données

Création de requêtes sur une base de données

Appréhender l’import et la requête directe
Importer les tables
Atelier pratique : Création de requêtes sur une base de données

Création de requêtes sur d’autres sources

Importer plusieurs fichiers Excel
Créer une requête sur un fichier TXT ou CSV
Effectuer une requête à partir du web
Requêter à partir d’un fichier PDF
Atelier pratique : Création de requêtes sur d’autres sources

Organisation des tables et des relations

Utiliser la vue Modèle
Mettre en place les relations
Connaître les bonnes pratiques d’organisation des tables
Formater et organiser les données
Créer une mesure
Atelier pratique : Organisation des tables et des relations

Création de la table de temps

Nécessité d’une table de temps
Créer la table à l’aide d’un script DAX
Associer la table au modèle et ajuster les champs
Déterminer le nombre de tables du temps
Atelier pratique : Création de la table de temps

Mise en place des principaux graphiques et tableaux

Aborder les règles d’ergonomie et de composition d’un rapport
Découvrir l’interface de Power BI
Choisir judicieusement les couleurs
Créer et configurer un histogramme
Créer et configurer un graphique en courbe
Créer un graphique en secteur
Créer une carte
Créer une carte à plusieurs lignes
Ajouter une zone de texte et une image pour le titre
Créer une carte géographique
Atelier pratique : Mise en place des principaux graphiques et les tableaux

Filtrage des données

Créer un segment
Synchroniser les segments entre plusieurs pages
Utiliser le volet Filtre
Atelier pratique : Filtrage des données

Utilisation des tableaux

Créer un tableau simple
Créer un tableau croisé
Dupliquer la mise en forme
Atelier pratique : Utilisation des tableaux

Exportation des données

Récupérer les données au format Excel/CSV et exporter au format PDF
Introduction à Power BI Service
Atelier pratique : Exportation des données

09- RPA (Robotic Process Automation) avec Python

2 jours

Voir le programme

Section 1. Tout automatiser avec Python

Automatiser tout avec Python
Course prerequisites
Découvrir le RPA.
Les opportunités pour l’entreprise.
Les bénéfices de la RPA
Quel outil faut-il utiliser ?
Automatisation avec Python
Préparation de l’environnement de travail
TP
Quiz

Section 2. Automatiser les interactions avec les fichiers, les dossiers et les terminaux

Comment lire les fichiers
Comment écrire des fichiers
Exécuter les commandes du terminal
Organiser les répertoires
Le répertoire de travail actuel
Chemins absolus et chemins relatifs
Créer de nouveaux dossiers
Le processus de lecture/écriture de fichiers
Copier, déplacer, renommer et supprimer des fichiers et des dossiers
Organiser les Dossiers
Quiz

Section 3 : Automatiser l’accès aux données web – niveau de base

La valeur du web scrapping
Création et analyse d’une requête
Explorer la structure HTML
Comment isoler les données
Préparation au grattage paginé
Gratter le contenu paginé
Web scraping
Exploration d’un document HTML avec Beautiful Soup
Objets Tag et NavigableString
Aller plus loin avec le web scraping
Pratique du web scraping
Mini-projet Web Scraping avec BeautifulSoup
TP
Quiz

Section 4. Automatisation de l’accès aux données Web – Niveau intermédiaire

Automatiser la navigation web
Interaction du base du navigateur
Gestion du glisser -déposer
Fonction d’attente du selenium
Fonction d’attente explicite de selenium
Utiliser les fichiers d’exercice
Comprendre le NLP
Découvrir les domaines et les exemples d’application du NLP
Installer Anaconda
Aborder l’environnement Jupyter
Comprendre le pipeline de modélisation NLP
TP
Quiz

Section 5. Automatisation de l’accès aux données Web – Niveau avancé

Comprendre les requêtes API
Créer des requêtes d’API
Analyse via JSON
Utilisation des clés API
Lier les appels d’API
Prochaines étapes
Comprendre les requêtes API
Créer des requêtes d’API
Analyser le JSON
Utiliser des clés d’API
Lier les appels d’API
Application – Mini-Projet
TP
Quiz

10- NLP – Natural Language Processing

2 jours

Voir le programme

Section 1. Découvrir le NLP

1. Traitement du langage naturel avec Python
2. Connaître les prérequis théoriques et techniques
3. Utiliser les fichiers d’exercice
4. Comprendre le NLP
5. Découvrir les domaines et les exemples d’application du NLP
6. Installer Anaconda
7. Aborder l’environnement Jupyter
8. Comprendre le pipeline de modélisation NLP
9. Support pdf
– Utiliser les fichiers d’exercice
– Comprendre le NLP
– Découvrir les domaines et les exemples d’application du NLP
– Installer Anaconda
– Aborder l’environnement Jupyter
– Comprendre le pipeline de modélisation NLP
10. TP
11. Quiz

Section 2. Traiter un texte avec Python

1. Stocker un texte brut dans une structure de données Python
2. Utiliser Pandas pour lire les données
3. Comprendre les expressions régulières
4. Utiliser les expressions régulières avec le module Re de Python
5. Étudier les fonctions les plus populaires du module Re
6. Support pdf
– Stocker un texte brut dans une structure de données Python
– Utiliser Pandas pour lire les données
– Comprendre les expressions régulières
– Utiliser les expressions régulières avec le module Re de Python
– Étudier les fonctions les plus populaires du module Re
7. TP
8. Quiz

Section 3. Préparer les données

1. Aborder les étapes de préparation des données
2. Réaliser un exemple de nettoyage de données
3. Supprimer les stopwords
4. Réaliser le stemming avec NLTK
5. Pratiquer la lemmatization avec NLTK
6. Comparer le stemming et la lemmatization
7. Support pdf
– Aborder les étapes de préparation des données
– Supprimer les caractères de ponctuation
– Supprimer les stopwords
– Réaliser le stemming avec NLTK
– Réaliser la lemmatization avec NLTK
– Comparer le stemming et la lemmatization
9. TP
10. Quiz

Section 4. Transformer un texte en chiffres

1. Comprendre la vectorisation avec CountVectorizer
2. Utiliser CountVectorizer
3. Effectuer une vectorisation contextuelle avec N-Grams
4. Étudier TF-IDF
5. Utiliser TF-IDF
6. Appréhender le feature engineering
7. Ajouter des features aux données
8. Analyser les features
9. Support pdf
– Comprendre la vectorisation
– Comprendre la vectorisation avec CountVectorizer
– Utiliser CountVectorizer
– Effectuer une vectorisation contextuelle avec N-Grams
– Étudier TF-IDF
– Utiliser TF-IDF
– Appréhender le feature engineering
10. TP
11. Quiz

Section 5. Comprendre l’expérience machine learning – NLP

1. Apprendre la méthode K-fold
2. Comprendre la matrice de confusion d’un modèle de classification
3. Comprendre les mesures de performance d’un modèle NLP
4. Aborder l’overfitting (le surapprentissage)
6. Support pdf
– Apprendre la méthode K-fold
– La validation croisée avec Scikit-learn
– Matrice de Confusion d’un modèle de classification
– Les mesures de performance d’un modèle NLP
7. Quiz

Section 6. Réaliser un modèle de classification avec SVM

1. Modéliser en machine learning
2. Aborder l’algorithme Support Vector Machine
3. Utiliser le SVM avec scikit-learn et CountVectorizer
4. Tester le modèle de classification SVM
5. Mesurer les performances du modèle de classification SVM
6. Utiliser le SVM avec la cross-validation
7. Utiliser le SVM avec TF-IDF
7. Support pdf
– Machine Learning
– Aborder l’algorithme Support Vector Machine
– Utiliser le SVM avec scikit-learn
– Tester le modèle de classification
– Utiliser le SVM avec la cross-validation
8. TP
9. Quiz

Section 7. Réaliser un modèle de classification avec le Random forest

1. Aborder l’algorithme Random forest
2. Utiliser Random forest pour construire un modèle de classification
3. Mesurer les performances d’un modèle de classification Random forest
4. Utiliser Random forest avec K-fold
5. Support pdf
– Aborder l’algorithme Random forest
– Utiliser Random forest pour construire un modèle de classification
– Mesurer les performances d’un modèle de classification Random forest
– Utiliser Random forest avec K-fold
6. TP
7. Quiz

Section 8. Perfectionner un modèle avec l’hyperparamètre

1. Programmer un hyperparamètre avec le modèle SVM
2. Programmer un hyperparamètre avec Random forest
3. Évaluer les résultats d’un hyperparamètre
4. Tester GridSearchCV avec un SVM
5. Tester GridSearchCV avec Random forest
6. Détecter les features les plus importantes avec le Random forest
7. Homogénéiser les données avec TF-IDF
8. Tester Random forest sur des données homogènes
9. Sélectionner un modèle
10. Conclure sur le traitement du NLP avec Python
15. Support pdf
₋ Programmer un hyperparamètre avec le modèle SVM
₋ Programmer un hyperparamètre avec Random forest
₋ Évaluer les résultats d’un hyperparamètre
₋ Tester GridSearchCV avec un SVM
₋ Tester GridSearchCV avec Random forest
16. TP
17. Quiz

Section 9. Examen final

1. Synthèse du cours
2. TP Général
3. Examen final

Informations pratiques

Suivant le baromètre Besoin en Main d’Œuvre 2019 (BMO 2019) et la DARES, le nombre de postes à créer pour le consultant Big Data ainsi que les difficultés de recrutement en 2019 sont comme suit

Nombre de postes à pourvoir

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Quels sont les chiffres associés aux postes et à la formation ?

Salaire pour un junior en moyenne

Salaire pour un senior en moyenne

Recrutements jugés difficiles

%

National

%

Île-de-France

%

Auvergne-Rhône-Alpes

%

Occitanie

Une question ? Contactez-nous !

La formation « Data science et IA » va vous ouvrir un large panel de possibilités et vous permettre d’exercer les métiers suivants :

✔ Consultant Big Data
✔ Data Architect
✔ Data engineering
✔ Data Analyst
✔ Data Scientist avec Python
✔ Data Scientist avec R
✔ Data Scientist et Intelligence artificielle
✔ Architect cloud AWS, Azure ou GCP pour Big Data
✔ Développeur Full Stack Big Data

Comment suivre une formation chez nous ?

1. Prenez contact avec nos conseillers.
2. Choisissez le format de votre formation : Blended (présentiel et e-learning) ou présentiel
3. Nous validons votre dossier et vous recevez vos identifiants.
4. Vous pouvez commencer la formation.

Financez votre formation !

Une question ? Contactez-nous !

Financement CPF

CPF « Compte Personnel de Formation »

+

CPF de transition

CPF de transition pour une Reconversion Professionnelle.

g

PDC

Plan de Développement de Compétences de l’entreprise.

Z

VAE

VAE : Validation des Acquis de l’Expérience.

i

Contrat PRO

Contrat d’alternance ou de Professionnalisation.



AFPR

Action de Formation Préalable à l’Embauche.

o

AIF

AIF : Aide Individuelle à la Formation par Pôle Emploi.



POEc

Préparation Opérationnelle Emploi Collective.



POEi

Préparation Opérationnelle Emploi Individuelle.

Financez votre formation !

Découvrez nos solutions

Financement CPF – CPF « Compte Personnel de Formation »

CPF de transition – CPF de transition pour une Reconversion Professionnelle

PDC- Plan de Développement de Compétences de l’entreprise.

VAE – Validation des Acquis de l’Expérience

Contrat PRO – Contrat d’alternance ou de Professionnalisation

AFPR – Action de Formation Préalable à l’Embauche

AIF – Aide Individuelle à la Formation par Pôle Emploi

POEc – Préparation Opérationnelle Emploi Collective

POEi – Préparation Opérationnelle Emploi Individuelle

Contactez-nous

Devenez Data scientist spécialisé IA

Jours de formation

Solutions de financement

A l’issue du module Data Science et IA,

vous serez en mesure de :

Programme détaillé

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Voir le programme

Informations pratiques

Nombre de postes à pourvoir

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

Quels sont les chiffres associés aux postes et à la formation ?

Salaire pour un junior en moyenne

Salaire pour un senior en moyenne

Recrutements jugés difficiles

National

Île-de-France

Auvergne-Rhône-Alpes

Occitanie

La formation « Data science et IA » va vous ouvrir un large panel de possibilités et vous permettre d’exercer les métiers suivants :

Comment suivre une formation chez nous ?

Financez votre formation !

Financement CPF

CPF de transition

PDC

VAE

Contrat PRO

AFPR

AIF

POEc

POEi

Découvrez nos solutions

Vous souhaitez vous inscrire ? en savoir plus ? poser une question ?