Course Content
Module 1 : Fondamentaux de la Science des Données
Ce module introductif établit les fondements conceptuels de la science des données. Il définit la discipline dans son contexte historique et interdisciplinaire, présente les rôles professionnels clés et leur collaboration, puis introduit la méthodologie structurée d'un projet de données. L'objectif est de construire une compréhension solide du domaine avant d'aborder les aspects techniques dans les modules suivants.
0/3
Module 2 : Typologie et Collecte des Données
Ce module explore la matière première de la discipline : les données. Vous apprendrez à identifier les différents types de données et à comprendre les méthodes de collecte, qu'elles soient internes ou externes.
0/3
Module 3 : Préparation et Nettoyage des Données
Une étape cruciale et souvent chronophage. Ce module vous enseignera les techniques indispensables pour nettoyer et préparer vos données, une condition sine qua non à toute analyse fiable.
0/3
Module 4 : Analyse Exploratoire des Données (EDA)
Le cœur de l'analyse. Ce module vous apprendra à "dialoguer" avec vos données à travers les statistiques descriptives pour en extraire les premières informations et formuler des hypothèses.
0/3
Module 5 : Visualisation des Données
Savoir communiquer ses résultats est aussi important que l'analyse elle-même. Ce module vous initiera aux principes de la visualisation de données et à la création de graphiques clairs et informatifs avec des outils comme Matplotlib.
0/3
Introduction à la Science des Données

Dans l’univers de la science des données, toutes les informations ne se présentent pas sous la même forme. Cette diversité nécessite une classification claire pour choisir les outils et approches analytiques appropriés. Cette leçon détaille les trois grandes catégories de données selon leur structure et présente leurs implications pour l’analyse.

Classification selon la structure : le continuum de l’organisation

Données Structurées : L’organisation parfaite Les données structurées représentent le format le plus organisé et le plus facilement exploitable. Elles respectent un schéma prédéfini où chaque information occupe une position spécifique dans une structure rigide.

Caractéristiques principales :

  • Organisation en lignes et colonnes (format tabulaire)
  • Schéma fixe et prédéterminé
  • Types de données homogènes par colonne
  • Relations clairement définies entre les éléments

Exemples concrets :

  • Bases de données relationnelles : Tables de clients avec ID, nom, email, date de naissance
  • Fichiers CSV/Excel : Données de ventes avec date, produit, quantité, prix
  • Data warehouses : Entrepôts de données organisés par dimensions et mesures

Avantages analytiques :

  • Interrogation directe via SQL
  • Application immédiate d’algorithmes statistiques
  • Jointures et agrégations simplifiées
  • Visualisation directe sans transformation

Exemple de structure :

ID_ClientNomAgeVilleCA_2024001Dupont34Paris15000002Martin28Lyon22000003Bernard45Marseille18500

Données Semi-structurées : La flexibilité organisée Les données semi-structurées constituent un compromis entre organisation et flexibilité. Elles ne suivent pas un schéma rigide mais contiennent des marqueurs qui permettent d’organiser l’information de manière hiérarchique.

Caractéristiques principales :

  • Structure flexible avec balises ou marqueurs
  • Hiérarchie d’informations (parents-enfants)
  • Schéma évolutif selon les besoins
  • Métadonnées intégrées dans le contenu

Formats principaux :

JSON (JavaScript Object Notation) :

{
"client": {
"id": "C001",
"nom": "Entreprise ABC",
"contacts": [
{
"type": "commercial",
"nom": "Jean Dupont",
"email": "j.dupont@abc.com"
},
{
"type": "technique",
"nom": "Marie Martin",
"email": "m.martin@abc.com"
}
],
"contrats": {
"actif": true,
"valeur": 125000,
"devise": "EUR"
}
}
}

XML (Extensible Markup Language) :


Entreprise XYZ
2024-03-15
Ordinateur portable 899.00

Avantages :

  • Flexibilité pour des structures évolutives
  • Conservation des relations hiérarchiques
  • Facilité de transmission entre systèmes
  • Lisibilité humaine maintenue

Défis analytiques :

  • Nécessité de “parser” avant analyse
  • Structure variable selon les documents
  • Complexité des requêtes sur données imbriquées

Données Non Structurées : La richesse informelle Les données non structurées représentent la majorité des informations générées aujourd’hui. Elles sont stockées dans leur format natif sans organisation prédéfinie, nécessitant des techniques d’analyse spécialisées pour en extraire de la valeur.

Caractéristiques :

  • Absence de schéma prédéfini
  • Format libre et hétérogène
  • Richesse sémantique élevée
  • Volume considérable dans l’économie numérique

Catégories principales :

Contenu textuel :

  • Documents (PDF, Word, emails)
  • Publications sur réseaux sociaux
  • Articles de presse et blogs
  • Transcriptions d’appels téléphoniques
  • Commentaires clients et avis produits

Contenu multimédia :

  • Images et photographies
  • Fichiers audio (podcasts, enregistrements)
  • Vidéos (contenus marketing, formations)
  • Présentations et infographies

Données comportementales :

  • Logs de navigation web
  • Clics et interactions utilisateur
  • Géolocalisation et trajectoires
  • Capteurs IoT (Internet des Objets)

Techniques d’analyse spécialisées :

Traitement du Langage Naturel (NLP) :

  • Analyse de sentiment des commentaires clients
  • Extraction d’entités nommées (personnes, lieux, organisations)
  • Classification automatique de documents
  • Résumé automatique de textes

Vision par Ordinateur :

  • Reconnaissance d’objets dans les images
  • Détection de défauts qualité en production
  • Analyse d’expressions faciales pour études marketing
  • OCR (reconnaissance optique de caractères)

Analyse de Séries Temporelles :

  • Patterns comportementaux des utilisateurs
  • Maintenance prédictive via capteurs
  • Détection d’anomalies en temps réel

Classification selon la nature : qualitative vs quantitative

Données Quantitatives : La mesure objective Les données quantitatives expriment une information sous forme numérique mesurable. Elles permettent les calculs mathématiques et statistiques directs.

Caractéristiques :

  • Expression numérique
  • Opérations arithmétiques possibles
  • Comparaisons ordinales et cardinales
  • Base des analyses statistiques

Applications analytiques :

  • Calcul de moyennes, médianes, écarts-types
  • Tests d’hypothèses statistiques
  • Modélisation prédictive
  • Optimisation mathématique

Exemples pratiques :

  • Chiffre d’affaires mensuel : 150 000 €
  • Nombre de clients : 2 847 personnes
  • Temps de réponse serveur : 0.23 secondes
  • Taux de conversion : 3.2%

Données Qualitatives : La richesse descriptive Les données qualitatives décrivent des attributs non numériques, exprimant des qualités, des catégories ou des caractéristiques.

Caractéristiques :

  • Expression descriptive ou catégorielle
  • Richesse sémantique élevée
  • Contexte et nuances importantes
  • Complémentarité avec les données quantitatives

Types principaux :

Qualitatives nominales :

  • Catégories sans ordre (couleurs, genres, marques)
  • Exemple : “Rouge”, “Bleu”, “Vert”

Qualitatives ordinales :

  • Catégories avec ordre logique (niveaux, grades)
  • Exemple : “Faible”, “Moyen”, “Élevé”

Méthodes d’analyse :

  • Analyse fréquentielle et de distribution
  • Regroupement par thèmes (clustering)
  • Analyse de corrélation avec variables quantitatives
  • Visualisation par graphiques catégoriels

Importance stratégique :

Les données qualitatives révèlent le “pourquoi” derrière les chiffres. Si les données quantitatives montrent qu’un produit a un taux de retour de 15%, les commentaires clients (qualitatifs) expliquent les raisons : défaut de fabrication, livraison tardive, ou inadéquation avec les attentes.

Classification selon la continuité : discrète vs continue

Données Discrètes : Les valeurs comptables Les données discrètes prennent des valeurs distinctes et dénombrables, souvent des nombres entiers représentant des comptages.

Caractéristiques :

  • Valeurs séparées et distinctes
  • Souvent des nombres entiers
  • Résultat de dénombrements
  • Pas de valeurs intermédiaires possibles

Exemples :

  • Nombre d’employés : 0, 1, 2, 3… (impossible d’avoir 2.5 employés)
  • Quantité vendue : 10, 15, 23 unités
  • Nombre de défauts : 0, 1, 2, 5 défauts
  • Score de satisfaction : 1, 2, 3, 4, 5 étoiles

Visualisation appropriée :

  • Diagrammes en bâtons (bar charts)
  • Graphiques à secteurs pour les proportions
  • Histogrammes avec barres séparées

Données Continues : Le spectre infini Les données continues peuvent prendre n’importe quelle valeur dans une plage donnée, incluant les valeurs décimales.

Caractéristiques :

  • Valeurs dans un continuum
  • Précision limitée par l’instrument de mesure
  • Infinité théorique de valeurs possibles
  • Résultat de mesures physiques

Exemples :

  • Temps d’exécution : 2.347 secondes, 2.348 secondes…
  • Température : 23.7°C, 23.71°C, 23.712°C…
  • Poids d’un produit : 1.234 kg, 1.235 kg…
  • Prix : 19.99 €, 20.00 €, 20.01 €…

Visualisation appropriée :

  • Histogrammes avec barres continues
  • Courbes de densité
  • Graphiques linéaires pour évolutions temporelles

Implications pratiques pour l’analyse

Choix des outils selon le type de données

Type de Données Outils d’Analyse Techniques Privilégiées Visualisations
Structurées SQL, Pandas, Excel Statistiques classiques, ML supervisé Tableaux, graphiques standard
Semi-structurées JSON parsers, XPath Extraction + analyse structurée Arbres, réseaux
Non structurées NLP, Computer Vision Deep Learning, clustering Word clouds, heatmaps
Quantitatives NumPy, SciPy, R Tests statistiques, régression Histogrammes, scatter plots
Qualitatives Pandas, R Analyse fréquentielle, chi² Bar charts, pie charts
Discrètes Comptages, probabilités Lois discrètes (Poisson, binomiale) Bar charts, stem plots
Continues Calcul intégral, densités Lois continues (normale, exponentielle) Histogrammes, courbes

Stratégies d’intégration multi-types

Dans les projets réels, les données de types différents doivent souvent être combinées :

Approche complémentaire :

  • Les données quantitatives révèlent l’ampleur des phénomènes
  • Les données qualitatives expliquent les causes et contextes
  • La combinaison offre une vision complète

Exemple d’analyse intégrée :

Une analyse de satisfaction client peut combiner :

  • Scores numériques (quantitatif continu) : note moyenne 3.2/5
  • Catégories de problèmes (qualitatif nominal) : “Livraison”, “Qualité”, “Prix”
  • Nombre de réclamations (quantitatif discret) : 23 réclamations ce mois
  • Commentaires libres (non structuré) : analyse de sentiment automatisée

Points clés à retenir

  • La structure détermine l’approche : données structurées pour analyses immédiates, non structurées pour techniques avancées
  • Quantitatif + Qualitatif = Vision complète : les chiffres révèlent “quoi”, les mots expliquent “pourquoi”
  • Discret vs Continu influence la visualisation : barres séparées vs histogrammes continus
  • Les projets réels mélangent les types : maîtriser l’intégration multi-sources
  • Le Big Data privilégie la variété : volume, vitesse ET diversité des formats

Références

  • Actian Corporation – Un guide complet pour comprendre les différents types de données
  • Talend – Donnée structurée et non structurée : définition
  • Syracuse University – Understanding the Types of Data in Data Science
  • Teradata – Qu’est-ce que les données semi-structurées