Dans l’univers de la science des données, toutes les informations ne se présentent pas sous la même forme. Cette diversité nécessite une classification claire pour choisir les outils et approches analytiques appropriés. Cette leçon détaille les trois grandes catégories de données selon leur structure et présente leurs implications pour l’analyse.
Classification selon la structure : le continuum de l’organisation
Données Structurées : L’organisation parfaite Les données structurées représentent le format le plus organisé et le plus facilement exploitable. Elles respectent un schéma prédéfini où chaque information occupe une position spécifique dans une structure rigide.
Caractéristiques principales :
- Organisation en lignes et colonnes (format tabulaire)
- Schéma fixe et prédéterminé
- Types de données homogènes par colonne
- Relations clairement définies entre les éléments
Exemples concrets :
- Bases de données relationnelles : Tables de clients avec ID, nom, email, date de naissance
- Fichiers CSV/Excel : Données de ventes avec date, produit, quantité, prix
- Data warehouses : Entrepôts de données organisés par dimensions et mesures
Avantages analytiques :
- Interrogation directe via SQL
- Application immédiate d’algorithmes statistiques
- Jointures et agrégations simplifiées
- Visualisation directe sans transformation
Exemple de structure :
ID_ClientNomAgeVilleCA_2024001Dupont34Paris15000002Martin28Lyon22000003Bernard45Marseille18500
Données Semi-structurées : La flexibilité organisée Les données semi-structurées constituent un compromis entre organisation et flexibilité. Elles ne suivent pas un schéma rigide mais contiennent des marqueurs qui permettent d’organiser l’information de manière hiérarchique.
Caractéristiques principales :
- Structure flexible avec balises ou marqueurs
- Hiérarchie d’informations (parents-enfants)
- Schéma évolutif selon les besoins
- Métadonnées intégrées dans le contenu
Formats principaux :
JSON (JavaScript Object Notation) :
{
"client": {
"id": "C001",
"nom": "Entreprise ABC",
"contacts": [
{
"type": "commercial",
"nom": "Jean Dupont",
"email": "j.dupont@abc.com"
},
{
"type": "technique",
"nom": "Marie Martin",
"email": "m.martin@abc.com"
}
],
"contrats": {
"actif": true,
"valeur": 125000,
"devise": "EUR"
}
}
}
XML (Extensible Markup Language) :
Entreprise XYZ
2024-03-15
Avantages :
- Flexibilité pour des structures évolutives
- Conservation des relations hiérarchiques
- Facilité de transmission entre systèmes
- Lisibilité humaine maintenue
Défis analytiques :
- Nécessité de “parser” avant analyse
- Structure variable selon les documents
- Complexité des requêtes sur données imbriquées
Données Non Structurées : La richesse informelle Les données non structurées représentent la majorité des informations générées aujourd’hui. Elles sont stockées dans leur format natif sans organisation prédéfinie, nécessitant des techniques d’analyse spécialisées pour en extraire de la valeur.
Caractéristiques :
- Absence de schéma prédéfini
- Format libre et hétérogène
- Richesse sémantique élevée
- Volume considérable dans l’économie numérique
Catégories principales :
Contenu textuel :
- Documents (PDF, Word, emails)
- Publications sur réseaux sociaux
- Articles de presse et blogs
- Transcriptions d’appels téléphoniques
- Commentaires clients et avis produits
Contenu multimédia :
- Images et photographies
- Fichiers audio (podcasts, enregistrements)
- Vidéos (contenus marketing, formations)
- Présentations et infographies
Données comportementales :
- Logs de navigation web
- Clics et interactions utilisateur
- Géolocalisation et trajectoires
- Capteurs IoT (Internet des Objets)
Techniques d’analyse spécialisées :
Traitement du Langage Naturel (NLP) :
- Analyse de sentiment des commentaires clients
- Extraction d’entités nommées (personnes, lieux, organisations)
- Classification automatique de documents
- Résumé automatique de textes
Vision par Ordinateur :
- Reconnaissance d’objets dans les images
- Détection de défauts qualité en production
- Analyse d’expressions faciales pour études marketing
- OCR (reconnaissance optique de caractères)
Analyse de Séries Temporelles :
- Patterns comportementaux des utilisateurs
- Maintenance prédictive via capteurs
- Détection d’anomalies en temps réel
Classification selon la nature : qualitative vs quantitative
Données Quantitatives : La mesure objective Les données quantitatives expriment une information sous forme numérique mesurable. Elles permettent les calculs mathématiques et statistiques directs.
Caractéristiques :
- Expression numérique
- Opérations arithmétiques possibles
- Comparaisons ordinales et cardinales
- Base des analyses statistiques
Applications analytiques :
- Calcul de moyennes, médianes, écarts-types
- Tests d’hypothèses statistiques
- Modélisation prédictive
- Optimisation mathématique
Exemples pratiques :
- Chiffre d’affaires mensuel : 150 000 €
- Nombre de clients : 2 847 personnes
- Temps de réponse serveur : 0.23 secondes
- Taux de conversion : 3.2%
Données Qualitatives : La richesse descriptive Les données qualitatives décrivent des attributs non numériques, exprimant des qualités, des catégories ou des caractéristiques.
Caractéristiques :
- Expression descriptive ou catégorielle
- Richesse sémantique élevée
- Contexte et nuances importantes
- Complémentarité avec les données quantitatives
Types principaux :
Qualitatives nominales :
- Catégories sans ordre (couleurs, genres, marques)
- Exemple : “Rouge”, “Bleu”, “Vert”
Qualitatives ordinales :
- Catégories avec ordre logique (niveaux, grades)
- Exemple : “Faible”, “Moyen”, “Élevé”
Méthodes d’analyse :
- Analyse fréquentielle et de distribution
- Regroupement par thèmes (clustering)
- Analyse de corrélation avec variables quantitatives
- Visualisation par graphiques catégoriels
Importance stratégique :
Les données qualitatives révèlent le “pourquoi” derrière les chiffres. Si les données quantitatives montrent qu’un produit a un taux de retour de 15%, les commentaires clients (qualitatifs) expliquent les raisons : défaut de fabrication, livraison tardive, ou inadéquation avec les attentes.
Classification selon la continuité : discrète vs continue
Données Discrètes : Les valeurs comptables Les données discrètes prennent des valeurs distinctes et dénombrables, souvent des nombres entiers représentant des comptages.
Caractéristiques :
- Valeurs séparées et distinctes
- Souvent des nombres entiers
- Résultat de dénombrements
- Pas de valeurs intermédiaires possibles
Exemples :
- Nombre d’employés : 0, 1, 2, 3… (impossible d’avoir 2.5 employés)
- Quantité vendue : 10, 15, 23 unités
- Nombre de défauts : 0, 1, 2, 5 défauts
- Score de satisfaction : 1, 2, 3, 4, 5 étoiles
Visualisation appropriée :
- Diagrammes en bâtons (bar charts)
- Graphiques à secteurs pour les proportions
- Histogrammes avec barres séparées
Données Continues : Le spectre infini Les données continues peuvent prendre n’importe quelle valeur dans une plage donnée, incluant les valeurs décimales.
Caractéristiques :
- Valeurs dans un continuum
- Précision limitée par l’instrument de mesure
- Infinité théorique de valeurs possibles
- Résultat de mesures physiques
Exemples :
- Temps d’exécution : 2.347 secondes, 2.348 secondes…
- Température : 23.7°C, 23.71°C, 23.712°C…
- Poids d’un produit : 1.234 kg, 1.235 kg…
- Prix : 19.99 €, 20.00 €, 20.01 €…
Visualisation appropriée :
- Histogrammes avec barres continues
- Courbes de densité
- Graphiques linéaires pour évolutions temporelles
Implications pratiques pour l’analyse
Choix des outils selon le type de données
| Type de Données | Outils d’Analyse | Techniques Privilégiées | Visualisations |
|---|---|---|---|
| Structurées | SQL, Pandas, Excel | Statistiques classiques, ML supervisé | Tableaux, graphiques standard |
| Semi-structurées | JSON parsers, XPath | Extraction + analyse structurée | Arbres, réseaux |
| Non structurées | NLP, Computer Vision | Deep Learning, clustering | Word clouds, heatmaps |
| Quantitatives | NumPy, SciPy, R | Tests statistiques, régression | Histogrammes, scatter plots |
| Qualitatives | Pandas, R | Analyse fréquentielle, chi² | Bar charts, pie charts |
| Discrètes | Comptages, probabilités | Lois discrètes (Poisson, binomiale) | Bar charts, stem plots |
| Continues | Calcul intégral, densités | Lois continues (normale, exponentielle) | Histogrammes, courbes |
Stratégies d’intégration multi-types
Dans les projets réels, les données de types différents doivent souvent être combinées :
Approche complémentaire :
- Les données quantitatives révèlent l’ampleur des phénomènes
- Les données qualitatives expliquent les causes et contextes
- La combinaison offre une vision complète
Exemple d’analyse intégrée :
Une analyse de satisfaction client peut combiner :
- Scores numériques (quantitatif continu) : note moyenne 3.2/5
- Catégories de problèmes (qualitatif nominal) : “Livraison”, “Qualité”, “Prix”
- Nombre de réclamations (quantitatif discret) : 23 réclamations ce mois
- Commentaires libres (non structuré) : analyse de sentiment automatisée
Points clés à retenir
- La structure détermine l’approche : données structurées pour analyses immédiates, non structurées pour techniques avancées
- Quantitatif + Qualitatif = Vision complète : les chiffres révèlent “quoi”, les mots expliquent “pourquoi”
- Discret vs Continu influence la visualisation : barres séparées vs histogrammes continus
- Les projets réels mélangent les types : maîtriser l’intégration multi-sources
- Le Big Data privilégie la variété : volume, vitesse ET diversité des formats
Références
- Actian Corporation – Un guide complet pour comprendre les différents types de données
- Talend – Donnée structurée et non structurée : définition
- Syracuse University – Understanding the Types of Data in Data Science
- Teradata – Qu’est-ce que les données semi-structurées