Les Différents Types de Données – DeepLearn Platform

Introduction à la Science des Données

Dans l’univers de la science des données, toutes les informations ne se présentent pas sous la même forme. Cette diversité nécessite une classification claire pour choisir les outils et approches analytiques appropriés. Cette leçon détaille les trois grandes catégories de données selon leur structure et présente leurs implications pour l’analyse.

Classification selon la structure : le continuum de l’organisation

Données Structurées : L’organisation parfaite Les données structurées représentent le format le plus organisé et le plus facilement exploitable. Elles respectent un schéma prédéfini où chaque information occupe une position spécifique dans une structure rigide.

Caractéristiques principales :

Organisation en lignes et colonnes (format tabulaire)
Schéma fixe et prédéterminé
Types de données homogènes par colonne
Relations clairement définies entre les éléments

Exemples concrets :

Bases de données relationnelles : Tables de clients avec ID, nom, email, date de naissance
Fichiers CSV/Excel : Données de ventes avec date, produit, quantité, prix
Data warehouses : Entrepôts de données organisés par dimensions et mesures

Avantages analytiques :

Interrogation directe via SQL
Application immédiate d’algorithmes statistiques
Jointures et agrégations simplifiées
Visualisation directe sans transformation

Exemple de structure :

ID_ClientNomAgeVilleCA_2024001Dupont34Paris15000002Martin28Lyon22000003Bernard45Marseille18500

Données Semi-structurées : La flexibilité organisée Les données semi-structurées constituent un compromis entre organisation et flexibilité. Elles ne suivent pas un schéma rigide mais contiennent des marqueurs qui permettent d’organiser l’information de manière hiérarchique.

Caractéristiques principales :

Structure flexible avec balises ou marqueurs
Hiérarchie d’informations (parents-enfants)
Schéma évolutif selon les besoins
Métadonnées intégrées dans le contenu

Formats principaux :

JSON (JavaScript Object Notation) :

{
"client": {
"id": "C001",
"nom": "Entreprise ABC",
"contacts": [
{
"type": "commercial",
"nom": "Jean Dupont",
"email": "j.dupont@abc.com"
},
{
"type": "technique",
"nom": "Marie Martin",
"email": "m.martin@abc.com"
}
],
"contrats": {
"actif": true,
"valeur": 125000,
"devise": "EUR"
}
}
}

XML (Extensible Markup Language) :


Entreprise XYZ
2024-03-15

Ordinateur portable 899.00

Avantages :

Flexibilité pour des structures évolutives
Conservation des relations hiérarchiques
Facilité de transmission entre systèmes
Lisibilité humaine maintenue

Défis analytiques :

Nécessité de “parser” avant analyse
Structure variable selon les documents
Complexité des requêtes sur données imbriquées

Données Non Structurées : La richesse informelle Les données non structurées représentent la majorité des informations générées aujourd’hui. Elles sont stockées dans leur format natif sans organisation prédéfinie, nécessitant des techniques d’analyse spécialisées pour en extraire de la valeur.

Caractéristiques :

Absence de schéma prédéfini
Format libre et hétérogène
Richesse sémantique élevée
Volume considérable dans l’économie numérique

Catégories principales :

Contenu textuel :

Documents (PDF, Word, emails)
Publications sur réseaux sociaux
Articles de presse et blogs
Transcriptions d’appels téléphoniques
Commentaires clients et avis produits

Contenu multimédia :

Images et photographies
Fichiers audio (podcasts, enregistrements)
Vidéos (contenus marketing, formations)
Présentations et infographies

Données comportementales :

Logs de navigation web
Clics et interactions utilisateur
Géolocalisation et trajectoires
Capteurs IoT (Internet des Objets)

Techniques d’analyse spécialisées :

Traitement du Langage Naturel (NLP) :

Analyse de sentiment des commentaires clients
Extraction d’entités nommées (personnes, lieux, organisations)
Classification automatique de documents
Résumé automatique de textes

Vision par Ordinateur :

Reconnaissance d’objets dans les images
Détection de défauts qualité en production
Analyse d’expressions faciales pour études marketing
OCR (reconnaissance optique de caractères)

Analyse de Séries Temporelles :

Patterns comportementaux des utilisateurs
Maintenance prédictive via capteurs
Détection d’anomalies en temps réel

Classification selon la nature : qualitative vs quantitative

Données Quantitatives : La mesure objective Les données quantitatives expriment une information sous forme numérique mesurable. Elles permettent les calculs mathématiques et statistiques directs.

Caractéristiques :

Expression numérique
Opérations arithmétiques possibles
Comparaisons ordinales et cardinales
Base des analyses statistiques

Applications analytiques :

Calcul de moyennes, médianes, écarts-types
Tests d’hypothèses statistiques
Modélisation prédictive
Optimisation mathématique

Exemples pratiques :

Chiffre d’affaires mensuel : 150 000 €
Nombre de clients : 2 847 personnes
Temps de réponse serveur : 0.23 secondes
Taux de conversion : 3.2%

Données Qualitatives : La richesse descriptive Les données qualitatives décrivent des attributs non numériques, exprimant des qualités, des catégories ou des caractéristiques.

Caractéristiques :

Expression descriptive ou catégorielle
Richesse sémantique élevée
Contexte et nuances importantes
Complémentarité avec les données quantitatives

Types principaux :

Qualitatives nominales :

Catégories sans ordre (couleurs, genres, marques)
Exemple : “Rouge”, “Bleu”, “Vert”

Qualitatives ordinales :

Catégories avec ordre logique (niveaux, grades)
Exemple : “Faible”, “Moyen”, “Élevé”

Méthodes d’analyse :

Analyse fréquentielle et de distribution
Regroupement par thèmes (clustering)
Analyse de corrélation avec variables quantitatives
Visualisation par graphiques catégoriels

Importance stratégique :

Les données qualitatives révèlent le “pourquoi” derrière les chiffres. Si les données quantitatives montrent qu’un produit a un taux de retour de 15%, les commentaires clients (qualitatifs) expliquent les raisons : défaut de fabrication, livraison tardive, ou inadéquation avec les attentes.

Classification selon la continuité : discrète vs continue

Données Discrètes : Les valeurs comptables Les données discrètes prennent des valeurs distinctes et dénombrables, souvent des nombres entiers représentant des comptages.

Caractéristiques :

Valeurs séparées et distinctes
Souvent des nombres entiers
Résultat de dénombrements
Pas de valeurs intermédiaires possibles

Exemples :

Nombre d’employés : 0, 1, 2, 3… (impossible d’avoir 2.5 employés)
Quantité vendue : 10, 15, 23 unités
Nombre de défauts : 0, 1, 2, 5 défauts
Score de satisfaction : 1, 2, 3, 4, 5 étoiles

Visualisation appropriée :

Diagrammes en bâtons (bar charts)
Graphiques à secteurs pour les proportions
Histogrammes avec barres séparées

Données Continues : Le spectre infini Les données continues peuvent prendre n’importe quelle valeur dans une plage donnée, incluant les valeurs décimales.

Caractéristiques :

Valeurs dans un continuum
Précision limitée par l’instrument de mesure
Infinité théorique de valeurs possibles
Résultat de mesures physiques

Exemples :

Temps d’exécution : 2.347 secondes, 2.348 secondes…
Température : 23.7°C, 23.71°C, 23.712°C…
Poids d’un produit : 1.234 kg, 1.235 kg…
Prix : 19.99 €, 20.00 €, 20.01 €…

Visualisation appropriée :

Histogrammes avec barres continues
Courbes de densité
Graphiques linéaires pour évolutions temporelles

Implications pratiques pour l’analyse

Choix des outils selon le type de données

Type de Données	Outils d’Analyse	Techniques Privilégiées	Visualisations
Structurées	SQL, Pandas, Excel	Statistiques classiques, ML supervisé	Tableaux, graphiques standard
Semi-structurées	JSON parsers, XPath	Extraction + analyse structurée	Arbres, réseaux
Non structurées	NLP, Computer Vision	Deep Learning, clustering	Word clouds, heatmaps
Quantitatives	NumPy, SciPy, R	Tests statistiques, régression	Histogrammes, scatter plots
Qualitatives	Pandas, R	Analyse fréquentielle, chi²	Bar charts, pie charts
Discrètes	Comptages, probabilités	Lois discrètes (Poisson, binomiale)	Bar charts, stem plots
Continues	Calcul intégral, densités	Lois continues (normale, exponentielle)	Histogrammes, courbes

Stratégies d’intégration multi-types

Dans les projets réels, les données de types différents doivent souvent être combinées :

Approche complémentaire :

Les données quantitatives révèlent l’ampleur des phénomènes
Les données qualitatives expliquent les causes et contextes
La combinaison offre une vision complète

Exemple d’analyse intégrée :

Une analyse de satisfaction client peut combiner :

Scores numériques (quantitatif continu) : note moyenne 3.2/5
Catégories de problèmes (qualitatif nominal) : “Livraison”, “Qualité”, “Prix”
Nombre de réclamations (quantitatif discret) : 23 réclamations ce mois
Commentaires libres (non structuré) : analyse de sentiment automatisée

Points clés à retenir

La structure détermine l’approche : données structurées pour analyses immédiates, non structurées pour techniques avancées
Quantitatif + Qualitatif = Vision complète : les chiffres révèlent “quoi”, les mots expliquent “pourquoi”
Discret vs Continu influence la visualisation : barres séparées vs histogrammes continus
Les projets réels mélangent les types : maîtriser l’intégration multi-sources
Le Big Data privilégie la variété : volume, vitesse ET diversité des formats

Références

Actian Corporation – Un guide complet pour comprendre les différents types de données
Talend – Donnée structurée et non structurée : définition
Syracuse University – Understanding the Types of Data in Data Science
Teradata – Qu’est-ce que les données semi-structurées