Course Content
Module 1 : Fondamentaux de la Science des Données
Ce module introductif établit les fondements conceptuels de la science des données. Il définit la discipline dans son contexte historique et interdisciplinaire, présente les rôles professionnels clés et leur collaboration, puis introduit la méthodologie structurée d'un projet de données. L'objectif est de construire une compréhension solide du domaine avant d'aborder les aspects techniques dans les modules suivants.
0/3
Module 2 : Typologie et Collecte des Données
Ce module explore la matière première de la discipline : les données. Vous apprendrez à identifier les différents types de données et à comprendre les méthodes de collecte, qu'elles soient internes ou externes.
0/3
Module 3 : Préparation et Nettoyage des Données
Une étape cruciale et souvent chronophage. Ce module vous enseignera les techniques indispensables pour nettoyer et préparer vos données, une condition sine qua non à toute analyse fiable.
0/3
Module 4 : Analyse Exploratoire des Données (EDA)
Le cœur de l'analyse. Ce module vous apprendra à "dialoguer" avec vos données à travers les statistiques descriptives pour en extraire les premières informations et formuler des hypothèses.
0/3
Module 5 : Visualisation des Données
Savoir communiquer ses résultats est aussi important que l'analyse elle-même. Ce module vous initiera aux principes de la visualisation de données et à la création de graphiques clairs et informatifs avec des outils comme Matplotlib.
0/3
Introduction à la Science des Données

La qualité des données détermine directement la fiabilité des analyses et des décisions qui en découlent. Cette leçon explore les dimensions de la qualité des données, les sources de biais les plus courantes et les méthodes d’évaluation de la fiabilité des sources.

Les dimensions de la qualité des données

Exactitude (Accuracy)

L’exactitude mesure le degré de conformité des données avec la réalité qu’elles sont censées représenter.

Indicateurs d’exactitude :
  • Cohérence avec des sources de référence
  • Absence d’erreurs de saisie ou de transmission
  • Validation par des experts du domaine
  • Recoupement entre sources indépendantes
Exemple pratique :

Une base de données clients indique qu’un client a 150 ans. Cette information est manifestement inexacte et doit être corrigée ou supprimée.

Méthodes de vérification :
import pandas as pd
import numpy as np

# Vérification de la plausibilité des âges
def check_age_validity(df, age_column):
    invalid_ages = df[
        (df[age_column] < 0) | (df[age_column] > 120)
    ]

    print(f"Âges invalides détectés: {len(invalid_ages)}")
    print(f"Pourcentage d'erreurs: {len(invalid_ages)/len(df)*100:.2f}%")

    return invalid_ages

# Exemple d'utilisation
df = pd.DataFrame({
    'client_id': [1, 2, 3, 4, 5],
    'age': [25, 150, 34, -5, 67]
})
invalid_data = check_age_validity(df, 'age')

Complétude (Completeness)

La complétude évalue la proportion de données présentes par rapport aux données attendues.

Types d’incomplétude :
  • Valeurs manquantes : cellules vides dans une base de données
  • Enregistrements manquants : clients non référencés
  • Attributs manquants : colonnes absentes d’un dataset
Mesure de complétude :
def assess_completeness(df):
    total_cells = df.shape[0] * df.shape[1]
    missing_cells = df.isnull().sum().sum()
    completeness_percentage = (total_cells - missing_cells) / total_cells * 100
    print(f"Pourcentage de complétude : {completeness_percentage:.2f}%")