Visualisation des Données avec Matplotlib et Seaborn

Visualisation des Données avec Matplotlib et Seaborn
Author

Natacha NJONGWA YEPNGA

1 Visualisation des Données avec Matplotlib et Seaborn

Le TP est disponible ici

1.1 Exercice 1 : Courbe linéaire

Tracez la courbe de la fonction \(f(x) = x^2\) pour \(x\) allant de 0 à 10. Utilisez 100 points pour \(x\) afin d’obtenir une courbe lisse. Ajoutez un titre “Courbe parabole” et nommez les axes “x” et “f(x)”.

1.2 Exercice 2 : Nuage de points

Générez deux listes de 50 valeurs aléatoires chacune entre 0 et 1. Affichez le nuage de points correspondant. Personnalisez les points avec une couleur et un style de votre choix.

1.3 Exercice 3 : Histogramme

Créez un tableau de 1000 valeurs aléatoires suivant une distribution normale de moyenne 5 et d’écart-type 2. Réalisez l’histogramme de ces données avec 30 bins et affichez un titre “Distribution normale simulée”.

1.4 Exercice 4 : Diagramme en barres

On dispose du nombre d’élèves inscrits dans différents clubs d’une école. Créez un DataFrame avec ces données et affichez un diagramme en barres.

import pandas as pd
import matplotlib.pyplot as plt

# Création du DataFrame
df_clubs = pd.DataFrame({
    "Club": ["Théâtre", "Musique", "Sport", "Art"],
    "Nombre d'élèves": [25, 30, 15, 10]
})

# Affichage du diagramme en barres
plt.bar(df_clubs["Club"], df_clubs["Nombre d'élèves"], color='mediumseagreen')
plt.xlabel("Clubs")
plt.ylabel("Nombre d'élèves")
plt.title("Inscriptions par club")
plt.show()

1.5 Exercice 5 : Diagramme circulaire

Reprenez les données de l’exercice précédent et représentez-les sous forme de camembert avec les pourcentages affichés.

1.6 Exercice 6 : Boxplot

Simulez deux séries de 50 notes (sur 20) pour deux classes (classe A et classe B). Créez un DataFrame Pandas contenant ces données et réalisez un boxplot comparant les distributions.

1.7 Exercice 7 : Violin plot

Reprenez le DataFrame de l’exercice précédent et tracez un violin plot comparatif des deux distributions.

1.8 Exercice 8 : Pairplot (analyse multivariée)

Utilisez le dataset Iris (sns.load_dataset("iris")). Réalisez un pairplot de l’ensemble des variables en utilisant “species” pour la couleur.

1.9 Exercice 9 : Heatmap de corrélation

Toujours avec le dataset Iris, calculez la matrice de corrélation et affichez une heatmap de cette matrice avec les valeurs annotées.

1.10 Exercice 10 : Analyse univariée

Utilisez la base de données Credit Risk Dataset.

  • Chargez les données et affichez les premières lignes.
  • Faites une analyse univariée des variables person_age, person_income, et loan_amnt en utilisant des histogrammes et des boxplots.
  • Identifiez les valeurs aberrantes dans loan_int_rate.

1.11 Exercice 11 : Analyse bivariée

  • Étudiez la relation entre person_income et loan_amnt à l’aide d’un scatter plot (quanti-quanti).
  • Étudiez l’influence de person_home_ownership sur loan_amnt via un boxplot (quanti-quali).
  • Étudiez la relation entre loan_intent et loan_grade via un countplot (quali-quali).

1.12 Exercice 12 : Tests statistiques en Python

  • Testez s’il y a une différence significative de revenu (person_income) entre les propriétaires et non-propriétaires (person_home_ownership) avec un test t de Student.
  • Testez si la distribution des taux d’intérêt (loan_int_rate) suit une loi normale.
  • Testez l’indépendance entre loan_intent et loan_status avec un test du chi².
  • Réalisez une ANOVA pour comparer le revenu (person_income) entre plusieurs catégories de but du prêt (loan_intent).

1.13 Exercice 13 : Organisation en subplots

Créez une figure comportant 4 subplots organisés en 2 lignes × 2 colonnes contenant :

  • Un graphique linéaire représentant une fonction de votre choix.
  • Un scatter plot illustrant une relation entre deux variables quantitatives.
  • Un histogramme d’une variable de votre choix.
  • Un camembert illustrant la répartition d’une variable catégorielle.

Ajoutez un titre à chaque subplot et ajustez la disposition pour éviter le chevauchement.

1.14 Exercice 14 : Tests statistiques avancés

  • Effectuez un test de corrélation de Pearson et de Spearman entre person_income et loan_amnt (quanti-quanti).
  • Réalisez un test du chi² pour tester l’indépendance entre cb_person_default_on_file et loan_status (quali-quali).
  • Effectuez une comparaison de moyennes (t-test indépendant) entre loan_int_rate pour les individus ayant un historique de défaut (cb_person_default_on_file) et ceux qui n’en ont pas.
  • Effectuez une ANOVA pour comparer loan_amnt entre plusieurs catégories (loan_grade).

Bonus : Expérimentez avec d’autres types de graphiques et tests statistiques pour approfondir l’analyse.