Visualisation des Données avec Matplotlib et Seaborn
1 Visualisation des Données avec Matplotlib et Seaborn
1.1 Exercice 1 : Courbe linéaire
Tracez la courbe de la fonction \(f(x) = x^2\) pour \(x\) allant de 0 à 10. Utilisez 100 points pour \(x\) afin d’obtenir une courbe lisse. Ajoutez un titre “Courbe parabole” et nommez les axes “x” et “f(x)”.
1.2 Exercice 2 : Nuage de points
Générez deux listes de 50 valeurs aléatoires chacune entre 0 et 1. Affichez le nuage de points correspondant. Personnalisez les points avec une couleur et un style de votre choix.
1.3 Exercice 3 : Histogramme
Créez un tableau de 1000 valeurs aléatoires suivant une distribution normale de moyenne 5 et d’écart-type 2. Réalisez l’histogramme de ces données avec 30 bins et affichez un titre “Distribution normale simulée”.
1.4 Exercice 4 : Diagramme en barres
On dispose du nombre d’élèves inscrits dans différents clubs d’une école. Créez un DataFrame avec ces données et affichez un diagramme en barres.
import pandas as pd
import matplotlib.pyplot as plt
# Création du DataFrame
= pd.DataFrame({
df_clubs "Club": ["Théâtre", "Musique", "Sport", "Art"],
"Nombre d'élèves": [25, 30, 15, 10]
})
# Affichage du diagramme en barres
"Club"], df_clubs["Nombre d'élèves"], color='mediumseagreen')
plt.bar(df_clubs["Clubs")
plt.xlabel("Nombre d'élèves")
plt.ylabel("Inscriptions par club")
plt.title( plt.show()
1.5 Exercice 5 : Diagramme circulaire
Reprenez les données de l’exercice précédent et représentez-les sous forme de camembert avec les pourcentages affichés.
1.6 Exercice 6 : Boxplot
Simulez deux séries de 50 notes (sur 20) pour deux classes (classe A et classe B). Créez un DataFrame Pandas contenant ces données et réalisez un boxplot comparant les distributions.
1.7 Exercice 7 : Violin plot
Reprenez le DataFrame de l’exercice précédent et tracez un violin plot comparatif des deux distributions.
1.8 Exercice 8 : Pairplot (analyse multivariée)
Utilisez le dataset Iris (sns.load_dataset("iris")
). Réalisez un pairplot de l’ensemble des variables en utilisant “species” pour la couleur.
1.9 Exercice 9 : Heatmap de corrélation
Toujours avec le dataset Iris, calculez la matrice de corrélation et affichez une heatmap de cette matrice avec les valeurs annotées.
1.10 Exercice 10 : Analyse univariée
Utilisez la base de données Credit Risk Dataset.
- Chargez les données et affichez les premières lignes.
- Faites une analyse univariée des variables
person_age
,person_income
, etloan_amnt
en utilisant des histogrammes et des boxplots. - Identifiez les valeurs aberrantes dans
loan_int_rate
.
1.11 Exercice 11 : Analyse bivariée
- Étudiez la relation entre
person_income
etloan_amnt
à l’aide d’un scatter plot (quanti-quanti). - Étudiez l’influence de
person_home_ownership
surloan_amnt
via un boxplot (quanti-quali). - Étudiez la relation entre
loan_intent
etloan_grade
via un countplot (quali-quali).
1.12 Exercice 12 : Tests statistiques en Python
- Testez s’il y a une différence significative de revenu (
person_income
) entre les propriétaires et non-propriétaires (person_home_ownership
) avec un test t de Student. - Testez si la distribution des taux d’intérêt (
loan_int_rate
) suit une loi normale. - Testez l’indépendance entre
loan_intent
etloan_status
avec un test du chi². - Réalisez une ANOVA pour comparer le revenu (
person_income
) entre plusieurs catégories de but du prêt (loan_intent
).
1.13 Exercice 13 : Organisation en subplots
Créez une figure comportant 4 subplots organisés en 2 lignes × 2 colonnes contenant :
- Un graphique linéaire représentant une fonction de votre choix.
- Un scatter plot illustrant une relation entre deux variables quantitatives.
- Un histogramme d’une variable de votre choix.
- Un camembert illustrant la répartition d’une variable catégorielle.
Ajoutez un titre à chaque subplot et ajustez la disposition pour éviter le chevauchement.
1.14 Exercice 14 : Tests statistiques avancés
- Effectuez un test de corrélation de Pearson et de Spearman entre
person_income
etloan_amnt
(quanti-quanti). - Réalisez un test du chi² pour tester l’indépendance entre
cb_person_default_on_file
etloan_status
(quali-quali). - Effectuez une comparaison de moyennes (
t-test indépendant
) entreloan_int_rate
pour les individus ayant un historique de défaut (cb_person_default_on_file
) et ceux qui n’en ont pas. - Effectuez une ANOVA pour comparer
loan_amnt
entre plusieurs catégories (loan_grade
).
Bonus : Expérimentez avec d’autres types de graphiques et tests statistiques pour approfondir l’analyse.