Créer une matrice de corrélation avec Python

13 janvier 2024

(Écrit par un humain)

L'analyse de données est devenue un pilier essentiel dans le monde de l'entreprise moderne. Avec des outils comme Power BI de Microsoft, les professionnels sont désormais capables de transformer des données complexes en informations visuelles compréhensibles. Dans cet article nous allons voir comment intégrer Python dans Power BI pour créer une matrice de corrélation, un outil puissant pour l'analyse des données médicales.

Nous vous invitons à regarder notre vidéo YouTube qui traite de ce cas pratique.

Vérification de l'installation Python

Avant de plonger dans la création de visualisations complexes, il est essentiel de s'assurer que Power BI est correctement configuré pour utiliser Python. Pour ce faire il faut cliquer sur Fichier, puis sur Option et paramètres et Options. Ensuite, dans la section Création de scripts Python il faut vérifier que Power BI a détecté un répertoire de base Python. Vous pouvez par exemple utiliser Anaconda 3 qui facilite cette configuration en fournissant un ensemble de librairies par défaut.

Il est également nécessaire de vérifier qu'un IDE Python c'est à dire un environnement de programmation pour le langage Python, est bien détectés par Power BI. Après ça vous pouvez enfin cliquer sur OK.

Une fois revenu sur le canevas il va nous falloir sélectionner le visuel Python.

Maintenant que le visuel est placé nous pouvons ouvrir son éditeur de script.

Évaluation des Corrélations des Données Médicales

L'objectif principal ici est d'évaluer les corrélations entre différentes données médicales. Ces corrélations vont permettre une meilleure compréhension des relations entre différentes variables médicales.

Pour cela, après avoir ouvert l'éditeur de script, nous sélectionnons les données numériques pertinentes dans Power BI afin de créer un dataset avec celles-ci dans l'éditeur et nous permettre de les manipuler.

Comprendre les Données Grâce à la Matrice de Corrélation

La matrice de corrélation est un outil visuel puissant pour identifier les relations entre les différentes variables d'un ensemble de données. Après avoir créé notre dataset comprenant les données que nous souhaitons intégrer dans notre matrice il ne nous reste plus qu'à implémenter le script dans l'éditeur.

Application des Corrélations au DataSet

Pour appliquer les corrélations il faut d'abord importer les bibliothèques matplotlib et seaborn dans notre script Python. Ensuite nous définissons la variable corr qui va prendre les corrélations du dataset grâce à la méthode corr(). Puis avec la méthode heatmap() nous allons créer un visuel au couleurs rouge et bleu pour les corrélations, en fonction de si elles sont positives ou négatives. Enfin avec la méthode show() nous allons réaliser un affichage de notre heatmap.

Il ne reste plus à cliquer sur le bouton play, en haut à droite de l'éditeur, pour afficher notre visuel.

 

Supprimer les Lignes Dupliquées

Power BI s'occupe automatiquement de supprimer les lignes dupliquées en arrière-plan grâce à la fonction drop duplicates. Cela assure la précision des données analysées dans la matrice.

Utilisation du Filtrage et personnalisation de la Matrice de Corrélation

Maintenant que notre visuel est créé nous pouvons l'exploiter comme un autre visuel Power BI. Nous pouvons aller dans la section de la mise en forme du visuel pour personnaliser son apparence ou encore le combiner avec des segments pour y appliquer des filtres.

Utilisation des intervalles de Valeurs de Corrélation

Pour une analyse plus approfondie, vous pouvez définir des seuils spécifiques de corrélation dans le script python. En définissant des niveaux minimum ou maximum (par exemple en conservant les corrélations supérieures à 0.5 ou inférieures à -0.2) vous pouvez filtrer les informations les plus pertinentes pour votre analyse.

Ici nous définissons notre intervalle nommé kot comme comprenant les valeurs supérieures ou égales à 0,5 et inférieurs ou égales à -0,2 mais excluant les valeurs égales à 1. Pour l'appliquer nous intégrons notre intervalle en paramètre de l'appel de la fonction heatmap().

Cet intervalle nous permet de ne garder que les valeurs extrêmes qui sont les plus pertinentes et d'exclure les corrélations entre des même variables.

Pour conclure, intégrer Python dans Power BI pour créer des matrices de corrélation ouvre des possibilités d'analyse de données avancées. Cette approche offre une compréhension plus profonde des relations entre différentes variables et permet de prendre des décisions plus éclairées basées sur les données. Maîtriser ces outils et techniques vous permettra d'exploiter au maximum les capacités de Power BI et d'en tirer le meilleur parti.

Merci d'avoir lu cet article, vous pouvez retrouver nos vidéos explicatives sur Power BI sur notre chaîne YouTube ou en cliquant ici, nous abordons aussi ces pratiques durant nos formations Power BI.

Articles en relation

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram