Lire l'article
(Écrit par un humain)
Dans l'ère moderne du big data et de l'analyse avancée, les outils de Business Intelligence (BI) sont devenus incontournables pour transformer les données brutes en informations exploitables. Parmi ces outils Power BI de Microsoft se distingue par sa puissance et sa flexibilité. Chez MYPE nous formons des dizaines d'apprenants chaque mois sur Power BI et dans cet article nous explorerons les bases de ce logiciel en passant par l'extraction des données jusqu'à la publication sur la plateforme web dédiée.
Nous vous invitons à regarder notre vidéo YouTube sur ce sujet.
Power BI est un outil de visualisation de données (dataviz) permettant d'extraire, de transformer, et de présenter des données issues de diverses sources. Avant de plonger dans la visualisation cet outil permet d'effectuer un nettoyage et une transformation des données qui est souvent nécessaire pour les préparer à une analyse efficace. Cela inclut la création de nouvelles colonnes, du filtrage et/ou d'autres retraitements essentiels.
Power Query est une composante de Power BI Desktop qui permet d'extraire et de transformer les données. Il utilise son propre langage de programmation (langage M) dédié au script et à la manipulation de données. Power Query est essentiellement utilisé pour le nettoyage de données (data cleaning), la transformation de données (data transformation) ou ce qu'on appelle ETL (Extract, Transform and Load). Il permet de réaliser un ensemble de processus permettant d'extraire des données de systèmes variés, de les transformer en vue d'une analyse et de les charger pour l'exploitation.
Le langage DAX (Data Analysis Expressions) est utilisé dans Power BI pour créer des formules et des expressions complexes pour le calcul et l'analyse des données. Ce langage peut sembler similaire aux formules d'Excel mais il fonctionne différemment en se concentrant davantage sur les colonnes entières plutôt que sur des cellules individuelles. Ce langage offre une puissance et une flexibilité incroyables pour l'analyse de données dans Power BI.
Cet exercice pratique va consister à créer un rapport dynamique montrant l'évolution démographique de plusieurs villes françaises depuis le 19e siècle. Nous utiliserons des données provenant de Wikipedia pour créer divers types de visualisations y compris des graphiques en courbes, des barres animées et des cartes géographiques.
Nous commençons par extraire les données directement depuis une page web Wikipedia. En utilisant Power Query, nous connectons et importons les tableaux concernant l'évolution démographique. Cette première étape est cruciale pour définir la source des données que nous allons nettoyer et transformer. Pour ce faire nous allons dans obtenir les données, nous choisissons une source Web et nous inscrivons le lien de la page Wikipedia d'une ville française.
Dans les différentes interprétations de la page Web proposées par Power Query nous allons sélectionner celle qui correspond au tableau de l'évolution de la population que nous souhaitons importer et nous allons dans transformer les données.
Nous avons maintenant importé la requête Évolution de la population dans Power Query. Cependant nous pouvons voir que la dernière année de cette requête est 1851 alors que le tableau originel comportait des dates ultérieures.
Pour remédier à ce problème il va falloir supprimer les 2 dernières étapes appliquées pour revenir à l'étape Source et changer la méthode utilisée pour la lecture de la page par Power Query. Il va falloir encapsuler la fonction Web.BrowserContents() en paramètre de la fonction Web.Page().
En faisant cette manipulation nous retrouvons toutes les tables présentes sur la page Web de la ville de Toulouse. Maintenant pour garder uniquement les informations relatives au tableaux de l'évolution démographique nous allons filtrer, grâce à un filtre textuel, dans la colonne Caption afin de ne garder que les lignes où le mot "population" apparait.
Il nous reste maintenant 5 tables contenant les information recherchées. Nous allons garder uniquement les données souhaitées et nous supprimons les autres colonnes.
Sur cette colonne Data nous cliquons sur le bouton en haut à droite et nous pouvons voir que la dernière année qu'elle contient est 1896 et pour charger le reste des données nous cliquons sur Charger plus.
Après ça nous avons toutes les années du tableau mais aussi des nombres négatifs qui correspondent aux cases vide, pour les supprimer nous les décochons tout simplement.
En appuyant sur OK nous nous retrouvons avec 37 colonnes en en-têtes les années et sur les lignes le nombre de la population. Cette disposition n'est pas optimale pour continuer notre étude, il est préférable de regrouper les années et les valeur dans 2 colonnes.
Une fois les données importées, souvent sous forme de tableaux larges, nous utilisons la fonction Dépivoter pour transformer les données en un format plus analytique. Cela implique de transformer les données de plusieurs colonnes en lignes rendant les analyses et les visualisations ultérieures beaucoup plus accessibles. Pour ce faire nous sélectionnons toutes les colonnes et en faisant un clic droit nous cliquons sur Dépivoter les colonnes.
Nous avons donc une colonne pour les années et une colonne pour les valeurs, nous les renommons.
Chaque colonne dans Power Query doit posséder un type de données spécifique. Nous ajustons ces types pour s'assurer que les années sont reconnues comme des nombres entiers et de même pour la population, facilitant ainsi les calculs et les comparaisons.
Durant le changement de type pour la population nous constatons que cela génère des erreurs sur toutes les lignes.
L'origine de ce problème de conversion est l'espace insécable qui sépare les centaines des milliers dans les nombres. Pour se débarrasser de cet espace insécable nous supprimons l'étape précédente Type modifié et après avoir fait un clic droit sur la colonne Population nous cliquons sur Remplacer les valeurs. Pour supprimer les espaces insécables nous indiquons que nous voulons les remplacer par du vide.
Nous pouvons ensuite repasser nos colonnes au format nombre entiers sans problèmes.
Pour ajouter des données de plusieurs villes, nous dupliquons la requête initiale et modifions simplement la source pour chaque nouvelle ville. Cela nous permet de reproduire le même ensemble de transformations pour de multiples ensembles de données.
Pour dupliquer une requête nous pouvons faire un clic droit sur celle-ci et cliquer sur Dupliquer.
Nous pouvons renommer la nouvelle requête avec le nom d'une autre ville que nous souhaitons importer et nous pouvons mettre à jour les données importées en changeant l'URL dans l'étape Source.
Maintenant que nous avons une requête composé de l'évolution du nombre de la population pour 2 villes nous pouvons les combiner pour les faire tenir dans une seule table en utilisant la fonction Combiner dans l'onglet Accueil.
Cependant cette combinaison n'indique pas à quelle ville appartiennent les données. Pour les identifier nous ajoutons une colonne personnalisée dans chaque requête des villes. Cette colonne Ville sera cruciale pour distinguer les données dans nos visualisations. Pour la créer nous cliquons sur Colonne personnalisée dans l'onglet Ajouter une colonne et nous inscrivons le nom de la ville entre guillemet dans le champ des formules.
Nous obtenons après ces manipulations une requête comprenant les données démographiques de 2 villes avec sur chaque ligne une case indiquant de quelle ville il s'agit. Pour ajouter d'autres ville à notre requête nous pouvons tout d'abord dupliquer les précédente requêtes afin de reprendre les transformations effectué et réaliser les modifications nécessaires pour faire correspondre les informations avec la ville correspondante. Pour ajouter ces nouvelles requêtes à notre base de données finale nous pouvons retourner dans l'étape source de celle-ci, cocher la case Au moins trois tables et sélectionner les requêtes que nous souhaitons intégrer.
Maintenant que nous avons notre base de données finale nous allons l'exporter dans Power BI. Avant cela nous allons désactiver le chargement de toutes les requêtes sauf BDD population afin d'éviter d'exporter des requêtes inutilement dans Power BI Desktop.
Après cela nous pouvons cliquer sur Fermer & appliquer pour valider notre exportation.
Nous explorons l'interface de Power BI Desktop, un espace où nous pouvons créer, formater, et interagir avec divers types de visualisations.
L'espace blanc centrale se nomme le Canevas et correspond à l'espace où nous posons les visuels. Sur la droite, le volet Données contient l'ensemble des tables et de leurs colonnes de notre jeu de données. Nous retrouvons aussi l'onglet Visualisations où nous trouvons la liste des visuels disponibles et à sa gauche l'onglet Filtres qui permet d'appliquer des filtres au niveau des visuels ou des pages. Enfin sur la gauche nous pouvons les différentes vues disponibles qui proposent des points de vue différents sur les différents aspects du rapports.
Notre premier objectif est de créer un graphique en courbes montrant l'évolution démographique. Pour placer ce visuel nous devons cliquer dessus dans l'onglet Visualisations.
Nous pouvons configurer notre visuel dans le bas de l'onglet lorsqu'il est sélectionné sur le canevas. Pour ce graphique il nous faut remplir les champs de l'axe X, de l'axe Y et de la légende. Dans notre cas nous allons glisser dans le champ de l'axe X la colonne des années, pour l'axe Y la colonne de la population et et dans la légende nous allons y glisser la colonne des villes.
Nous utilisons le visuel segment pour filtrer nos données en fonction de la ville ou de l'année. Cela permet aux lecteurs de notre rapport de se concentrer sur des périodes ou des lieux spécifiques et de rendre l'analyse plus dynamique et interactive. Pour ce faire nous allons cliquer sur le visuel segment afin de le poser sur le canevas.
Une fois posé celui-ci ne possède qu'un seul champ à remplir. Nous allons y glisser la colonne des villes afin de permettre de filtrer les villes à afficher sur le graphique en courbes.
Maintenant pour permettre de filtrer sur les années nous allons placer un autre segment en y glissant la colonne des années dans son champ de données.
Nous pouvons remarquer que nos deux segments ne se ressemble pas et pourtant il s'agit bien du même visuel, cela est dû aux types des données. En effet les années étant des valeurs numériques Power BI propose un affichage plus adapter à ce type qui permet sélectionner un intervalle de valeurs contrairement à la colonne des villes qui est en type texte qui ne peut que nous laisser le choix de quelle ville afficher.
Après avoir placer un graphique en barre classique nous allons intégrer sur une nouvelle page un graphique en barres animées qui montre l'évolution démographique d'une manière plus dynamique et captivante. Cela ajoute une dimension temporelle à notre visualisation en offrant une perspective unique sur les données. Cette fois-ci pour placer le visuel il va falloir le chercher dans le store Microsoft Appsource de Power BI puisqu'il n'est pas proposé par défaut.
Dans ce store vous pouvez vous procurez une multitude visuels, certains sont gratuits et d'autres sont payants. Dans notre cas le visuel recherché se nomme Animated Bar Chart Race.
Pour ajouter ce visuel à notre onglet Visualisations nous cliquons sur ajouter. Puis de retour sur Power BI Desktop nous remplissons les champs de ce visuels qui sont aux nombres de 3. Il y a d'abord un champ Name où nous allons glisser la colonne du nom des villes, dans Value nous allons y glisser la colonne du nombre de la population et dans Period nous y glissons la colonne des années. Il faut s'assurer que les valeurs numériques soient correctement traités par le visuel en indiquant dans Value de prendre la somme de la population et dans Period de ne prendre que es années (en sélectionnant l'option ne pas résumer). Une fois cela fait nous obtenons l'animation de notre graphique.
En utilisant le visuel carte de Power BI nous allons visualiser la répartition géographique de la population sur une nouvelle page. Chaque bulle sur la carte représentera une ville et sa taille reflètera le nombre de la population.
Pour cela nous allons d'abord placer le visuel Carte.
Pour ce visuel nous allons remplir 2 champs de données. D'abord le champs des emplacements où nous glissons la colonne des villes et le champ de la taille des bulles que nous allons remplir avec la colonne du nombre de la population. Cependant, si nous nous arrêtons ici les valeurs de chaque pour toutes les années vont être additionnées et nous ne pourrons plus distinguer l'évolution dans le temps. Pour remédier à ce problème nous allons ajouter un segment à notre page qui va permettre de sélectionner les années. Ce faisant le segment va prendre la même forme que sur la page précédente en proposant un affichage sous forme d'intervalle alors que nous souhaitons obtenir des cases à cocher pour chaque année. Pour changer l'affichage du visuel nous le sélectionnons et nous nous rendons dans la section Mettre en forme votre visuel.
Dans les paramètres du segment nous pouvons modifier son style pour choisir celui de la liste verticale et nous pouvons aussi configurer la sélection pour ne permettre que la sélection simple, de seulement une année, et non la sélection multiple.
Pour finir la mise en forme de notre visuel carte nous le sélectionnons et nous nous rendons dans la section de la mise en forme et dans les paramètres de la carte nous décochons la case Afficher les étiquettes détaillées pour une meilleure clarté et dans style nous choisissons Nuance de gris. Pour finir nous activons Étiquettes de catégories pour afficher le nom des villes.
Enfin, nous publions notre rapport sur Power BI Service pour permettre à nos collègues et d'accéder et d'interagir avec le rapport. La première chose à faire et de s'assurer que nous sommes bien connecté puis nous repassons sur les pages et désélectionnons tout les filtres créer par des segments pour avoir un rapport neutre. Ensuite dans l'onglet Accueil nous pouvons cliquer sur Publier et Microsoft nous demande dans quel emplacement notre rapport devra être localisé.
Nous pouvons par la suite accéder à notre rapport directement depuis Power BI Service.
Pour conclure Power BI est un outil puissant et flexible pour toute personne cherchant à transformer des données en informations utilisables. Que vous soyez débutant ou cherchant à approfondir vos connaissances nos formations, en présentiel ou en distanciel, vont vous guider vers la maîtrise de cet outil essentiel. N'hésitez pas à nous contacter pour plus d'informations et pour commencer votre parcours d'apprentissage avec Power BI.
Merci d'avoir lu cet article, vous pouvez retrouver nos vidéos explicatives sur Power BI sur notre chaîne YouTube ou en cliquant ici, nous abordons aussi ces pratiques durant nos formations Power BI.