Power Query est un outil puissant de Microsoft destiné à l'extraction, la transformation et le chargement des données (ETL). Il offre une interface intuitive permettant de connecter, d'explorer et de transformer facilement des données provenant de diverses sources. Que ce soit des fichiers CSV, des bases de données SQL, des feuilles de calcul Excel, des services web ou d'autres sources, Power Query facilite la préparation des données pour l'analyse, en effectuant des opérations complexes sans nécessiter de programmation.
Il est primordial de connaître les capacités de cet outil, et de prendre de bonnes habitudes pour la transformation des données, pour en tirer le meilleur parti. Nous verrons dans cet article les 15 commandements à suivre lorsque l'on utilise ce logiciel d'ETL pour travailler le plus efficacement possible.
Lorsque tu importeras tes données dans Power BI tu choisiras de les transformer dans Power Query avant de les exploiter dans Power BI Desktop. En effet, il est fortement recommandé de toujours transformer les données lors de cette étape, afin de nettoyer, transformer et filtrer les informations importées en vue d'une meilleure intégration dans le rapport (même si l'interprétation automatique à l'air correcte). Avant de commencer à construire un rapport Power BI il est primordial de savoir à l'avance comment les données doivent être représentées et quels visuels seront utilisés, afin de traiter, au mieux, les informations en amont.
Maintenant que les éléments souhaités sont importés et que nous nous trouvons dans Power Query il est temps de procéder aux traitements des données. Cependant, avant cela, il faut savoir une chose à propos de l'ETL de Microsoft. Par défaut, Power Query n'importe que les 1000 premières lignes du jeu de données importé et si une colonne comporte beaucoup d'éléments distincts, il est possible qu'au moment de filtrer, l'ensemble du contenu des lignes ne soient pas affiché. Pour remédier à ces problèmes, tu modifieras le profilage des colonnes pour l'appliquer à l'ensemble du jeu de données en bas à gauche de l'écran.
Aussi, tu pourras afficher toutes les valeurs distinctes au moment du filtrage en cliquant sur charger plus.
Power Query propose aussi un affichage permettant de visualiser rapidement le profil de chaque colonne en indiquant sa qualité et sa distribution. Tu feras attention à vérifier le contenu de tes colonnes pour progresser efficacement dans ton traitement des données.
Pour activer ces affichages, il faut aller dans la section Affichage et cocher les éléments voulus.
Il est aussi important de noter que ces options consomment considérablement les ressources de ton ordinateur, il est donc judicieux de les retirer lorsque tu es satisfait de la qualité et du profil de tes colonnes.
Maintenant que tu as entamé la transformation de tes données, tu nommeras les étapes que tu réalises en indiquant dans le nom le changement qui a été effectué. Cette habitude te permettra de garder une trace des modifications qui ont été appliquées et de produire un historique clair du traitement des données. De plus, tu nommeras tes colonnes et tes tables afin de pouvoir retrouver facilement et lisiblement les informations lorsque tu les auras exportées vers Power BI Desktop.
Dans Power Query, tu fourniras une description à tes tables qui offre un contexte supplémentaire et facilite la compréhension du jeu de données. Cette pratique est utile lors du partage de ton travail avec d'autres utilisateurs ou lorsque tu y reviens après un certain temps. Les descriptions aident à rappeler l'objectif de chaque table, le type de données qu'elle contient, et toute autre information pertinente. Cela rend le processus de navigation, de maintenance et d'analyse des données plus efficace et précis
De plus, tu utiliseras des tables de faits et des tables de dimension pour te faciliter l'organisation et l'interprétation des données. Les tables de faits contiennent des données numériques ou mesurables, tandis que les tables de dimension renferment des détails descriptifs. En les associant, tu pourras effectuer des analyses détaillées et contextualisées, améliorant ainsi la qualité de tes rapports et visualisations. Ces tables optimisent également la performance de tes modèles de données en minimisant les redondances. Aussi, là encore dans le cadre de l'optimisation de ton projet BI, tu favorisera l'utilisation d'une requête de dimension plutôt que celle de la fonction "remplacer par".
Dans Power Query tu penseras à ne réaliser que les grosses transformations nécessaires. Prenons l'exemple de la mise en format de dates, tu ne le géreras pas dans l'ETL où tu ne fera que sélectionner le type voulu pour ta donnée, le type date pour notre exemple, le format d'affichage est un détail à configurer dans Power BI Desktop. De plus, pour faire un comparatif avec Excel, Power Query ne nécessite pas de créer des "vues" pour l'exploitation des données, dans leurs intégrations dans des visuels, pour la suite.
Dans ton traitement des données tu penseras aussi à bien typer tes colonnes. Assigner manuellement un type à une colonne permet de faire comprendre à Power BI comment l'information doit être lue et quelles options peuvent être applicables. Cette précision est très importante à réaliser pour réaliser des opérations entre des valeurs numériques, traiter du texte ou encore manipuler des dates. Pour gérer les types des informations il suffit d'aller dans l'entête d'une colonne en cliquant sur l'icône à gauche.
Avant chacune de tes modifications sur le jeu de données, pour avancer sur la construction de ton modèle de donnée, tu prendras garde de bien te positionner sur la dernière étape afin de ne pas déconstruire l'historique.
Filtrer dans Power Query c'est supprimer dans Power BI Desktop
De plus, tu sauras qu'à chaque fois que tu appliqueras un filtre sur une colonne, les données camouflées par le filtre n'existent plus dans Power BI Desktop. Il est donc important de ne pas appliquer des filtres qui pourraient agir sur des informations utiles au risque de ne plus les retrouver dans Power BI.
Lorsque tu appliques des transformations sur une source de données qui risque d'évoluer avec le temps, comme un document se mettant régulièrement à jour en s'enrichissant d'information par exemple, tu effectueras tes modifications de telle façon qu'elles ne produisent pas d'erreur quand le fichier source se trouvera changé.
Aussi, dans le cas où tu souhaiterais appliquer les mêmes transformations à plusieurs sources de données, tu réaliseras ces modifications de sorte à ce qu'elles soient applicables à toutes ces sources, sans qu'elles génèrent d'erreurs.
Lorsque tu veux travailler avec plusieurs source de données organisés sous la même forme, tu penseras à utiliser les paramètres et les fonctions dans Power Query pour éviter de réaliser plusieurs fois les même transformations et d'importer manuellement chaque requête.
Si durant ton traitement tu souhaites copier une requête, tu privilégieras l'option Référence plutôt que Dupliquer. Celle-ci a l'avantage d'être plus économe en ressources et en mémoire et reprend les étapes réalisées sur la requête d'origine même si elles ont été effectuées après l'appel de la référence.
Le moins d'étapes tu génèreras, pour réaliser les transformations nécessaires de ton jeu de données, et plus ton traitement des données dans Power Query sera optimisé. En cas d'erreur, n'hésites pas à revenir à une étape antérieure plutôt que de créer de nouvelles étapes pour te corriger.
Enfin, lorsque tu as fini de transformer tes données et que tu veux les exporter vers Power BI Desktop, tu annuleras le chargement des requêtes qui te seront inutiles pour la construction d'un rapport pour ne garder que les requêtes "finales" contenant les informations que tu souhaites représenter.
Merci d'avoir lu cet article, vous pouvez retrouver nos vidéos explicatives sur Power BI sur notre chaîne YouTube ou en cliquant ici, nous abordons aussi ces pratiques durant nos formations Power BI.