Lire l'article
Power Query est un outil puissant de Microsoft destiné à l'extraction, la transformation et le chargement des données (ETL). Il offre une interface intuitive permettant de connecter, d'explorer et de transformer facilement des données provenant de diverses sources. Que ce soit des fichiers CSV, des bases de données SQL, des feuilles de calcul Excel, des services web ou d'autres sources, Power Query facilite la préparation des données pour l'analyse, en effectuant des opérations complexes sans nécessiter de programmation.
Il est primordial de connaître les capacités de cet outil, et de prendre de bonnes habitudes pour la transformation des données, pour en tirer le meilleur parti. Nous verrons dans cet article les 20 commandements à suivre lorsque l'on utilise ce logiciel d'ETL pour travailler le plus efficacement possible.
Lorsque tu importeras tes données dans Power BI tu choisiras de les transformer dans Power Query avant de les exploiter dans Power BI Desktop. En effet, il est fortement recommandé de toujours transformer les données lors de cette étape, afin de nettoyer, transformer et filtrer les informations importées en vue d'une meilleure intégration dans le rapport (même si l'interprétation automatique à l'air correcte). Avant de commencer à construire un rapport Power BI il est primordial de savoir à l'avance comment les données doivent être représentées et quels visuels seront utilisés, afin de traiter, au mieux, les informations en amont.
Verbaliser chaque étape du processus facilite non seulement la compréhension du travail à réaliser, mais permet également de clarifier et de prioriser les étapes de traitement. En mentionnant à haute voix les transformations nécessaires, tu seras plus enclin à identifier des étapes superflues ou à réorganiser ton processus pour qu'il soit plus logique. Par ailleurs, envisager les visualisations dès le début te guide dans la préparation de tes données et te permet de les structurer de manière à répondre aux besoins spécifiques de tes rapports.
Un en-tête mal placé ou des colonnes superflues peuvent rapidement perturber la transformation des données. Assure-toi toujours que les en-têtes soient à leur place appropriée et ne soient pas traités comme une partie des données. Les colonnes inutiles, quant à elles, augmentent la taille du fichier et ralentissent les processus. Supprimer ces colonnes inutiles dès le début garantit un traitement plus rapide et une visualisation plus claire de l'information pertinente.
Maintenant que les éléments souhaités sont importés et que nous nous trouvons dans Power Query il est temps de procéder aux traitements des données. Cependant, avant cela, il faut savoir une chose à propos de l'ETL de Microsoft. Par défaut, Power Query n'importe que les 1000 premières lignes du jeu de données importé et si une colonne comporte beaucoup d'éléments distincts, il est possible qu'au moment de filtrer, l'ensemble du contenu des lignes ne soient pas affiché. Pour remédier à ces problèmes, tu modifieras le profilage des colonnes pour l'appliquer à l'ensemble du jeu de données en bas à gauche de l'écran.
Aussi, tu pourras afficher toutes les valeurs distinctes au moment du filtrage en cliquant sur charger plus.
Power Query propose aussi un affichage permettant de visualiser rapidement le profil de chaque colonne en indiquant sa qualité et sa distribution. Tu feras attention à vérifier le contenu de tes colonnes pour progresser efficacement dans ton traitement des données.
Pour activer ces affichages, il faut aller dans la section Affichage et cocher les éléments voulus.
Il est aussi important de noter que ces options consomment considérablement les ressources de ton ordinateur, il est donc judicieux de les retirer lorsque tu es satisfait de la qualité et du profil de tes colonnes.
Une colonne devrait idéalement représenter une seule variable ou indicateur. Mélanger différents types d'informations dans une colonne peut entraîner des erreurs lors de la transformation ou de l'analyse des données. En attribuant le bon type de données dès le départ, tu t'assures que Power Query traite correctement l'information et qu'elle est prête pour l'analyse. De plus, l'attribution correcte des types de données facilite les opérations, les comparaisons et garantit que Power BI interprète correctement les données.
Maintenant que tu as entamé la transformation de tes données, tu nommeras les étapes que tu réalises en indiquant dans le nom le changement qui a été effectué. Cette habitude te permettra de garder une trace des modifications qui ont été appliquées et de produire un historique clair du traitement des données. De plus, tu nommeras tes colonnes et tes tables afin de pouvoir retrouver facilement et lisiblement les informations lorsque tu les auras exportées vers Power BI Desktop.
Dans Power Query, il existe différents types de requêtes, notamment les référentiels, les modèles et les bases de données. Chaque type a ses particularités et ses usages spécifiques. En distinguant clairement ces types de requêtes et en les utilisant de manière appropriée, tu optimises la performance, la flexibilité, et la robustesse de ton traitement des données.
L'ajout de commentaires détaillés à chaque étape de transformation facilite la révision et la compréhension du processus, surtout si tu reviens sur ton travail après une longue période ou si quelqu'un d'autre doit prendre le relais. Un bon commentaire explique non seulement ce que fait l'étape, mais aussi pourquoi elle est nécessaire. Cela contribue à un processus de transformation transparent et facile à suivre.
Dans Power Query tu penseras à ne réaliser que les grosses transformations nécessaires. Prenons l'exemple de la mise en format de dates, tu ne le géreras pas dans l'ETL où tu ne fera que sélectionner le type voulu pour ta donnée, le type date pour notre exemple, le format d'affichage est un détail à configurer dans Power BI Desktop. De plus, pour faire un comparatif avec Excel, Power Query ne nécessite pas de créer des "vues" pour l'exploitation des données, dans leurs intégrations dans des visuels, pour la suite.
Avant chacune de tes modifications sur le jeu de données, assure-toi de toujours te positionner sur la dernière étape. Cette précaution essentielle t’empêchera de perturber, voire de démanteler l’historique des modifications apportées jusque-là. Ce faisant, tu protèges non seulement le travail déjà accompli, mais tu facilites également la tâche de diagnostic et de correction d’éventuelles erreurs ou incohérences qui pourraient surgir à l'avenir. T'approprier cette pratique prudente et réfléchie t'aidera à bâtir un modèle de données robuste, précis, et fiable.
Filtrer dans Power Query c'est supprimer dans Power BI Desktop
De plus, tu sauras qu'à chaque fois que tu appliqueras un filtre sur une colonne, les données camouflées par le filtre n'existent plus dans Power BI Desktop. Il est donc important de ne pas appliquer des filtres qui pourraient agir sur des informations utiles au risque de ne plus les retrouver dans Power BI.
Lorsque tu appliques des transformations sur une source de données qui risque d'évoluer avec le temps, comme un document se mettant régulièrement à jour en s'enrichissant d'information par exemple, tu effectueras tes modifications de telle façon qu'elles ne produisent pas d'erreur quand le fichier source se trouvera changé.
Aussi, dans le cas où tu souhaiterais appliquer les mêmes transformations à plusieurs sources de données, tu réaliseras ces modifications de sorte à ce qu'elles soient applicables à toutes ces sources, sans qu'elles génèrent d'erreurs.
Lorsque tu travailles avec un ensemble hétérogène de sources de données, toutes organisées selon une structure similaire, tu utiliseras les paramètres dans Power Query. Ces paramètres sont essentiellement des variables que à définir et te permettent de rendre tes opérations d'importation et de transformation beaucoup plus flexibles et dynamiques. C'est une approche qui non seulement économise un temps précieux, mais qui garantit également une uniformité dans la manière dont chaque source est traitée.
Couplées aux paramètres, les fonctions jouent un rôle clé dans l'automatisation et l'efficacité de tes processus de transformation. En utilisant des fonctions, tu évites de reproduire plusieurs fois les mêmes transformations sur différentes sources de données. Ainsi, une fois que tu as défini une fonction pour un certain type de traitement, tu peux l'appliquer à toutes les sources pertinentes, garantissant ainsi optimisation et gain de temps.
Si durant ton traitement tu souhaites copier une requête, tu privilégieras l'option Référence plutôt que Dupliquer. Celle-ci a l'avantage d'être plus économe en ressources et en mémoire et reprend les étapes réalisées sur la requête d'origine même si elles ont été effectuées après l'appel de la référence.
L'une des caractéristiques clés de Power Query est la possibilité de visualiser chaque étape de la transformation des données. Plutôt que de superposer de nouvelles étapes pour corriger une erreur, il est préférable de revenir à l'étape où l'erreur s'est produite et de la rectifier directement. Cela permet non seulement de conserver un historique des transformations plus propre, mais cela peut également prévenir des complications ou des redondances inutiles qui pourraient survenir en ajoutant des étapes correctives. En simplifiant le processus de cette manière, tu garantiras également une meilleure lisibilité et une maintenance plus facile .
L'efficacité est la clé lorsqu'il s'agit de traiter de grandes quantités de données. Dans Power Query, l'objectif doit toujours être de réaliser les transformations nécessaires avec le moins d'étapes possible. Chaque étape supplémentaire pourrait potentiellement ralentir le processus de traitement et de chargement des données. En concentrant tes efforts sur la réduction du nombre d'étapes, tu assureras non seulement une exécution plus rapide de ta requête, mais tu faciliteras également la compréhension du processus de transformation pour toi-même et pour les autres utilisateurs. Une approche concise et réfléchie lors de la définition des étapes peut grandement améliorer l'efficacité globale de la transformation des données.
De plus, tu utiliseras des tables de faits et des tables de dimension pour te faciliter l'organisation et l'interprétation des données. Les tables de faits contiennent des données numériques ou mesurables, tandis que les tables de dimension renferment des détails descriptifs. En les associant, tu pourras effectuer des analyses détaillées et contextualisées, améliorant ainsi la qualité de tes rapports et visualisations. Ces tables optimisent également la performance de tes modèles de données en minimisant les redondances. Aussi, là encore dans le cadre de l'optimisation de ton projet BI, tu favorisera l'utilisation d'une requête de dimension plutôt que celle de la fonction "remplacer par".
Enfin, lorsque tu as fini de transformer tes données et que tu veux les exporter vers Power BI Desktop, tu annuleras le chargement des requêtes qui te seront inutiles pour la construction d'un rapport pour ne garder que les requêtes "finales" contenant les informations que tu souhaites représenter.
Merci d'avoir lu cet article, vous pouvez retrouver nos vidéos explicatives sur Power BI sur notre chaîne YouTube ou en cliquant ici, nous abordons aussi ces pratiques durant nos formations Power BI.