Analyser et traiter les doublons dans Power Query

9 novembre 2023

(Écrit par un humain)

L'efficacité du traitement des données dans Power BI dépend en grande partie de la propreté de ces dernières. Un défi courant que rencontrent les analystes de données est la présence de doublons qui peuvent fausser les analyses et les rapports. Dans cet article, nous allons voir comment détecter, analyser et corriger les doublons dans Power Query.

Nous vous invitons à regarder notre vidéo YouTube qui traite de ce cas pratique.

Présentation des données source

Pour ce cas pratique nous allons utiliser une requête "Fact Export RH" qui est une requête issue de la combinaison verticale de quatre fichiers Excel. Ces fichiers correspondent aux données RH d'une entreprise sur les mois de juillet, août, septembre et octobre. Une des informations stockées dans ce document est le matricule de chaque salarié qui est unique et permet de les identifier.

Création de la requête "vérification doublons"

Tout d'abord, la première chose à faire est d'identifier les doublons. Pour ce faire nous allons dupliquer la requête et nous nommons cette copie "Verif Doublon". Pour repérer les doublons nous allons utiliser la fonction Regrouper par et nous cochons Avancé pour pouvoir faire des regroupements de plusieurs colonnes, puis nous allons regrouper par la date d'export et le matricule. Nous nommons cette nouvelle colonne "Nombre" et l'opération à exécuter est Compter les lignes. Nous verrons donc dans chaque fichier Excel combien de lignes comportent un même matricule.

Maintenant, pour ne voir que les doublons dans cette table nous allons filtrer la colonne "Nombre" en y appliquant un Filtre numérique.

Nous n'allons conserver que les lignes de la colonne "Nombre" dont la valeur est supérieure à 1, grâce à cela nous ne voyons plus que les lignes qui comportent les même informations et donc des potentiels doublons qui peuvent parasiter l'analyse des données.

Ensuite, pour avoir une meilleure visualisation de notre table nous allons trier les colonnes "Date d'export" et "Matricule" dans l'ordre croissant. En faisant cela nous pouvons clairement voir le nombre de doublons pour un même matricule et une même date d'exportation.

Par exemple nous pouvons voir dans la colonne "Nombre" que le matricule finissant par 025 apparaît deux fois dans chaque fichier Excel. En revanche, le matricule finissant par 030 apparaît deux fois, mais seulement dans un seul fichier qui correspond au mois d'octobre 2020.

Investigation des doublons dans la requête principale

Maintenant que nous n'avons plus que les informations concernant les matricules qui se répètent, nous allons vérifier s'il s'agit de vrais doublons, qui correspondent à une double saisie des même informations, ou s'il s'agit  d'une faute de frappe dans le matricule qui a résulté par une copie du matricule d'un salarié pour les informations correspondant à un autre.

Pour cela, nous allons copier un matricule de notre table "Verif Doublon", puis nous retournons dans notre requête originel "Fact Export RH" pour filtrer dans la colonne "Matricule" grâce à un filtre textuel, en sélectionnant l'opération Est égal à, et nous collons le matricule doublon.

Nous filtrons également dans la colonne "Date Export" pour n'avoir que les informations provenant d'un seul fichier Excel.

Pour les doublons nous allons tout d'abord rétrograder les entêtes pour les passer en première ligne et ensuite transposer notre requête. Ainsi, nous pouvons avoir les noms des colonnes et les valeurs des deux lignes qui sont des doublons afin de pouvoir les analyser horizontalement.

Pour reconnaitre les valeurs à investiguer manuellement, nous créons une colonne conditionnelle qui va comparer si la colonne 2 est égale à la colonne 3. Si c'est le cas alors il s'agit d'un vrai doublon, sinon les valeurs dans la lignes sont différentes et donc il est nécessaire d'analyser manuellement la ligne pour voir s'il s'agit bien d'une erreur ou non. C'est une méthode qui permet de reconnaitre automatiquement un maximum de doublons dans notre requête et ne laisse que le minimum à analyser manuellement.

Par exemple, si nous reprenons le matricule que nous avons copié précédemment, nous pouvons déterminer à partir de cette technique que c'est un vrai doublon, car les colonnes 2 et 3 sont parfaitement égales. Pour effectuer cette même vérification pour les autre matricules il suffit juste de retourner dans étapes appliquées à l'étape ligne filtrée et remplacer la valeur du filtre dans l'éditeur avancé.

Dans cette même étape il est aussi possible de changer la date d'export du filtre.

Lorsque nous avons fini de vérifier pour chacun des doublons nous pouvons retrouver notre requête "Fact Export RH" d'origine en supprimant les étapes appliquées à partir de ligne filtrée.

Suppression des doublons dans la requête principale

Maintenant, nous allons supprimer les vrais doublons en sélectionnant les colonnes "Date d'Export" et "Matricule" et une colonne qui différencie les vrais doublons des faux doublons. Pour cela nous allons choisir la colonne de la "Date de Naissance" car comme nous avons pu voir précédemment la date de naissance était différente pour un même matricule. Ensuite pour supprimer les doublons il suffit de faire clic droit sur l'une des colonnes sélectionnées et utiliser la fonction Supprimer les doublons.

Pour conclure, nous pouvons maintenant vérifier que notre méthode fonctionne correctement en comptant le nombre de lignes pour savoir combien de vrais doublons ont été supprimé. Avant la suppression des doublons, nous étions à 10,382 lignes. Maintenant, nous sommes à 10,373 lignes, neuf lignes ont donc été supprimées. Ces neuf lignes sont en effet les vrais doublons qui ont été supprimés.

Le premier matricule était un vrai doublon qui apparaissait huit fois et après la suppression il n'en reste plus que quatre. Le deuxième matricule étant un faux doublon donc aucune ligne n'a été supprimée. Le troisième matricule, quant à lui, apparaissait deux fois dans un seul fichier, celui du mois d'octobre, nous n'avons donc supprimé qu'une seule occurrence. Enfin, le quatrième matricule qui était également un vrai doublon était apparu huit fois avant la suppression. Après suppression il ne reste plus que quatre lignes.

Merci d'avoir lu cet article, vous pouvez retrouver nos vidéos explicatives sur Power BI sur notre chaîne YouTube ou en cliquant ici, nous abordons aussi ces pratiques durant nos formations Power BI.

Articles en relation

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram