Lire l'article
(Écrit par un humain)
Dans le monde de l'analyse de données l'uniformité n'est pas toujours une réalité. Les différences subtiles dans la manière dont les informations sont enregistrées dans diverses bases de données peuvent représenter un défi majeur lorsqu'il s'agit de regrouper et combiner ces données pour des analyses. Heureusement le concept de correspondance approximative (ou logique floue) offre une solution puissante pour fusionner des éléments dont les valeurs ne sont pas strictement identiques. Cette technique est particulièrement utile dans Power BI où elle permet de rapprocher par exemple des prénoms, des noms de famille ou des noms d'entreprises orthographiés différemment dans deux jeux de données distincts.
Nous vous invitons à regarder notre vidéo YouTube qui traite de ce cas pratique.
La correspondance approximative repose sur l'identification d'une colonne commune ou clé primaire entre les jeux de données similaire aux opérations de fusion traditionnelles. Cependant, elle se distingue par la flexibilité offerte à l'utilisateur pour ajuster divers paramètres tels que le seuil de similarité, le nombre maximal de résultats par correspondance et l'intégration d'une table de transformation. Ces réglages permettent de personnaliser le processus de fusion pour répondre précisément aux besoins de l'analyse.
Un exemple éclairant de l'utilisation de la correspondance approximative est présenté dans l'étude de cas numéro 6 "Rapports RH" de la formation MYPE. Le défi consistait à fusionner une table de dimension pays, contenant une colonne Nationalité, avec une table de faits comportant également une colonne Nationalité. La complexité résidait dans le fait que les valeurs de nationalité n'étaient pas uniformément enregistrées entre les deux tables avec des distinctions basées sur le genre dans l'une d'elles.
Pour surmonter ce défi la fusion approximative a été mise en œuvre via Power BI en sélectionnant Combiner puis Fusionner les requêtes. Initialement, la fusion classique ne révélait qu'une faible correspondance (moins de 10%) et souligne la nécessité d'adopter une approche de correspondance approximative pour améliorer le taux de succès.
Suite à cette fusion nous pouvons voir beaucoup de valeurs null dans les colonnes des pays (colonne nommée Nom français) et des continents.
Pour modifier les paramètres de notre fusion nous devons cliquer sur le rouages de l'étape appliquée de la fusion. Puis après avoir coché la case pour utiliser la correspondance approximative la première option proposée est le seuil de similarité, qui est facultatif, qui permet de définir le pourcentage de ressemblance entre les 2 éléments fusionnés, par défaut se seuil est de 0,8 soit 80%. Maintenant nous pouvons voir que Power Query a associé les nationalités avec tout les noms des pays du plus ressemblant au moins ressemblant.
Pour ne garder qu'une seule correspondance nationalité il suffit de retourner dans les options de la correspondance approximative et de définir le nombre maximale de correspondance à 1 pour ne garder que le pays le plus ressemblant à la nationalité.
Cependant il reste encore des valeurs null pour les nationalités que Power Query n'a pas pu associé car elles ne ressemble pas au nom de leurs pays. Pour remédier à cela nous allons utiliser une table de transformation pour donner indiqué à Power Query quelle nationalité indiqué s'ils croisent les appellations suivantes, à noter qu'il est important de garder le nommage des colonnes From et To qui est imposé par Microsoft.
Là encore pour il faut retourner dans les options de la correspondance approximative pour intégrer cette table de transformation et nous pouvons voir qu'après l'avoir fait le nombre de correspondance à encore une fois augmenté.
Nous pouvons que les pays qui ne s'affiche pas correspondent à la nationalité Britannique. Pour résoudre ce problème nous devons aller dans la table de dimension géographique et chercher la nationalité Britannique et la copier.
Puis dans la table de transformation nous rajoutons une ligne pour cette nationalité.
Ainsi après avoir actualisé la table de transformation nous pouvons voir que nous arrivons maintenant à une correspondance de 100%.
Merci d'avoir lu cet article, vous pouvez retrouver nos vidéos explicatives sur Power BI sur notre chaîne YouTube ou en cliquant ici, nous abordons aussi ces pratiques durant nos formations Power BI.