Comment créer ou modifier un Dataflow

26 janvier 2022

Le Dataflow (flux de données) est une nouvelle méthode permettant de créer à partir de collection de tables une nouvelle source de données exploitable pouvant stocker énormément de données. Il peut être utilisé pour traiter des données liées au Big Data (dont ses 5 caractéristiques sont Vélocité, Volume, Variété, Vitesse, Valeur).

L’utilisation d’un Dataflow est idéale si vous devez combiner des données issues de plusieurs sources disparates.

Créer un Dataflow

Il s’agit d’une fonctionnalité de Power BI Service, qui permet aux utilisateurs de créer un grand jeu de données réutilisable et idéal pour des problématiques Big Data.

Ce jeu de données que l’on crée dans Power BI Service utilise la version Online de Power Query,un ETL (Extract Transform & Load) en libre service. Dans cette version Online de Power Query, on peut voir apparaître une nouvelle vue diagramme (comme dans d’autres logiciels, exemple : Talend, Alteryx) que l’on ne retrouve pas sur Power Query pour Power BI Desktop.

Aussi, contrairement à un Dataset (jeu de données) Power BI standard qui peut contenir 1 Go, le Dataflow, lui, permet d’en contenir 10.

On peut aussi effectuer des retraitements complexes (merge, append, etc.) au travers du Dataflow que l’on a créé. Le seul inconvénient à cela est l’obligation de posséder la version tarifaire dite Premium de Power BI.

In fine, le Dataflow peut être considéré comme un cube de données (un entrepôt de stockage en ligne des données prêt à l’emploi), et permet à des employés de s’y connecter, et de construire des rapports ou des analyses.

Il existe quatre types de méthodes de création de Dataflow, chacune répondant à un besoin précis:

  • Définition de nouvelles tables
  • Lier des tables d’autres Dataflows
  • Importer le modèle
  • Common Data Model

Définir de nouvelles tables

Cette méthode de création de Dataflow consiste à récupérer le chemin d’accès aux données qui se trouve en local ou en ligne. On va spécifier ce chemin ainsi que les paramètres de connexion et le compte Power BI Service qui est utilisé dans le formulaire de connexion aux données. Puis nous traitons les données et sauvegardons le Dataflow. Il s’agit de la méthode la plus courante pour créer un Dataflow.

Création d’un Dataflow avec la méthode “Définir de nouvelles tables”

La création d’un Dataflow avec la méthode “Définir de nouvelles tables” débute en choisissant l’une des diverses sources de données que l’on veut utiliser.

On paramètre ensuite les informations de notre source de données.

On se retrouve sur la version online de Power Query, où l’on peut transformer les données comme dans Power Query sur Power BI Desktop.

Seuls les traitements dits complexes ne sont pas disponibles dans la version Premium

Dans cette nouvelle vue dite Diagramme, on peut voir des diagrammes apparaître juste au-dessus de nos données.

À la fin des retraitements, on peut sauvegarder notre Dataflow.

L’utilisation du Dataflow créé se fait sur Power BI Desktop, en faisant "Obtenir les données" puis "Dataflow Power BI".

Par la suite, on peut soit créer des visuels liés à ce Dataflow, soit retraiter les données sur Power Query de Power BI Desktop.

Capture d'écran de visuels créés à partir du Dataflow Infomax

Lier des tables d’autres Dataflows

La méthode “Lier des tables d’autres Dataflows” permet d’utiliser des données d’un Dataflow déjà existant pour en créer un nouveau. Cette méthode est souvent utilisée lorsque l’on veut se servir d’une table à plusieurs reprises ou comme référence. On utilise aussi “Lier des tables d’autres Dataflows” si l’on veut joindre des tables, mais la version Premium est nécessaire. Cela permet ainsi de réduire les charges aux tables sous-jacentes, d’éviter de faire des actualisations régulières et d’avoir un gain de temps. 

Importer le modèle

L’importation de modèle est une méthode utile dans les cas suivant la création d’une copie d’un Dataflow ou le déplacement vers un autre workspace d’un Dataflow choisi.

L’importation d’un flux de données se fait en choisissant la méthode “Importer le modèle” par la sélection du fichier JSON contenant le modèle et pour l’exportation d’un flux de données, sélectionner le Dataflow en question. Cliquer sur les trois petits points et sur “Export .json”. 

Joindre un dossier Common Data Model

Cette méthode permet de faire référence à une table qui provient d’une autre application au format Common Data Model stocké dans Azure Data Lake Storage Gen2 (ensemble de fonctionnalités dédiées à l’analytique du Big Data de Microsoft). Common Data Model ou le modèle de données commun est un ensemble de schémas de données standardisées par Microsoft et ses partenaires. Il permet la simplification de la récupération de données de plusieurs applications différentes. 

Les prérequis de cette méthode sont:

  • Le compte ADLS (Azure Data Lake Storage) doit posséder les autorisations nécessaires d’accès au fichier et doit être disponible à la personne voulant créer le Dataflow
  • La création du Dataflow à partir de dossiers CDM (Common Data Model) ne doit être disponible que dans la nouvelle expérience d'espace de travail
  • Le chemin d'accès doit être direct au fichier JSON et doit se servir du point de terminaison ADLS Gen 2 (blob.core non pris en charge)

Qu'est ce que le Dataflow, voici notre article à propos de ce sujet.

Voir aussi notre premier article sur le Dataflow.

Voir notre page sur les formations Power BI.

Articles en relation

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram