Lire l'article
Le Dataflow (flux de données) est une nouvelle méthode permettant de créer à partir de collection de tables une nouvelle source de données exploitable pouvant stocker énormément de données. Il peut être utilisé pour traiter des données liées au Big Data (dont ses 5 caractéristiques sont Vélocité, Volume, Variété, Vitesse, Valeur).
L’utilisation d’un Dataflow est idéale si vous devez combiner des données issues de plusieurs sources disparates.
Il s’agit d’une fonctionnalité de Power BI Service, qui permet aux utilisateurs de créer un grand jeu de données réutilisable et idéal pour des problématiques Big Data.
Ce jeu de données que l’on crée dans Power BI Service utilise la version Online de Power Query,un ETL (Extract Transform & Load) en libre service. Dans cette version Online de Power Query, on peut voir apparaître une nouvelle vue diagramme (comme dans d’autres logiciels, exemple : Talend, Alteryx) que l’on ne retrouve pas sur Power Query pour Power BI Desktop.
Aussi, contrairement à un Dataset (jeu de données) Power BI standard qui peut contenir 1 Go, le Dataflow, lui, permet d’en contenir 10.
On peut aussi effectuer des retraitements complexes (merge, append, etc.) au travers du Dataflow que l’on a créé. Le seul inconvénient à cela est l’obligation de posséder la version tarifaire dite Premium de Power BI.
In fine, le Dataflow peut être considéré comme un cube de données (un entrepôt de stockage en ligne des données prêt à l’emploi), et permet à des employés de s’y connecter, et de construire des rapports ou des analyses.
Il existe quatre types de méthodes de création de Dataflow, chacune répondant à un besoin précis:
Cette méthode de création de Dataflow consiste à récupérer le chemin d’accès aux données qui se trouve en local ou en ligne. On va spécifier ce chemin ainsi que les paramètres de connexion et le compte Power BI Service qui est utilisé dans le formulaire de connexion aux données. Puis nous traitons les données et sauvegardons le Dataflow. Il s’agit de la méthode la plus courante pour créer un Dataflow.
La création d’un Dataflow avec la méthode “Définir de nouvelles tables” débute en choisissant l’une des diverses sources de données que l’on veut utiliser.
On paramètre ensuite les informations de notre source de données.
On se retrouve sur la version online de Power Query, où l’on peut transformer les données comme dans Power Query sur Power BI Desktop.
Seuls les traitements dits complexes ne sont pas disponibles dans la version Premium
Dans cette nouvelle vue dite Diagramme, on peut voir des diagrammes apparaître juste au-dessus de nos données.
À la fin des retraitements, on peut sauvegarder notre Dataflow.
L’utilisation du Dataflow créé se fait sur Power BI Desktop, en faisant "Obtenir les données" puis "Dataflow Power BI".
Par la suite, on peut soit créer des visuels liés à ce Dataflow, soit retraiter les données sur Power Query de Power BI Desktop.
La méthode “Lier des tables d’autres Dataflows” permet d’utiliser des données d’un Dataflow déjà existant pour en créer un nouveau. Cette méthode est souvent utilisée lorsque l’on veut se servir d’une table à plusieurs reprises ou comme référence. On utilise aussi “Lier des tables d’autres Dataflows” si l’on veut joindre des tables, mais la version Premium est nécessaire. Cela permet ainsi de réduire les charges aux tables sous-jacentes, d’éviter de faire des actualisations régulières et d’avoir un gain de temps.
L’importation de modèle est une méthode utile dans les cas suivant la création d’une copie d’un Dataflow ou le déplacement vers un autre workspace d’un Dataflow choisi.
L’importation d’un flux de données se fait en choisissant la méthode “Importer le modèle” par la sélection du fichier JSON contenant le modèle et pour l’exportation d’un flux de données, sélectionner le Dataflow en question. Cliquer sur les trois petits points et sur “Export .json”.
Cette méthode permet de faire référence à une table qui provient d’une autre application au format Common Data Model stocké dans Azure Data Lake Storage Gen2 (ensemble de fonctionnalités dédiées à l’analytique du Big Data de Microsoft). Common Data Model ou le modèle de données commun est un ensemble de schémas de données standardisées par Microsoft et ses partenaires. Il permet la simplification de la récupération de données de plusieurs applications différentes.
Les prérequis de cette méthode sont:
Qu'est ce que le Dataflow, voici notre article à propos de ce sujet.
Voir aussi notre premier article sur le Dataflow.
Voir notre page sur les formations Power BI.