Lab 10 | Créer un pipeline de données dans Azure Synapse Analytique

Support formation Microsoft Azure

Lab 10 | Créer un pipeline de données dans Azure Synapse Analytique

Gonzague Ducos

Dans cet exercice, vous allez charger des données dans un pool SQL dédié à l’aide d’un pipeline dans Azure Synapse Analytique Explorer. Le pipeline encapsule un flux de données qui charge les données produit dans une table d’un entrepôt de données.

Cet exercice devrait durer environ 45 minutes.

Avant de commencer

Vous aurez besoin d’un

abonnement Azure⁠

dans lequel vous disposez d’un accès de niveau administratif.

Approvisionner un espace de travail Azure Synapse Analytique

Vous aurez besoin d’un espace de travail Azure Synapse Analytique avec accès au stockage du lac de données et d’un pool SQL dédié hébergeant un entrepôt de données relationnelles.

Dans cet exercice, vous allez utiliser une combinaison d’un script PowerShell et d’un modèle ARM pour provisionner un espace de travail Azure Synapse Analytique.

Connectez-vous au

portail Azure⁠

à l’adresse https://portal.azure.com.

Utilisez le bouton [>_] à droite de la barre de recherche en haut de la page pour créer un Cloud Shell dans le portail Azure, en sélectionnant un environnement PowerShell et en créant un stockage si vous y êtes invité. Cloud Shell fournit une interface de ligne de commande dans un volet situé au bas du portail Azure, comme illustré ici : Remarque : Si vous avez déjà créé un Cloud Shell qui utilise un environnement Bash, utilisez le menu déroulant en haut à gauche du volet Cloud Shell pour le remplacer par PowerShell.

Notez que Cloud Shell peut être redimensionné en faisant glisser la barre de séparation en haut du volet ou en utilisant les icônes —, ◻ et X en haut à droite du volet pour réduire, agrandir et fermer le volet. Pour plus d’informations sur l’utilisation d’Azure Cloud Shell, consultez la

documentation Azure Cloud Shell⁠

Dans le volet PowerShell, entrez les commandes suivantes pour cloner ce référentiel :

rm -r dp-203 -f

git clone https://github.com/MicrosoftLearning/dp-203-azure-data-engineer dp-203

Une fois le référentiel cloné, entrez les commandes suivantes pour passer au dossier de cet exercice, puis exécutez le script setup.ps1 qu’il contient :

cd dp-203/Allfiles/labs/10

./setup.ps1

Si vous y êtes invité, choisissez l’abonnement que vous souhaitez utiliser (cela ne se produira que si vous avez accès à plusieurs abonnements Azure).

Lorsque vous y êtes invité, entrez un mot de passe approprié à définir pour votre pool SQL Azure Synapse. Remarque : N’oubliez pas ce mot de passe !

Attendez que le script soit terminé - cela prend généralement environ 10 minutes, mais dans certains cas, cela peut prendre plus de temps. Pendant que vous attendez, consultez l’article

Flux de données dans Azure Synapse Analytique⁠

dans la documentation Azure Synapse Analytique.

Afficher les magasins de données source et de destination

Les données sources de cet exercice sont un fichier texte contenant des données sur le produit. La destination est une table dans un pool SQL dédié. Votre objectif est de créer un pipeline qui encapsule un flux de données dans lequel les données produit du fichier sont chargées dans la table. l’insertion de nouveaux produits et la mise à jour des produits existants.

Une fois le script terminé, dans le portail Azure, accédez au groupe de ressources dp203-xxxxxxx qu’il a créé, puis sélectionnez votre espace de travail Synapse.

Dans la page Vue d’ensemble de votre espace de travail Synapse, dans la carte Ouvrir Synapse Studio, sélectionnez Ouvrir pour ouvrir Synapse Studio dans un nouvel onglet du navigateur ; Connectez-vous si vous y êtes invité.

Sur le côté gauche de Synapse Studio, utilisez l’icône ›› pour développer le menu, ce qui révèle les différentes pages de Synapse Studio que vous utiliserez pour gérer les ressources et effectuer des tâches d’analytique de données.

Sur la page Gérer, sous l’onglet Pools SQL, sélectionnez la ligne du pool SQL dédié sql xxxxxxx et utilisez son icône ▷ pour le démarrer. confirmer que vous souhaitez le reprendre lorsque vous y êtes invité.

La reprise de la piscine peut prendre quelques minutes. Vous pouvez utiliser le bouton ↻ Actualiser pour vérifier périodiquement son état. L’état s’affichera comme En ligne lorsqu’il sera prêt. Pendant que vous attendez, passez aux étapes ci-dessous pour afficher les données sources.

Dans la page Données, affichez l’onglet Lié et vérifiez que votre espace de travail inclut un lien vers votre compte de stockage Azure Data Lake Storage Gen2, qui doit avoir un nom similaire à synapsexxxxxxx (Principal - datalakexxxxxxx).

Développez votre compte de stockage et vérifiez qu’il contient un conteneur de système de fichiers nommé files (principal).

Sélectionnez le conteneur de fichiers et notez qu’il contient un dossier nommé data.

Ouvrez le dossier data et observez le fichier Product.csv qu’il contient.

Cliquez avec le bouton droit de la souris sur Product.csv et sélectionnez Aperçu pour afficher les données qu’il contient. Notez qu’il contient une ligne d’en-tête et quelques enregistrements de données produit.

Revenez à la page Gérer et assurez-vous que votre pool SQL dédié est maintenant en ligne. Si ce n’est pas le cas, attendez.

Sur la page Données, sous l’onglet Espace de travail, développez Base de données SQL, votre base de données sqlxxxxxxx (SQL) et ses tables.

Sélectionnez le dbo. Table DimProduct. Ensuite, dans son menu ..., sélectionnez Nouveau script SQL > Sélectionnez TOP 100 lignes ; qui exécutera une requête qui renvoie les données du produit à partir de la table - il ne doit y avoir qu’une seule ligne.

Mettre en place un pipeline

Pour charger les données du fichier texte dans la table de base de données, vous allez implémenter un pipeline Azure Synapse Analytique qui contient un flux de données encapsulant la logique pour ingérer les données du fichier texte, rechercher la colonne ProductKey de substitution pour les produits qui existent déjà dans la base de données, puis insérer ou mettre à jour des lignes dans la table en conséquence.

Créer un pipeline avec une activité de flux de données

Dans Synapse Studio, sélectionnez la page Intégrer. Ensuite, dans le menu +, sélectionnez Pipeline pour créer un nouveau pipeline.

Dans le volet Propriétés de votre nouveau pipeline, remplacez son nom Pipeline1 par Charger les donnees du produit. Utilisez ensuite le bouton Propriétés situé au-dessus du volet Propriétés pour le masquer.

Dans la sous-fenêtre Activités, développez Déplacer et transformer ; puis faites glisser un Flux de données vers l’aire de conception du pipeline, comme illustré ici :

⁠

Sous l’aire de conception du pipeline, dans l’onglet Général, définissez la propriété Nom sur LoadProducts.

Sous l’onglet Paramètres, en bas de la liste des paramètres, développez Gestion intermédiaire et définissez les paramètres de transfert suivants :

Service lié intermédiaire : sélectionnez le service lié synapsexxxxxxx-WorkspaceDefaultStorage.

Dossier de stockage intermédiaire : définissez Conteneur sur files et Annuaire sur stage_products.

Configurer le flux de données

En haut de l’onglet Paramètres du flux de données LoadProducts, pour la propriété Flux de données, sélectionnez + Nouveau.

Dans le volet Propriétés de la nouvelle surface de conception de flux de données qui s’ouvre, définissez le nom sur LoadProductsData, puis masquez le volet Propriétés. Le concepteur de flux de données doit ressembler à ceci :

⁠

Ajouter des sources

Dans l’aire de conception du flux de données, dans la liste déroulante Ajouter une source, sélectionnez Ajouter une source. Configurez ensuite les paramètres de la source comme suit :

Nom du flux de sortie : ProductsText

Description : Données textuelles des produits

Type de source : Jeu de données d’intégration

Jeu de données: ajoutez un + nouveau jeu de données avec les propriétés suivantes :

Type : Azure Datalake Storage Gen2

Format : Texte délimité

Nom : Products_Csv

Service lié : synapsexxxxxxx-WorkspaceDefaultStorage

Chemin d’accès au fichier : files/data/Product.csv

Première ligne comme en-tête : Sélectionné

Importer le schéma : à partir de la connexion/du magasin

Autoriser la dérive du schéma : Sélectionné

Dans l’onglet Projection de la nouvelle source ProductsText, définissez les types de données suivants :

ProductID : chaîne

ProductName : chaîne

Couleur : chaîne

Taille : chaîne

ListPrice : décimal

Discontinué : booléen

Ajoutez une deuxième source avec les propriétés suivantes :

Nom du flux de sortie : ProductTable

Description : Tableau des produits

Type de source : Jeu de données d’intégration

Jeu de données : ajoutez un + nouveau jeu de données avec les propriétés suivantes :

Type : Azure Synapse Analytique

Nom : DimProduct

Service lié : créez un nouveau service lié avec les propriétés suivantes :

Nom : Data_Warehouse

Description : pool SQL dédié

Se connecter via le runtime d’intégration : AutoResolveIntegrationRuntime

Version : Héritage

Méthode de sélection du compte À partir d’un abonnement Azure

Abonnement Azure : sélectionnez votre abonnement Azure

Nom du serveur : synapsexxxxxxx (espace de travail Synapse)

Nom de la base de données : sqlxxxxxxx

Pool SQL : sqlxxxxxxx Type d’authentification : Identité managée affectée par le système

Nom de la table : dbo. DimProduit

Importer le schéma : à partir de la connexion/du magasin

Autoriser la dérive du schéma : Sélectionné

Dans l’onglet Projection de la nouvelle source ProductTable, vérifiez que les types de données suivants sont définis :

ProductKey : entier

ProductAltKey : chaîne

ProductName : chaîne

Couleur : chaîne

Taille : chaîne

ListPrice : décimal

Discontinué : booléen

Vérifiez que votre flux de données contient deux sources, comme illustré ici :

⁠

Ajouter une recherche

Sélectionnez l’icône + en bas à droite de la source ProductsText et sélectionnez Rechercher.

Configurez les paramètres de recherche comme suit :

Nom du flux de sortie : MatchedProducts

Description : Données produit appariées

Flux principal : ProductText

Flux de recherche : ProductTable

Correspondance de plusieurs rangées : Non sélectionné

Correspond à : Dernière rangée

Conditions de tri : ProductKey croissant

Conditions de recherche : ProductID == ProductAltKey

Vérifiez que votre flux de données ressemble à ceci :

⁠

La recherche renvoie un ensemble de colonnes des deux sources, formant essentiellement une jointure externe qui fait correspondre la colonne ProductID du fichier texte à la colonne ProductAltKey de la table de l’entrepôt de données. Lorsqu’un produit avec la clé alternative existe déjà dans la table, le jeu de données inclut les valeurs des deux sources. Lorsque le produit n’existe pas déjà dans l’entrepôt de données, le jeu de données contient des valeurs NULL pour les colonnes de la table.

Ajouter une ligne Alter

Sélectionnez l’icône + en bas à droite de la recherche MatchedProducts et sélectionnez Modification de ligne.

Configurez les paramètres de modification de ligne comme suit :

Nom du flux de sortie : SetLoadAction

Description : Insérer un nouveau, mettre à jour un existant

Flux entrant : MatchedProducts

Conditions de modification de ligne : modifiez la condition existante et utilisez le bouton + pour ajouter une deuxième condition comme suit (notez que les expressions sont sensibles à la casse):

Insérer si : isNull(ProductKey)

Upsert si : not(isNull(ProductKey))

Vérifiez que le flux de données ressemble à ceci :

⁠

L’étape Modifier la ligne configure le type d’action de chargement à effectuer pour chaque ligne. Lorsqu’il n’y a pas de ligne existante dans la table (la ProductKey est NULL), la ligne du fichier texte est insérée. Lorsqu’il existe déjà une ligne pour le produit, une mise à niveau est effectuée pour mettre à jour la ligne existante. Cette configuration applique essentiellement une mise à jour de dimension de type 1 à changement lent.

Ajouter un récepteur

Sélectionnez l’icône + en bas à droite de l’étape de modification de ligne SetLoadAction et sélectionnez Récepteur.

Configurez les propriétés du Récepteur comme suit :

Nom du flux de sortie : DimProductTable

Description : table Load DimProduct

Flux entrant : SetLoadAction

Type de récepteur : jeu de données d’intégration

Jeu de données : DimProduct

Autoriser la dérive du schéma : Sélectionné

Dans l’onglet Paramètres du nouvel évier DimProductTable, spécifiez les paramètres suivants :

Méthode de mise à jour : sélectionnez Autoriser l’insertion et Autoriser la mise à jour.

Colonnes clés : sélectionnez Liste de colonnes, puis sélectionnez la colonne ProductAltKey.

Dans l’onglet Mappages du nouveau récepteur DimProductTable, décochez la case Mappage automatique et spécifiez uniquement les mappages de colonnes suivants :

ProductID : ProductAltKey

ProductsText@ProductName : Nom du produit

ProductsText@Color : Couleur

ProductsText@Size : Taille

ProductsText@ListPrice : ListPrice

ProductsText@Discontinued : Discontinué

Vérifiez que votre flux de données ressemble à ceci :

⁠

Déboguer le flux de données

Maintenant que vous avez créé un flux de données dans un pipeline, vous pouvez le déboguer avant de le publier.

En haut du concepteur de flux de données, activez le débogage du flux de données. Passez en revue la configuration par défaut et sélectionnez OK, puis attendez que le cluster de débogage démarre (ce qui peut prendre quelques minutes).

Dans le concepteur de flux de données, sélectionnez le récepteur DimProductTable et affichez son onglet Aperçu des données.

Utilisez le bouton ↻ Actualiser pour actualiser l’aperçu, ce qui a pour effet d’exécuter des données dans le flux de données pour le déboguer.

Examinez les données d’aperçu, en notant qu’elles indiquent une ligne upserted (pour le produit AR5381 existant), indiquée par un *+ icône; et dix rangées insérées, indiquées par une icône +.