Lab 17-22 | Utiliser Microsoft Purview avec Azure Synapse Analytique

Support formation Microsoft Azure

Pages
- Présentation du support
- Organisation des formations Power BI
- Azure Synapse Analytics
  Composants
  Pools SQL Serverless
  Pools SQL dédiés
  PySpark
  Delta Lake
  Extraits de codes
- SumUp
- Labs 203 | Azure Date Engineer
  Lab 01 | Découvrir Azure Synapse Analytics
  Lab 02 | Interroger des fichiers à l’aide d’un pool SQL serverless
  Lab 03 | Transformer des fichiers à l’aide d’un pool SQL serverless
  Lab 04 | Analyser les données dans une base de données de lac
  Lab 05 | Analyser les données d’un lac de données avec Spark
  Lab 06 | Transformer des données à l’aide de Spark dans Synapse Analytique
  Lab 07 | Utiliser Delta Lake avec Spark dans Azure Synapse Analytics
  Lab 08 | Explorer un entrepôt de données relationnelles
  Lab 09 | Charger des données dans un entrepôt de données relationnel
  Lab 10 | Créer un pipeline de données dans Azure Synapse Analytique
  Lab 11 | Utiliser un notebook Apache Spark dans un pipeline
  Lab 12-14 | Utiliser Azure Synapse Link pour Azure Cosmos DB
  Lab 13 | Utiliser Azure Synapse Link pour SQL
  Lab 14 | Prise en main d’Azure Stream Analytique
  Lab 15 | Ingérer des données en temps réel avec Azure Stream Analytique et Azure Synapse Analytique
  Lab 16 | Créer un rapport en temps réel avec Azure Stream Analytique et Microsoft Power BI
  Lab 17-22 | Utiliser Microsoft Purview avec Azure Synapse Analytique
  Lab 18 | Découvrir Azure Databricks
  Lab 19 | Utiliser Spark dans Azure Databricks
  Lab 20 | Utiliser Delta Lake dans Azure Databricks
  Lab 21 | Utiliser un entrepôt SQL dans Azure Databricks
  Lab 22 | Automatiser un notebook Azure Databricks avec Azure Data Factory
- Gestion des autorisations
- DP-203
  Commencez avec l’ingénierie des données sur Azure
  Présentation d'Azure Data Lake Storage Gen2
  Utiliser un pool SQL serverless Azure Synapse pour interroger des fichiers dans un lac de données
  Utiliser des pools SQL serverless Azure Synapse pour transformer des données dans un lac de données
  Créer une base de données lake dans Azure Synapse Analytics
  Sécuriser les données et gérer les utilisateurs dans les pools SQL serverless Azure Synapse
  Analyser des données avec Apache Spark dans Azure Synapse Analytics
  Transformer des données avec Spark dans Azure Synapse Analytics
  Utiliser Delta Lake dans Azure Synapse Analytics
  Analyser les données dans un entrepôt de données relationnelles
  Charger des données dans un entrepôt de données relationnel
  Gérer et superviser les activités d’un entrepôt de données dans Azure Synapse Analytics [WiP]
  Sécuriser un entrepôt de données dans Azure Synapse Analytics [WiP]
  Créer un pipeline de données dans Azure Synapse Analytics
  Utiliser des notebooks Spark dans un pipeline Azure Synapse
  Intégrer Microsoft Purview et Azure Synapse Analytics
  Implémenter Azure Synapse Link avec Azure Cosmos DB
  Utiliser des entrepôts SQL dans Azure Databricks
  Untitled page
- Sécuriser votre compte de Stockage Azure

Support formation Microsoft Azure

...

Lab 17-22 | Utiliser Microsoft Purview avec Azure Synapse Analytique

Gonzague Ducos

Important : Microsoft Purview a été mis à jour pour limiter le nombre de comptes Microsoft Purview disponibles par locataire Azure. Par conséquent, cet atelier n’est pas pris en charge dans les environnements de locataires partagés, y compris dans de nombreux environnements de laboratoire hébergés utilisés dans les cours de formation dispensés par un instructeur.

Microsoft Purview vous permet de cataloguer les ressources de données dans votre patrimoine de données et de suivre le flux de données lors de leur transfert d’une source de données à une autre, un élément clé d’une solution complète de gouvernance des données.

Cet exercice devrait durer environ 40 minutes.

Avant de commencer

Vous aurez besoin d’un

abonnement Azure⁠

dans lequel vous disposez de privilèges de niveau administratif et d’un accès exclusif au locataire dans lequel l’abonnement est défini.

Approvisionner des ressources Azure

Dans cet exercice, vous allez utiliser Microsoft Purview pour suivre les ressources et la traçabilité des données dans un espace de travail Azure Synapse Analytique. Vous commencerez par utiliser un script pour provisionner ces ressources dans votre abonnement Azure.

Connectez-vous au

portail Azure⁠

à l’adresse https://portal.azure.com.

Utilisez le bouton [>_] à droite de la barre de recherche en haut de la page pour créer un Cloud Shell dans le portail Azure, en sélectionnant un environnement PowerShell et en créant un stockage si vous y êtes invité. Cloud Shell fournit une interface de ligne de commande dans un volet situé au bas du portail Azure, comme illustré ici :

This link can't be embedded.⁠

Remarque : Si vous avez déjà créé un Cloud Shell qui utilise un environnement Bash, utilisez le menu déroulant en haut à gauche du volet Cloud Shell pour le remplacer par PowerShell.

Notez que vous pouvez redimensionner la coque du nuage en faisant glisser la barre de séparation en haut du volet ou en utilisant les icônes —, ◻ et X en haut à droite du volet pour réduire, agrandir et fermer le volet. Pour plus d’informations sur l’utilisation d’Azure Cloud Shell, consultez la

documentation Azure Cloud Shell⁠

Dans le volet PowerShell, entrez les commandes suivantes pour cloner ce référentiel :

rm -r dp-203 -f

git clone https://github.com/MicrosoftLearning/dp-203-azure-data-engineer dp-203

Une fois le référentiel cloné, entrez les commandes suivantes pour accéder au dossier de cet atelier et exécuter le script setup.ps1 qu’il contient :

cd dp-203/Allfiles/labs/22

./setup.ps1

Si vous y êtes invité, choisissez l’abonnement que vous souhaitez utiliser (cela ne se produira que si vous avez accès à plusieurs abonnements Azure).

Lorsque vous y êtes invité, entrez un mot de passe approprié pour votre base de données SQL Azure. Remarque : N’oubliez pas ce mot de passe !

Attendez que le script soit terminé - cela prend généralement environ 15 minutes, mais dans certains cas, cela peut prendre plus de temps. Pendant que vous attendez, consultez

l’article Qu’est-ce qui est disponible dans le portail de gouvernance Microsoft Purview ?⁠

dans la documentation Microsoft Purview.

Une fois le script terminé, examinez la sortie et notez qu’un suffixe unique au format xxxxxxx a été généré pour vos noms de ressources - par exemple, le groupe de ressources qui a été créé est nommé dp203-xxxxxxx. Notez ce suffixe - vous en aurez besoin plus tard lors de la création de ressources supplémentaires.

Conseil : Si, après avoir exécuté le script d’installation, vous décidez de ne pas terminer le labo, veillez à supprimer le groupe de ressources dp203-xxxxxxx qui a été créé dans votre abonnement Azure pour éviter des coûts Azure inutiles.

Explorez votre espace de travail Azure Synapse Analytique

Le script a créé un espace de travail Azure Synapse Analytique, que vous pouvez explorer et gérer à l’aide de l’interface web Azure Synapse Studio. L’espace de travail comprend un pool SQL dédié, qui a été suspendu pour éviter d’encourir des coûts inutiles. Vous allez en avoir besoin sous peu, c’est donc le bon moment pour le reprendre.

Dans le portail Azure, sur la page de votre espace de travail Synapse Analytique, affichez l’onglet Vue d’ensemble. Ensuite, dans la vignette Ouvrir Synapse Studio, utilisez le lien pour ouvrir Azure Synapse Studio dans un nouvel onglet du navigateur, en vous connectant si vous y êtes invité. Conseil : Vous pouvez également ouvrir Azure Synapse Studio en accédant directement à https://web.azuresynapse.net dans un nouvel onglet du navigateur.

Sur le côté gauche de Synapse Studio, utilisez l’icône ›› pour développer le menu - cela révèle les différentes pages de Synapse Studio.

Sur la page Gérer, sous l’onglet Pools SQL, sélectionnez la ligne du pool SQL dédié sql xxxxxxx et utilisez son icône ▷ pour le démarrer. confirmer que vous souhaitez le reprendre lorsque vous y êtes invité.

⁠

La reprise de la piscine peut prendre quelques minutes. Vous pouvez utiliser le bouton ↻ Actualiser pour vérifier périodiquement son état. L’état s’affichera comme En ligne lorsqu’il sera prêt. Pendant que vous attendez, suivez les étapes ci-dessous pour créer une base de données Lake, puis revenez à la page Gérer pour vous assurer que le pool SQL dédié est en ligne.

Créer une base de données de lacs

Les bases de données de lac stockent les données dans un lac de données sur Stockage Azure. Vous pouvez utiliser les formats Parquet, Delta ou CSV et différents paramètres pour optimiser le stockage. Chaque base de données de lac dispose d’un service lié pour définir le dossier de données racine.

Les bases de données Lake sont accessibles dans le pool SQL serverless Synapse et Apache Spark, ce qui permet aux utilisateurs de séparer le stockage du calcul. Les métadonnées de la base de données du lac permettent aux différents moteurs de fournir une expérience intégrée et d’utiliser des informations supplémentaires (telles que des relations) qui n’étaient pas prises en charge sur le lac de données.

Dans Azure Synapse Studio, affichez la page Données, puis dans l’onglet Espace de travail, développez Base de données SQL pour afficher les bases de données de votre espace de travail. Il doit s’agir de la base de données SQL dédiée sqlxxxxxxx que vous venez de reprendre.

Dans le volet Données, dans le menu +, sélectionnez Base de données Lake pour ajouter une nouvelle base de données Lake à l’espace de travail. Remarque : Vous recevrez une invite Conditions d’utilisation du modèle de base de données Azure Synapse que vous devez lire et comprendre avant de cliquer sur le bouton OK.

Dans le volet Propriétés de la nouvelle base de données Lake (à droite), définissez les propriétés suivantes :

Nom : lakedb

Dossier d’entrée : accédez à root/files/data Astuce : Vous pouvez voir une erreur lors de l’ouverture du dossier d’entrée, il suffit de double-cliquer sur le dossier racine et de descendre jusqu’aux données avant de cliquer sur OK si c’est le cas.

Dans le volet Tables à gauche, dans le menu + Table, sélectionnez À partir du lac de données. Ajoutez ensuite une nouvelle table avec les propriétés suivantes :

Nom de la table externe : Produits

Service lié : synapsexxxxxxx-WorkspaceDefaultStorage(datalakexxxxxxx)

Fichier ou dossier d’entrée : files/data/products.csv

Cliquez sur Continuer et, dans le volet Nouvelle table externe, sélectionnez l’option Première ligne pour déduire les noms de colonne, puis cliquez sur Créer.

Sélectionnez Publier en haut de la fenêtre de la base de données du lac pour enregistrer les modifications

Dans le volet Données, développez la section Base de données Lake, puis lakedb, puis dans le menu ... de la table Produits, sélectionnez Créer un script SQL > 100 premières lignes.

Assurez-vous que Connect to est répertorié comme Built-in et actualisez la liste Utiliser la base de données et sélectionnez lakedb.

⁠

Utilisez le bouton Exécuter pour exécuter la requête et afficher les données dans la table Produits.

Ajouter et configurer un compte de service Microsoft Purview

Microsoft Purview est un portefeuille complet de produits couvrant la gouvernance des données, la protection de l’information, la gestion des risques et les solutions de conformité. Il vous aide à gouverner, protéger et gérer l’ensemble de votre patrimoine de données sur site, multicloud et SaaS (Software as a Service).

Approvisionner un compte Microsoft Purview

Remarque : Les ressources Purview sont limitées au sein d’un seul locataire Azure. Si le locataire que vous utilisez a déjà utilisé son quota d’instances Azure Purview, vous ne pourrez pas en créer un. Si possible, vous pouvez utiliser une ressource Microsoft Purview existante pour le reste de cet exercice.

Revenez à l’onglet du navigateur contenant le portail Azure et affichez le groupe de ressources dp203-xxxxxxx.

Utilisez le bouton + Créer pour ajouter une nouvelle ressource Microsoft Purview au groupe de ressources avec les paramètres suivants :

Abonnement : Sélectionnez votre abonnement

Groupe de ressources : dp203-xxxxxxx

Nom du compte Microsoft Purview : purviewxxxxxxx (où *xxxxxxx est votre suffixe unique)*

Emplacement : Sélectionnez n’importe quelle région disponible Remarque : Vous devrez peut-être essayer quelques régions afin de pouvoir passer la validation avec Purview.

Attendez que la ressource soit créée, puis revenez au groupe de ressources dp203-xxxxxxx et assurez-vous qu’il est répertorié (vous devrez peut-être actualiser la page).

Configurer l’accès en fonction du rôle pour Microsoft Purview

Microsoft Purview est configuré pour utiliser une identité managée. Pour cataloguer les ressources de données, ce compte d’identité managé doit avoir accès à l’espace de travail Azure Synapse Analytique et au compte de stockage de son magasin de lac de données.

Dans le groupe de ressources dp203-xxxxxxx, passez en revue les ressources que vous avez créées. Il s’agit notamment de :

Un compte de stockage avec un nom similaire à datalakexxxxxxx.

Un compte Microsoft Purview avec un nom similaire à purviewxxxxxxx.

Un pool SQL dédié avec un nom similaire à sqlxxxxxxx.

Un espace de travail Synapse avec un nom similaire à synapsexxxxxxx.

Ouvrez le compte de stockage datalake xxxxxxx et, sur sa page Contrôle d’accès (IAM), affichez l’onglet Attributions de rôles ; Comme illustré ici :

⁠

Dans le menu du bouton + Ajouter, sélectionnez Ajouter une attribution de rôle.

Dans la page Ajouter un assistant de rôle, sous l’onglet Rôle, recherchez « blob de stockage » et sélectionnez le rôle Lecteur de données d’objet blob de stockage. Sélectionnez ensuite Suivant pour accéder à l’onglet Membres :

⁠

Sous l’onglet Membres, dans la liste Attribuer l’accès à, sélectionnez Identité managée ; puis, sous Membres, sélectionnez Sélectionner des membres.

Dans le volet Sélectionner les identités managées, dans la liste Identités managées, sélectionnez Compte Microsoft Purview (n), puis sélectionnez votre compte Microsoft Purview, qui doit porter un nom similaire à purviewxxxxxxx ; et utilisez le bouton Sélectionner pour ajouter ce compte à l’attribution de rôle :

⁠

Utilisez le bouton Vérifier + Attribuer pour terminer l’attribution de rôle, ce qui fait du compte purviewxxxxxxx utilisé par l’identité managée pour votre ressource Microsoft Purview un membre du rôle Lecteur de données d’objets blob de stockage pour votre compte de stockage.

Dans le portail Azure, revenez au groupe de ressources dp203-xxxxxxx et ouvrez l’espace de travail Synapsexxxxxxx Synapse Analytique. Ensuite, sur sa page Contrôle d’accès (IAM), ajoutez une attribution de rôle pour faire du compte d’identité managé purview xxxxxxx un membre du rôle Lecteur dans l’espace de travail.

Configurer les autorisations de base de données pour Microsoft Purview

Votre espace de travail Azure Synapse Analytique comprend des bases de données dans des pools SQL serverless et dédiés, auxquels l’identité managée utilisée par Microsoft Purview doit avoir accès.

Revenez à l’onglet du navigateur contenant Azure Synapse Studio. Ensuite, affichez la page Données pour afficher les bases de données de votre espace de travail. Il s’agit notamment des éléments suivants :

Une base de données de lacs nommée lakedb.

Une base de données de pool SQL dédiée nommée sqlxxxxxxx.

Sélectionnez la base de données lakedb, puis dans son menu ..., sélectionnez Nouveau script SQL > Script vide pour ouvrir un nouveau volet Script SQL 1. Vous pouvez utiliser le bouton Propriétés (qui ressemble à 🗏*) à l’extrémité droite de la barre d’outils pour masquer le volet Propriétés et afficher plus facilement le volet Script.

Dans le volet Script SQL 1, entrez le code SQL suivant, en remplaçant toutes les instances de purviewxxxxxxx par le nom de l’identité managée de votre compte Microsoft Purview :

CREATE LOGIN [purviewxxxxxxx] FROM EXTERNAL PROVIDER;

CREATE USER [purviewxxxxxxx] FOR LOGIN [purviewxxxxxxx];

ALTER ROLE db_datareader ADD MEMBER [purviewxxxxxxx];

Utilisez le bouton ▷ Exécuter pour exécuter le script, qui crée un identifiant et un utilisateur dans l’utilisateur lakedb pour l’identité managée utilisée par Microsoft Purview, et ajoute l’utilisateur au rôle db_datareader dans la base de données lakedb.

Créez un script vide pour la base de données de pool SQL SQL déciquée sql xxxxxxx et utilisez-le pour exécuter le code SQL suivant (en remplaçant purviewxxxxxxx par le nom d’identité managée de votre compte Microsoft Purview) ; qui crée un utilisateur dans le pool SQL dédié pour l’identité managée utilisée par Microsoft Purview et l’ajoute au rôle db_datareader dans la base de données sqlxxxxxxx.

CREATE USER [purviewxxxxxxx] FROM EXTERNAL PROVIDER;

EXEC sp_addrolemember 'db_datareader', [purviewxxxxxxx];

Utiliser Microsoft Purview pour analyser les ressources de données

Maintenant que vous avez configuré l’accès requis pour que Microsoft Purview analyse les sources de données utilisées par votre espace de travail Azure Synapse Analytique, vous pouvez les inscrire dans votre catalogue Microsoft Purview.

Inscrire des sources dans le catalogue Microsoft Purview

Avec Microsoft Purview, vous pouvez cataloguer les ressources de données dans l’ensemble de votre patrimoine de données, y compris les sources de données dans un espace de travail Azure Synapse. L’espace de travail que vous venez de déployer comprend un lac de données (dans un compte Azure Data Lake Storage Gen2), une base de données de lac et un entrepôt de données dans un pool SQL dédié.

Revenez à l’onglet du navigateur contenant le portail Azure et affichez la page du groupe de ressources dp203-xxxxxxx.

Ouvrez le compte Microsoft Purviewxxxxxxx et, sur sa page Vue d’ensemble, utilisez le lien pour ouvrir le portail de gouvernance Microsoft Purview dans un nouvel onglet du navigateur, en vous connectant si vous y êtes invité.

Astuce : Vous pouvez également accéder directement à https://web.purview.azure.com dans un nouvel onglet du navigateur.

Sur le côté gauche du portail de gouvernance Azure Purview, utilisez l’icône ›› pour développer le menu, ce qui révèle les différentes pages du portail.

Sur la page Mappage de données, sur la sous-page Sources de données, sélectionnez S’inscrire:

⁠

Dans l’onglet Inscrire les sources qui s’affiche, sélectionnez Azure Synapse Analytique et poursuivez l’inscription d’une source avec les paramètres suivants :

Nom : Synapse_data

Abonnement Azure : sélectionnez votre abonnement Azure

Nom de l’espace de travail : Sélectionnez votre espace de travail synapsexxxxxxx

Point de terminaison SQL dédié : sqlxxxxxxx.sql.azuresynapse.net

Point de terminaison SQL serverless : sqlxxxxxxx-ondemand.sql.azuresynapse.net

Sélectionnez une collection : Racine (purviewxxxxxxx)

Cette source de données inclut les bases de données SQL dans votre espace de travail Azure Synapse Analytique.

Après avoir inscrit la source Synapse_data, sélectionnez à nouveau S’inscrire, puis inscrivez une deuxième source pour le stockage du lac de données utilisé par votre espace de travail Azure Synapse. Sélectionnez Azure Data Lake Storage Gen2 et spécifiez les paramètres suivants :

Nom : Data_lake

Abonnement Azure : sélectionnez votre abonnement Azure

Nom de l’espace de travail : sélectionnez votre compte de stockage datalakexxxxxxx

Point de terminaison : https :/ /datalakexxxxxxx.dfs.core.windows.net/

Sélectionnez une collection : Racine (purviewxxxxxxx)

Gestion de l’utilisation des données : Désactivé

Après avoir enregistré les sources Synapse_data et Data_lake, elles doivent toutes deux être affichées sous la collection racine xxxxxxx dans le mappage de données, comme indiqué ici :

⁠

Analyse des sources enregistrées

Dans le mappage de données, dans la source Synapse_data, sélectionnez Afficher les détails ; et observez que la source n’a pas d’actifs catalogués. Vous devrez analyser la source pour trouver les ressources de données qu’elle contient.

Dans la page Synapse_data détails, sélectionnez Nouvelle analyse, puis configurez une analyse avec les paramètres suivants :

Nom : Scan-Synapse

Se connecter au runtime d’intégration : Azure AutoresolveIntegrationRuntime

Type : Base de données SQL

Informations d’identification : Microsoft Purview MSI (système)

Base de données SQL : sélectionnez à la fois la base de données dédiée sqlxxxxxxx et la base de données serverless lakedb.

Sélectionnez une collection : Racine (purviewxxxxxxx)

⁠

Passez à la page Sélectionner un ensemble de règles d’analyse, sur laquelle l’ensemble de règles AzureSynapseSQL par défaut doit être sélectionné.

Passez à la page Définir un déclencheur d’analyse, puis sélectionnez Une fois pour exécuter l’analyse une fois.

Passez à la page Vérifier votre analyse, puis enregistrez et exécutez l’analyse.

Pendant que l’analyse Synapse_data est en cours d’exécution, revenez à la page Sources pour afficher le mappage de données et, dans la source Data_lake, utilisez l’icône Nouvelle analyse pour démarrer une analyse du lac de données avec les paramètres suivants :

Nom : Scan-Data-Lake

Se connecter au runtime d’intégration : Azure AutoresolveIntegrationRuntime

Informations d’identification : Microsoft Purview MSI (système)

Sélectionnez une collection : Racine (purviewxxxxxxx)

Définir l’étendue de votre analyse : sélectionnez Data_lake et toutes les sous-ressources

Sélectionnez un ensemble de règles d’analyse : AdlsGen2

Définir un déclencheur d’analyse : Une fois

Passez en revue votre numérisation Enregistrer et exécuter

Attendez la fin des deux analyses, ce qui peut prendre plusieurs minutes. Vous pouvez afficher la page de détails de chacune des sources pour voir l’état de la dernière exécution, comme indiqué ci-dessous (vous pouvez utiliser le bouton ↻ Actualiser pour mettre à jour l’état). Vous pouvez également consulter la page Surveillance (bien que l’affichage des analyses puisse prendre un certain temps) :

⁠

Afficher les ressources analysées

Sur la page Catalogue de données, sur la sous-page Parcourir, sélectionnez la collection purview xxxxxxx. Vous y voyez les ressources de données qui ont été cataloguées dans votre espace de travail Azure Synapse et votre stockage de lac de données, y compris l’espace de travail Azure Synapse Analytique, le compte de stockage Azure pour le lac de données, les deux bases de données de pool SQL dans Azure Synapse Analytique, le schéma dbo dans chaque base de données, les tables et les vues dans les bases de données, ainsi que les dossiers et les fichiers dans le lac de données.

Pour filtrer les résultats, dans la liste Affiner les résultats par types d’objets, sélectionnez Fichiers et tables afin que seuls les fichiers, tables et vues catalogués par l’analyse soient répertoriés :

⁠

Notez que les ressources de données comprennent :

products : table du pool SQL dédié aux données de produit.

products.csv : fichier dans le lac de données.

products_csv : vue du pool SQL serverless qui lit les données produit à partir du fichier products.csv.

Explorez les ressources trouvées en les sélectionnant et en affichant leurs propriétés et leur schéma. Vous pouvez modifier les propriétés des ressources (y compris les champs individuels) pour ajouter des métadonnées, des catégorisations, des coordonnées d’experts en la matière et d’autres détails utiles afin que les analystes de données puissent trouver beaucoup d’informations sur les ressources de données dans votre patrimoine de données en les explorant dans le catalogue de données Microsoft Purview.

Jusqu’à présent, vous avez utilisé Microsoft Purview pour cataloguer les ressources de données dans votre espace de travail Azure Synapse Analytique. Vous pouvez inscrire plusieurs types de sources de données dans un catalogue Microsoft Purview, ce qui vous permet de créer une vue centralisée et consolidée des ressources de données.

Explorons maintenant d’autres façons d’intégrer Azure Synapse Analytique et Microsoft Purview.

Intégrer Microsoft Purview à Azure Synapse Analytique

Azure Synapse Analytique prend en charge l’intégration avec Microsoft Purview pour rendre les ressources de données détectables et pour suivre la traçabilité des données via des pipelines d’ingestion qui transfèrent des données d’une source à une autre.

Activer l’intégration de Microsoft Purview dans Azure Synapse Analytique

Revenez à l’onglet du navigateur contenant Synapse Studio, puis dans la page Gérer, sélectionnez l’onglet Microsoft Purview, puis utilisez le bouton Se connecter à un compte Purview pour connecter le compte purview xxxxxxx dans votre abonnement à l’espace de travail.

Après avoir connecté le compte, consultez l’onglet Compte Purview pour vérifier que le compte dispose d’un état Data Lineage - Synapse Pipeline de Connecté:

⁠

Rechercher dans le catalogue Purview dans Synapse Studio

Maintenant que vous avez connecté votre compte Microsoft Purview à votre espace de travail Azure Synapse Analytique, vous pouvez effectuer une recherche dans le catalogue à partir de Synapse Studio, ce qui vous permet de découvrir les ressources de données dans votre patrimoine de données.

Dans Synapse Studio, consultez la page Intégrer.

En haut de la page, utilisez la zone de recherche en haut pour rechercher le terme « produits » dans la source Purview, comme illustré ici :

⁠

Dans les résultats, sélectionnez products.csv pour afficher ses détails dans le catalogue Purview.

En intégrant le catalogue Purview dans l’interface de Synapse Studio, les analystes de données et les ingénieurs peuvent trouver et examiner les ressources de données enregistrées dans l’ensemble du patrimoine de données (et pas seulement dans l’espace de travail Azure Synapse Studio).

Créer et exécuter un pipeline

La vue products_csv dans la base de données lakedb est basée sur un fichier texte dans le lac de données qui contient des données produit. La table products de la base de données SQL dédiéesql xxxxxxx est actuellement vide. Utilisons un pipeline Synapse pour charger les données du lac de données dans la table.

Dans Synapse Studio, sur la page Intégrer, dans le menu +, sélectionnez l’outil Copier les données.

Dans l’outil Copier les données, sélectionnez Tâche de copie intégrée, puis Exécuter une fois maintenant, puis sélectionnez Suivant.

Sur la page Magasin de données source, dans la liste Connexion, sélectionnez la connexion synapsexxxxxxx-WorkspaceDefaultStorage (qui fait référence au lac de données de l’espace de travail) et, pour le fichier ou le dossier, accédez au fichier files/products/products.csv. Sélectionnez ensuite Suivant.

Sur la page Paramètres de format de fichier, sélectionnez Détecter le format de texte. Assurez-vous ensuite que les paramètres suivants sont spécifiés avant de sélectionner Suivant:

Format de fichier : DelimitedText

Délimiteur de colonne : Virgule (,)

Délimiteur de ligne : Saut de ligne (\n)

Première ligne comme en-tête : Sélectionné

Type de compression : Aucun

Sur la page Magasin de données de destination, dans la liste Connexion, sélectionnez sqlxxxxxxx (la connexion à votre pool SQL dédié). Définissez ensuite la cible sur la table dbo.products existante, puis sélectionnez Suivant.

Sur la page Mappage de colonnes, passez en revue les mappages de colonnes par défaut, puis sélectionnez Suivant.

Sur la page Paramètres, définissez le nom de la tâche sur Load_Product_Data. Sélectionnez ensuite la méthode d’insertion de copie en bloc, puis sélectionnez Suivant.

Sur la page Résumé, sélectionnez Suivant.

Attendez que le pipeline soit déployé, puis sélectionnez Terminer.

Dans Synapse Studio, affichez la page Moniteur. Ensuite, dans l’onglet Exécutions du pipeline, observez l’état du pipeline Load_Product_Data. Il peut s’écouler quelques minutes avant que le statut ne passe à Réussi.

Une fois l’exécution du pipeline terminée avec succès, sélectionnez son nom (Load_Product_Data) pour afficher les détails des activités dans le pipeline ; et observez que le pipeline inclut une tâche Copier les données avec un nom dérivé automatiquement similaire à Copy_xxx. Cette activité a copié les données du fichier texte dans le lac de données dans la table products de la base de données sqlxxxxxxx.

Afficher la traçabilité des données dans Microsoft Purview

Vous avez utilisé un pipeline Synapse pour charger des données dans une base de données. Vérifions que cette activité a été suivie dans Microsoft Purview.

Basculez vers l’onglet du navigateur contenant le portail de gouvernance Microsoft Purview.

Sur la page Catalogue de données, sur la sous-page Parcourir, sélectionnez la collection purview xxxxxxx.

Filtrez les ressources pour afficher uniquement les pipelines de données, les fichiers et les tables. La liste des ressources doit inclure le fichier products.csv, l’activité de pipeline Copy_xxx et la table products.

Sélectionnez l’actif Copy_xxx pour afficher ses détails, en notant que l’heure de mise à jour reflète l’exécution récente du pipeline.

Dans l’onglet Traçabilité de l’actif Copy_xxx, affichez le diagramme montrant le flux de données du fichier products.csv vers la table products :

⁠

Dans le diagramme de lignage Copy_xxx, sélectionnez le fichier products.csv et utilisez son lien Basculer vers la ressource pour afficher les détails du fichier source.

Dans le diagramme de lignage products.csv, sélectionnez la table products et utilisez son lien Basculer vers l’actif pour afficher les détails de la table (vous devrez peut-être utiliser le bouton ↻ Actualiser pour voir le diagramme de lignage de la table).

La fonctionnalité de suivi de la traçabilité activée par l’intégration d’Azure Synapse Analytique à Microsoft Purview vous permet de déterminer comment et quand les données de vos magasins de données ont été chargées, et d’où elles proviennent.

Conseil : Dans cet exercice, vous avez consulté les informations de traçabilité dans le portail de gouvernance Microsoft Purview ; mais n’oubliez pas que les mêmes ressources peuvent également être affichées dans Synapse Studio via la fonction d’intégration de la recherche.

Mettre en pause le pool SQL dédié

Revenez à l’onglet Synapse Studio et, dans la page Gérer, suspendez le pool SQL dédié sql xxxxxxx.

Supprimer des ressources Azure

Si vous avez terminé d’explorer Azure Synapse Analytique, vous devez supprimer les ressources que vous avez créées pour éviter des coûts Azure inutiles.

Fermez l’onglet du navigateur Synapse Studio et revenez au portail Azure.

Sur le portail Azure, dans la page Accueil, sélectionnez Groupes de ressources.

Sélectionnez le groupe de ressources dp203-xxxxxxx pour votre espace de travail Synapse Analytique (et non le groupe de ressources géré) et vérifiez qu’il contient l’espace de travail Synapse, le compte de stockage et le pool SQL dédié pour votre espace de travail.

En haut de la page Vue d’ensemble de votre groupe de ressources, sélectionnez Supprimer le groupe de ressources.

Avant de commencer

Approvisionner des ressources Azure

Explorez votre espace de travail Azure Synapse Analytique

Créer une base de données de lacs

Ajouter et configurer un compte de service Microsoft Purview

Approvisionner un compte Microsoft Purview

Configurer l’accès en fonction du rôle pour Microsoft Purview

Configurer les autorisations de base de données pour Microsoft Purview

Utiliser Microsoft Purview pour analyser les ressources de données

Inscrire des sources dans le catalogue Microsoft Purview

Analyse des sources enregistrées