azure
Support formation Microsoft Azure
Pages
Labs 203 | Azure Date Engineer

Lab 17-22 | Utiliser Microsoft Purview avec Azure Synapse Analytique

Gonzague Ducos
Important : Microsoft Purview a été mis à jour pour limiter le nombre de comptes Microsoft Purview disponibles par locataire Azure. Par conséquent, cet atelier n’est pas pris en charge dans les environnements de locataires partagés, y compris dans de nombreux environnements de laboratoire hébergés utilisés dans les cours de formation dispensés par un instructeur.
Microsoft Purview vous permet de cataloguer les ressources de données dans votre patrimoine de données et de suivre le flux de données lors de leur transfert d’une source de données à une autre, un élément clé d’une solution complète de gouvernance des données.
Cet exercice devrait durer environ 40 minutes.

Avant de commencer

Vous aurez besoin d’un dans lequel vous disposez de privilèges de niveau administratif et d’un accès exclusif au locataire dans lequel l’abonnement est défini.

Approvisionner des ressources Azure

Dans cet exercice, vous allez utiliser Microsoft Purview pour suivre les ressources et la traçabilité des données dans un espace de travail Azure Synapse Analytique. Vous commencerez par utiliser un script pour provisionner ces ressources dans votre abonnement Azure.
Connectez-vous au à l’adresse https://portal.azure.com.
Utilisez le bouton [>_] à droite de la barre de recherche en haut de la page pour créer un Cloud Shell dans le portail Azure, en sélectionnant un environnement PowerShell et en créant un stockage si vous y êtes invité. Cloud Shell fournit une interface de ligne de commande dans un volet situé au bas du portail Azure, comme illustré ici : ​
This link can't be embedded.
Remarque : Si vous avez déjà créé un Cloud Shell qui utilise un environnement Bash, utilisez le menu déroulant en haut à gauche du volet Cloud Shell pour le remplacer par PowerShell.
Notez que vous pouvez redimensionner la coque du nuage en faisant glisser la barre de séparation en haut du volet ou en utilisant les icônes , et X en haut à droite du volet pour réduire, agrandir et fermer le volet. Pour plus d’informations sur l’utilisation d’Azure Cloud Shell, consultez la .
Dans le volet PowerShell, entrez les commandes suivantes pour cloner ce référentiel :
rm -r dp-203 -f
git clone https://github.com/MicrosoftLearning/dp-203-azure-data-engineer dp-203

Une fois le référentiel cloné, entrez les commandes suivantes pour accéder au dossier de cet atelier et exécuter le script setup.ps1 qu’il contient :
cd dp-203/Allfiles/labs/22
./setup.ps1

Si vous y êtes invité, choisissez l’abonnement que vous souhaitez utiliser (cela ne se produira que si vous avez accès à plusieurs abonnements Azure).
Lorsque vous y êtes invité, entrez un mot de passe approprié pour votre base de données SQL Azure. ​Remarque : N’oubliez pas ce mot de passe !
Attendez que le script soit terminé - cela prend généralement environ 15 minutes, mais dans certains cas, cela peut prendre plus de temps. Pendant que vous attendez, consultez dans la documentation Microsoft Purview.
Une fois le script terminé, examinez la sortie et notez qu’un suffixe unique au format xxxxxxx a été généré pour vos noms de ressources - par exemple, le groupe de ressources qui a été créé est nommé dp203-xxxxxxx. Notez ce suffixe - vous en aurez besoin plus tard lors de la création de ressources supplémentaires.
Conseil : Si, après avoir exécuté le script d’installation, vous décidez de ne pas terminer le labo, veillez à supprimer le groupe de ressources dp203-xxxxxxx qui a été créé dans votre abonnement Azure pour éviter des coûts Azure inutiles.

Explorez votre espace de travail Azure Synapse Analytique

Le script a créé un espace de travail Azure Synapse Analytique, que vous pouvez explorer et gérer à l’aide de l’interface web Azure Synapse Studio. L’espace de travail comprend un pool SQL dédié, qui a été suspendu pour éviter d’encourir des coûts inutiles. Vous allez en avoir besoin sous peu, c’est donc le bon moment pour le reprendre.
Dans le portail Azure, sur la page de votre espace de travail Synapse Analytique, affichez l’onglet Vue d’ensemble. Ensuite, dans la vignette Ouvrir Synapse Studio, utilisez le lien pour ouvrir Azure Synapse Studio dans un nouvel onglet du navigateur, en vous connectant si vous y êtes invité. ​Conseil : Vous pouvez également ouvrir Azure Synapse Studio en accédant directement à https://web.azuresynapse.net dans un nouvel onglet du navigateur.
Sur le côté gauche de Synapse Studio, utilisez l’icône ›› pour développer le menu - cela révèle les différentes pages de Synapse Studio.
Sur la page Gérer, sous l’onglet Pools SQL, sélectionnez la ligne du pool SQL dédié sql xxxxxxx et utilisez son icône pour le démarrer. confirmer que vous souhaitez le reprendre lorsque vous y êtes invité. ​
Loading…
La reprise de la piscine peut prendre quelques minutes. Vous pouvez utiliser le bouton ↻ Actualiser pour vérifier périodiquement son état. L’état s’affichera comme En ligne lorsqu’il sera prêt. Pendant que vous attendez, suivez les étapes ci-dessous pour créer une base de données Lake, puis revenez à la page Gérer pour vous assurer que le pool SQL dédié est en ligne.

Créer une base de données de lacs

Les bases de données de lac stockent les données dans un lac de données sur Stockage Azure. Vous pouvez utiliser les formats Parquet, Delta ou CSV et différents paramètres pour optimiser le stockage. Chaque base de données de lac dispose d’un service lié pour définir le dossier de données racine.
Les bases de données Lake sont accessibles dans le pool SQL serverless Synapse et Apache Spark, ce qui permet aux utilisateurs de séparer le stockage du calcul. Les métadonnées de la base de données du lac permettent aux différents moteurs de fournir une expérience intégrée et d’utiliser des informations supplémentaires (telles que des relations) qui n’étaient pas prises en charge sur le lac de données.
Dans Azure Synapse Studio, affichez la page Données, puis dans l’onglet Espace de travail, développez Base de données SQL pour afficher les bases de données de votre espace de travail. Il doit s’agir de la base de données SQL dédiée sqlxxxxxxx que vous venez de reprendre.
Dans le volet Données, dans le menu +, sélectionnez Base de données Lake pour ajouter une nouvelle base de données Lake à l’espace de travail. ​Remarque : Vous recevrez une invite Conditions d’utilisation du modèle de base de données Azure Synapse que vous devez lire et comprendre avant de cliquer sur le bouton OK.
Dans le volet Propriétés de la nouvelle base de données Lake (à droite), définissez les propriétés suivantes :
Nom : lakedb
Dossier d’entrée : accédez à root/files/data ​Astuce : Vous pouvez voir une erreur lors de l’ouverture du dossier d’entrée, il suffit de double-cliquer sur le dossier racine et de descendre jusqu’aux données avant de cliquer sur OK si c’est le cas.
Dans le volet Tables à gauche, dans le menu + Table, sélectionnez À partir du lac de données. Ajoutez ensuite une nouvelle table avec les propriétés suivantes :
Nom de la table externe : Produits
Service lié : synapsexxxxxxx-WorkspaceDefaultStorage(datalakexxxxxxx)
Fichier ou dossier d’entrée : files/data/products.csv
Cliquez sur Continuer et, dans le volet Nouvelle table externe, sélectionnez l’option Première ligne pour déduire les noms de colonne, puis cliquez sur Créer.
Sélectionnez Publier en haut de la fenêtre de la base de données du lac pour enregistrer les modifications
Dans le volet Données, développez la section Base de données Lake, puis lakedb, puis dans le menu ... de la table Produits, sélectionnez Créer un script SQL > 100 premières lignes.
Assurez-vous que Connect to est répertorié comme Built-in et actualisez la liste Utiliser la base de données et sélectionnez lakedb. ​
Loading…
Utilisez le bouton Exécuter pour exécuter la requête et afficher les données dans la table Produits.

Ajouter et configurer un compte de service Microsoft Purview

Microsoft Purview est un portefeuille complet de produits couvrant la gouvernance des données, la protection de l’information, la gestion des risques et les solutions de conformité. Il vous aide à gouverner, protéger et gérer l’ensemble de votre patrimoine de données sur site, multicloud et SaaS (Software as a Service).

Approvisionner un compte Microsoft Purview

Remarque : Les ressources Purview sont limitées au sein d’un seul locataire Azure. Si le locataire que vous utilisez a déjà utilisé son quota d’instances Azure Purview, vous ne pourrez pas en créer un. Si possible, vous pouvez utiliser une ressource Microsoft Purview existante pour le reste de cet exercice.
Revenez à l’onglet du navigateur contenant le portail Azure et affichez le groupe de ressources dp203-xxxxxxx.
Utilisez le bouton + Créer pour ajouter une nouvelle ressource Microsoft Purview au groupe de ressources avec les paramètres suivants :
Abonnement : Sélectionnez votre abonnement
Groupe de ressources : dp203-xxxxxxx
Nom du compte Microsoft Purview : purviewxxxxxxx (où *xxxxxxx est votre suffixe unique)*
Emplacement : Sélectionnez n’importe quelle région disponible ​Remarque : Vous devrez peut-être essayer quelques régions afin de pouvoir passer la validation avec Purview.
Attendez que la ressource soit créée, puis revenez au groupe de ressources dp203-xxxxxxx et assurez-vous qu’il est répertorié (vous devrez peut-être actualiser la page).

Configurer l’accès en fonction du rôle pour Microsoft Purview

Microsoft Purview est configuré pour utiliser une identité managée. Pour cataloguer les ressources de données, ce compte d’identité managé doit avoir accès à l’espace de travail Azure Synapse Analytique et au compte de stockage de son magasin de lac de données.
Dans le groupe de ressources dp203-xxxxxxx, passez en revue les ressources que vous avez créées. Il s’agit notamment de :
Un compte de stockage avec un nom similaire à datalakexxxxxxx.
Un compte Microsoft Purview avec un nom similaire à purviewxxxxxxx.
Un pool SQL dédié avec un nom similaire à sqlxxxxxxx.
Un espace de travail Synapse avec un nom similaire à synapsexxxxxxx.
Ouvrez le compte de stockage datalake xxxxxxx et, sur sa page Contrôle d’accès (IAM), affichez l’onglet Attributions de rôles ; Comme illustré ici : ​
Loading…
Dans le menu du bouton + Ajouter, sélectionnez Ajouter une attribution de rôle.
Dans la page Ajouter un assistant de rôle, sous l’onglet Rôle, recherchez « blob de stockage » et sélectionnez le rôle Lecteur de données d’objet blob de stockage. Sélectionnez ensuite Suivant pour accéder à l’onglet Membres : ​
Loading…
Sous l’onglet Membres, dans la liste Attribuer l’accès à, sélectionnez Identité managée ; puis, sous Membres, sélectionnez Sélectionner des membres.
Dans le volet Sélectionner les identités managées, dans la liste Identités managées, sélectionnez Compte Microsoft Purview (n), puis sélectionnez votre compte Microsoft Purview, qui doit porter un nom similaire à purviewxxxxxxx ; et utilisez le bouton Sélectionner pour ajouter ce compte à l’attribution de rôle : ​
Loading…
Utilisez le bouton Vérifier + Attribuer pour terminer l’attribution de rôle, ce qui fait du compte purviewxxxxxxx utilisé par l’identité managée pour votre ressource Microsoft Purview un membre du rôle Lecteur de données d’objets blob de stockage pour votre compte de stockage.
Dans le portail Azure, revenez au groupe de ressources dp203-xxxxxxx et ouvrez l’espace de travail Synapsexxxxxxx Synapse Analytique. Ensuite, sur sa page Contrôle d’accès (IAM), ajoutez une attribution de rôle pour faire du compte d’identité managé purview xxxxxxx un membre du rôle Lecteur dans l’espace de travail.

Configurer les autorisations de base de données pour Microsoft Purview

Votre espace de travail Azure Synapse Analytique comprend des bases de données dans des pools SQL serverless et dédiés, auxquels l’identité managée utilisée par Microsoft Purview doit avoir accès.
Revenez à l’onglet du navigateur contenant Azure Synapse Studio. Ensuite, affichez la page Données pour afficher les bases de données de votre espace de travail. Il s’agit notamment des éléments suivants :
Une base de données de lacs nommée lakedb.
Une base de données de pool SQL dédiée nommée sqlxxxxxxx.
Sélectionnez la base de données lakedb, puis dans son menu ..., sélectionnez Nouveau script SQL > Script vide pour ouvrir un nouveau volet Script SQL 1. Vous pouvez utiliser le bouton Propriétés (qui ressemble à 🗏*) à l’extrémité droite de la barre d’outils pour masquer le volet Propriétés et afficher plus facilement le volet Script.
Dans le volet Script SQL 1, entrez le code SQL suivant, en remplaçant toutes les instances de purviewxxxxxxx par le nom de l’identité managée de votre compte Microsoft Purview :
CREATE LOGIN [purviewxxxxxxx] FROM EXTERNAL PROVIDER;
GO

CREATE USER [purviewxxxxxxx] FOR LOGIN [purviewxxxxxxx];
GO

ALTER ROLE db_datareader ADD MEMBER [purviewxxxxxxx];
GO

Utilisez le bouton ▷ Exécuter pour exécuter le script, qui crée un identifiant et un utilisateur dans l’utilisateur lakedb pour l’identité managée utilisée par Microsoft Purview, et ajoute l’utilisateur au rôle db_datareader dans la base de données lakedb.
Créez un script vide pour la base de données de pool SQL SQL déciquée sql xxxxxxx et utilisez-le pour exécuter le code SQL suivant (en remplaçant purviewxxxxxxx par le nom d’identité managée de votre compte Microsoft Purview) ; qui crée un utilisateur dans le pool SQL dédié pour l’identité managée utilisée par Microsoft Purview et l’ajoute au rôle db_datareader dans la base de données sqlxxxxxxx.
CREATE USER [purviewxxxxxxx] FROM EXTERNAL PROVIDER;
GO

EXEC sp_addrolemember 'db_datareader', [purviewxxxxxxx];
GO

Utiliser Microsoft Purview pour analyser les ressources de données

Maintenant que vous avez configuré l’accès requis pour que Microsoft Purview analyse les sources de données utilisées par votre espace de travail Azure Synapse Analytique, vous pouvez les inscrire dans votre catalogue Microsoft Purview.

Inscrire des sources dans le catalogue Microsoft Purview

Avec Microsoft Purview, vous pouvez cataloguer les ressources de données dans l’ensemble de votre patrimoine de données, y compris les sources de données dans un espace de travail Azure Synapse. L’espace de travail que vous venez de déployer comprend un lac de données (dans un compte Azure Data Lake Storage Gen2), une base de données de lac et un entrepôt de données dans un pool SQL dédié.
Revenez à l’onglet du navigateur contenant le portail Azure et affichez la page du groupe de ressources dp203-xxxxxxx.
Want to print your doc?
This is not the way.
Try clicking the ⋯ next to your doc name or using a keyboard shortcut (
CtrlP
) instead.