Intégrer Microsoft Purview et Azure Synapse Analytics
Gonzague Ducos
Azure Synapse Analytics est une plateforme pour les charges de travail d’analytique à l’échelle du cloud qui traitent les données dans plusieurs sources, notamment :
Bases de données relationnelles dans des pools SQL serverless et dédiés
Fichiers dans Azure Data Lake Storage Gen2
Une solution d’analytique données complète peut inclure de nombreux dossiers et fichiers dans un lac de données et plusieurs bases de données qui contiennent chacune de nombreuses tables, chacune avec plusieurs champs.
Microsoft Purview peut vous aider dans ce scénario en cataloguant les ressources de données dans une Microsoft Purview peut vous aider dans ce scénario en cataloguant les ressources de données dans une carte de données.
Configurer l’accès aux données pour Microsoft Purview
Le compte utilisé par votre compte Microsoft Purview (généralement une identité managée affectée par le système créée lorsque Microsoft Purview est provisionné) doit être membre du contrôle d’accès en fonction du rôle (RBAC) et des rôles de base de données appropriés.
Accès en lecture à l’espace de travail Azure Synapse, via l’appartenance au rôle Lecteur pour la ressource Espace de travail Azure Synapse dans l’abonnement Azure.
Accès en lecture à chaque base de données SQL via l’appartenance au rôle de base de données fixe db_datareader dans chaque base de données.
Accès en lecture au stockage de lac de données, via l’appartenance au rôle Lecteur des données Blob du stockage pour le compte Stockage Azure hébergeant le conteneur Azure Data Lake Storage Gen2 pour le lac de données
Inscrire et analyser des sources de données
Prend en charge la création d’une carte de données qui catalogue les ressources de données dans les collectionsen analysant les sources enregistrées.
Les collections forment une hiérarchie de regroupementslogiques de ressources de données associée, sous une collection racine créée lorsque vous provisionnez.
Utiliser le portail de gouvernance Microsoft Purview pour créer et gérer des collections dans votre compte.
Enregistrer la source dans une collection pour inclure des ressources d’une source de données en particulier.
Analyser chaque source pour cataloguer les ressources qu’elle contient. Vous pouvez analyser chaque source de manière interactive et planifier des analyses récurrentes pour garder la carte de données à jour
Afficher et gérer les ressources de données cataloguées
Chaque analyse trouve des ressources de données dans les sources enregistrées.
Interroger le catalogue de données dans le portail de gouvernance Microsoft Purview pour afficher et filtrer les ressources de données.
Ajouter des informations contextuelles telles que des descriptions, des contacts pour une aide d’expert et autres métadonnées utiles
Classifier à l’aide de classifications intégrées ou personnalisées qui font correspondre des modèles spécifiques de champ de données aux types de données courants
Connecter Microsoft Purview à un espace de travail Azure Synapse Analytics
En liant votre espace de travail à un compte Purview, vous pouvez :
Rechercher dans le catalogue Purview dans l’interface utilisateur Synapse Studio.
Pousser les détails des activités de pipeline de données vers Purview afin de suivre les informations de traçabilité des données.
Connecter un compte Purview à un espace de travail Synapse Analytics
Dans la page Gérer de Synapse Studio :
Considérations de sécurité
Pour connecter un compte Purview en utilisant l’interface Synapse Studio, vous avez besoin d’un accès Administrateur de collection à la collection racine du compte Purview. Une fois le compte connecté, l’identité managée utilisée par votre espace de travail Azure Synapse Analytics est ajoutée au rôle Curateur de données de la collection.
Rechercher dans un catalogue Purview dans Synapse Studio
Rechercher dans le catalogue à partir d’un compte Purview connecté en utilisant la barre Rechercher dans les pages Données, Développer ou Intégrer dans Synapse Studio.
Suivre la traçabilité des données dans les pipelines
Le suivi de la traçabilité des données au fur et à mesure de leur déplacement dans l’entreprise est un facteur important dans la détermination de la provenance.
Générer et afficher les informations de traçabilité des données
Deux types d’activités disponibles dans les pipelines Synapse Analytics, qui génèrent automatiquement des informations de traçabilité des données dans un catalogue Purview connecté :