Lab 21 | Utiliser un entrepôt SQL dans Azure Databricks

Support formation Microsoft Azure

Lab 21 | Utiliser un entrepôt SQL dans Azure Databricks

Gonzague Ducos

SQL est un langage standard pour l’interrogation et la manipulation des données. De nombreux analystes de données effectuent des analytiques de données à l’aide de SQL pour interroger les tables d’une base de données relationnelle. Azure Databricks inclut une fonctionnalité SQL qui s’appuie sur les technologies Spark et Delta Lake pour fournir une couche de base de données relationnelle sur les fichiers d’un lac de données.

Cet exercice devrait durer environ 30 minutes.

Avant de commencer

Vous aurez besoin d’un

abonnement Azure⁠

dans lequel vous disposez d’un accès de niveau administratif et d’un quota suffisant dans au moins une région pour provisionner un entrepôt SQL Azure Databricks.

Approvisionner un espace de travail Azure Databricks

Dans cet exercice, vous aurez besoin d’un espace de travail Azure Databricks de niveau Premium.

Conseil : Si vous disposez déjà d’un espace de travail Azure Databricks Premium ou d’essai, vous pouvez ignorer cette procédure.

Dans un navigateur web, connectez-vous au

portail Azure⁠

à l’adresse https://portal.azure.com.

Utilisez le bouton [>_] à droite de la barre de recherche en haut de la page pour créer un Cloud Shell dans le portail Azure, en sélectionnant un environnement PowerShell et en créant un stockage si vous y êtes invité. Cloud Shell fournit une interface de ligne de commande dans un volet situé au bas du portail Azure, comme illustré ici :

⁠

Remarque : Si vous avez déjà créé un Cloud Shell qui utilise un environnement Bash, utilisez le menu déroulant en haut à gauche du volet Cloud Shell pour le remplacer par PowerShell.

Notez que vous pouvez redimensionner la coque du nuage en faisant glisser la barre de séparation en haut du volet ou en utilisant les icônes —, ◻ et X en haut à droite du volet pour réduire, agrandir et fermer le volet. Pour plus d’informations sur l’utilisation d’Azure Cloud Shell, consultez la

documentation Azure Cloud Shell⁠

Dans le volet PowerShell, entrez les commandes suivantes pour cloner ce référentiel :

rm -r dp-203 -f

git clone https://github.com/MicrosoftLearning/dp-203-azure-data-engineer dp-203

Une fois le référentiel cloné, entrez les commandes suivantes pour accéder au dossier de cet atelier et exécuter le script setup.ps1 qu’il contient :

cd dp-203/Allfiles/labs/26

./setup.ps1

Si vous y êtes invité, choisissez l’abonnement que vous souhaitez utiliser (cela ne se produira que si vous avez accès à plusieurs abonnements Azure).

Attendez que le script soit terminé - cela prend généralement environ 5 minutes, mais dans certains cas, cela peut prendre plus de temps. Pendant que vous attendez, consultez l’article

Qu’est-ce que l’entreposage de données sur Azure Databricks ?⁠

dans la documentation Azure Databricks.

Afficher et démarrer un entrepôt SQL

Une fois la ressource d’espace de travail Azure Databricks déployée, accédez-y dans le portail Azure.

Dans la page Vue d’ensemble de votre espace de travail Azure Databricks, utilisez le bouton Lancer l’espace de travail pour ouvrir votre espace de travail Azure Databricks dans un nouvel onglet du navigateur. Connectez-vous si vous y êtes invité.

Conseil : Lorsque vous utilisez le portail Databricks Workspace, divers conseils et notifications peuvent s’afficher. Ignorez-les et suivez les instructions fournies pour accomplir les tâches de cet exercice.

Consultez le portail de l’espace de travail Azure Databricks et notez que la barre latérale sur le côté gauche contient les noms des catégories de tâches.

Dans la barre latérale, sous SQL, sélectionnez Entrepôts SQL.

Observez que l’espace de travail inclut déjà un entrepôt SQL nommé Starter Warehouse.

Dans le menu Actions (⁝) de SQL Warehouse, sélectionnez Modifier. Définissez ensuite la propriété Taille du cluster sur 2X-Small et enregistrez vos modifications.

Utilisez le bouton Démarrer pour démarrer l’entrepôt SQL (ce qui peut prendre une minute ou deux).

Remarque : Si votre SQL Warehouse ne démarre pas, il se peut que votre abonnement dispose d’un quota insuffisant dans la région où votre espace de travail Azure Databricks est approvisionné. Pour plus d’informations, consultez
Quota de processeurs virtuels Azure requis⁠
. Si cela se produit, vous pouvez essayer de demander une augmentation de quota, comme indiqué dans le message d’erreur, lorsque le magasin ne démarre pas. Vous pouvez également essayer de supprimer votre espace de travail et d’en créer un nouveau dans une autre région. Vous pouvez spécifier une région en tant que paramètre pour le script d’installation comme suit : ./setup.ps1 eastus

Création d’un schéma de base de données

Lorsque votre entrepôt SQL est en cours d’exécution, sélectionnez Éditeur SQL dans la barre latérale.

Dans le volet Schema browser, observez que le catalogue hive_metastore contient une base de données nommée default.

Dans le volet Nouvelle requête, entrez le code SQL suivant :

CREATE SCHEMA adventureworks;

Utilisez le bouton ►Exécuter (1000) pour exécuter le code SQL.

Une fois le code exécuté avec succès, dans le volet Navigateur de schémas, utilisez le bouton d’actualisation en bas du volet pour actualiser la liste. Développez ensuite hive_metastore et adventureworks, et observez que la base de données a été créée, mais ne contient aucune table.

Vous pouvez utiliser la base de données par défaut pour vos tables, mais lors de la création d’un magasin de données analytiques, il est préférable de créer des bases de données personnalisées pour des données spécifiques.

Créer une table

Téléchargez le fichier

products.csv⁠

sur votre ordinateur local, en l’enregistrant sous products.csv.

Dans le portail de l’espace de travail Azure Databricks, dans la barre latérale, sélectionnez (+) Nouveau, puis Chargement de fichier et chargez le fichier products.csv que vous avez téléchargé sur votre ordinateur.

Sur la page Charger les données, sélectionnez le schéma adventureworks et définissez le nom de la table sur products. Sélectionnez ensuite Créer un tableau dans le coin inférieur gauche de la page.

Une fois la table créée, vérifiez ses détails.

La possibilité de créer une table en important des données à partir d’un fichier facilite le remplissage d’une base de données. Vous pouvez également utiliser Spark SQL pour créer des tables à l’aide de code. Les tables elles-mêmes sont des définitions de métadonnées dans le metastore hive, et les données qu’elles contiennent sont stockées au format Delta dans le stockage Databricks File System (DBFS).

Créer une requête

Dans la barre latérale, sélectionnez (+) Nouveau, puis sélectionnez Requête.

Dans le volet du navigateur de schémas, développez hive_metastore et adventureworks, puis vérifiez que la table products est répertoriée.

Dans le volet Nouvelle requête, entrez le code SQL suivant :

SQL

SELECT ProductID, ProductName, Category

FROM adventureworks.products;

Utilisez le bouton ►Exécuter (1000) pour exécuter le code SQL.

Une fois la requête terminée, examinez le tableau des résultats.

Utilisez le bouton Enregistrer en haut à droite de l’éditeur de requête pour enregistrer la requête en tant que Produits et Catégories.

L’enregistrement d’une requête permet de récupérer facilement les mêmes données ultérieurement.

Créer un tableau de bord

Dans la barre latérale, sélectionnez (+) Nouveau, puis sélectionnez Tableau de bord.

Dans la boîte de dialogue Nouveau tableau de bord, entrez le nom Produits Adventure Works et sélectionnez Enregistrer.

Dans le tableau de bord Produits Adventure Works, dans la liste déroulante Ajouter, sélectionnez Visualisation.

Dans la boîte de dialogue Ajouter un widget de visualisation, sélectionnez la requête Produits et catégories. Sélectionnez ensuite Créer une visualisation, définissez le titre sur Produits par catégorie, puis sélectionnez Créer une visualisation.

Dans l’éditeur de visualisation, définissez les propriétés suivantes :

Type de visualisation : barre

Graphique horizontal : sélectionné

Colonne Y : Catégorie

X colonnes : ID du produit : Nombre

Regrouper par : Laisser vide

Empilement : Désactivé

Normaliser les valeurs en pourcentage : Nonsélectionné

Valeurs manquantes et nulles : ne s’affichent pas dans le graphique

Enregistrez la visualisation et affichez-la dans le tableau de bord.

Sélectionnez Modification terminée pour afficher le tableau de bord tel que les utilisateurs le verront.

Les tableaux de bord sont un excellent moyen de partager des tables de données et des visualisations avec les utilisateurs professionnels. Vous pouvez programmer l’actualisation périodique des tableaux de bord et leur envoi par e-mail aux abonnés.

Supprimer des ressources Azure Databricks

Maintenant que vous avez terminé d’explorer les entrepôts SQL dans Azure Databricks, vous devez supprimer les ressources que vous avez créées pour éviter les coûts Azure inutiles et libérer de la capacité dans votre abonnement.

Fermez l’onglet du navigateur de l’espace de travail Azure Databricks et revenez au portail Azure.

Sur le portail Azure, dans la page d’accueil, sélectionnez Groupes de ressources.

Sélectionnez le groupe de ressources contenant votre espace de travail Azure Databricks (et non le groupe de ressources managées).

En haut de la page Vue d’ensemble de votre groupe de ressources, sélectionnez Supprimer le groupe de ressources.

Entrez le nom du groupe de ressources pour confirmer que vous souhaitez le supprimer, puis sélectionnez Supprimer.

Au bout de quelques minutes, votre groupe de ressources et le groupe de ressources d’espace de travail géré qui lui est associé seront supprimés.

Avant de commencer

Approvisionner un espace de travail Azure Databricks

Afficher et démarrer un entrepôt SQL

Création d’un schéma de base de données

Créer une table

Créer une requête

Créer un tableau de bord

Supprimer des ressources Azure Databricks

Want to print your doc?
This is not the way.

Try clicking the ⋯ next to your doc name or using a keyboard shortcut (

CtrlP

) instead.