azure
Support formation Microsoft Azure
azure
Support formation Microsoft Azure
Labs 203 | Azure Date Engineer

Lab 20 | Utiliser Delta Lake dans Azure Databricks

Gonzague Ducos
Delta Lake est un projet open source visant à créer une couche de stockage de données transactionnelles pour Spark au-dessus d’un lac de données. Delta Lake ajoute la prise en charge de la sémantique relationnelle pour les opérations de données par lots et en continu, et permet la création d’une architecture Lakehouse dans laquelle Apache Spark peut être utilisé pour traiter et interroger des données dans des tables basées sur des fichiers sous-jacents dans le lac de données.
Cet exercice devrait durer environ 40 minutes.

Avant de commencer

Vous aurez besoin d’un dans lequel vous disposez d’un accès de niveau administratif.

Approvisionner un espace de travail Azure Databricks

Dans cet exercice, vous allez utiliser un script pour provisionner un nouvel espace de travail Azure Databricks.
Conseil : Si vous disposez déjà d’un espace de travail Azure Databricks Standard ou d’essai, vous pouvez ignorer cette procédure.
Dans un navigateur web, connectez-vous au à l’adresse https://portal.azure.com.
Utilisez le bouton [>_] à droite de la barre de recherche en haut de la page pour créer un Cloud Shell dans le portail Azure, en sélectionnant un environnement PowerShell et en créant un stockage si vous y êtes invité. Cloud Shell fournit une interface de ligne de commande dans un volet situé au bas du portail Azure, comme illustré ici : ​
Remarque : Si vous avez déjà créé un Cloud Shell qui utilise un environnement Bash, utilisez le menu déroulant en haut à gauche du volet Cloud Shell pour le remplacer par PowerShell.
Notez que vous pouvez redimensionner la coque du nuage en faisant glisser la barre de séparation en haut du volet ou en utilisant les icônes , et X en haut à droite du volet pour réduire, agrandir et fermer le volet. Pour plus d’informations sur l’utilisation d’Azure Cloud Shell, consultez la .
Dans le volet PowerShell, entrez les commandes suivantes pour cloner ce référentiel :
rm -r dp-203 -f
git clone https://github.com/MicrosoftLearning/dp-203-azure-data-engineer dp-203

Une fois le référentiel cloné, entrez les commandes suivantes pour accéder au dossier de cet atelier et exécuter le script setup.ps1 qu’il contient :
cd dp-203/Allfiles/labs/25
./setup.ps1

Si vous y êtes invité, choisissez l’abonnement que vous souhaitez utiliser (cela ne se produira que si vous avez accès à plusieurs abonnements Azure).
Attendez que le script soit terminé - cela prend généralement environ 5 minutes, mais dans certains cas, cela peut prendre plus de temps. Pendant que vous attendez, consultez l’article dans la documentation Azure Databricks.

Créer un cluster

Azure Databricks est une plateforme de traitement distribué qui utilise des clusters Apache Spark pour traiter les données en parallèle sur plusieurs nœuds. Chaque cluster se compose d’un nœud pilote pour coordonner le travail et de nœuds de travail pour effectuer les tâches de traitement.
Conseil : Si vous disposez déjà d’un cluster avec une version d’exécution 13.3 LTS dans votre espace de travail Azure Databricks, vous pouvez l’utiliser pour effectuer cet exercice et ignorer cette procédure.
Dans le portail Azure, accédez au groupe de ressources dp203-xxxxxxx créé par le script (ou au groupe de ressources contenant votre espace de travail Azure Databricks existant)
Sélectionnez votre ressource Azure Databricks Service (nommée databricksxxxxxxx si vous avez utilisé le script d’installation pour la créer).
Dans la page Vue d’ensemble de votre espace de travail, utilisez le bouton Lancer l’espace de travail pour ouvrir votre espace de travail Azure Databricks dans un nouvel onglet du navigateur. Connectez-vous si vous y êtes invité.
Conseil : Lorsque vous utilisez le portail Databricks Workspace, divers conseils et notifications peuvent s’afficher. Ignorez-les et suivez les instructions fournies pour accomplir les tâches de cet exercice.
Consultez le portail de l’espace de travail Azure Databricks et notez que la barre latérale sur le côté gauche contient des icônes pour les différentes tâches que vous pouvez effectuer.
Sélectionnez la nouvelle tâche (+), puis sélectionnez Cluster.
Dans la page Nouveau cluster, créez un cluster avec les paramètres suivants :
Nom du cluster : cluster du nom d’utilisateur (nom de cluster par défaut)
Mode cluster : Nœud unique
Mode d’accès : Utilisateur unique (avec votre compte utilisateur sélectionné)
Version d’exécution de Databricks : 13.3 LTS (Spark 3.4.1, Scala 2.12)
Utiliser l’accélération des photons : sélectionné
Type de nœud : Standard_DS3_v2
Résilier après 30 minutes d’inactivité
Attendez que le cluster soit créé. Cela peut prendre une minute ou deux.
Remarque : Si votre cluster ne démarre pas, il se peut que votre abonnement dispose d’un quota insuffisant dans la région où votre espace de travail Azure Databricks est approvisionné. Pour plus d’informations, consultez . Si cela se produit, vous pouvez essayer de supprimer votre espace de travail et d’en créer un nouveau dans une autre région. Vous pouvez spécifier une région en tant que paramètre pour le script d’installation comme suit : ./setup.ps1 eastus

Explorez le lac Delta à l’aide d’un carnet de notes

Dans cet exercice, vous allez utiliser le code d’un notebook pour explorer le lac delta dans Azure Databricks.
Dans le portail de l’espace de travail Azure Databricks de votre espace de travail, dans la barre latérale de gauche, sélectionnez Espace de travail. Sélectionnez ensuite le dossier ⌂ Accueil.
En haut de la page, dans le menu à côté de votre nom d’utilisateur, sélectionnez Importer. Ensuite, dans la boîte de dialogue Importer, sélectionnez URL et importez le bloc-notes à partir de https://github.com/MicrosoftLearning/dp-203-azure-data-engineer/raw/master/Allfiles/labs/25/Delta-Lake.ipynb
Connectez le bloc-notes à votre cluster et suivez les instructions qu’il contient. Exécuter les cellules qu’il contient pour explorer les fonctionnalités du lac Delta.

Supprimer des ressources Azure Databricks

Maintenant que vous avez terminé d’explorer Delta Lake dans Azure Databricks, vous devez supprimer les ressources que vous avez créées pour éviter les coûts Azure inutiles et libérer de la capacité dans votre abonnement.
Fermez l’onglet du navigateur de l’espace de travail Azure Databricks et revenez au portail Azure.
Sur le portail Azure, dans la page d’accueil, sélectionnez Groupes de ressources.
Sélectionnez le groupe de ressources dp203-xxxxxxx (et non le groupe de ressources managé) et vérifiez qu’il contient votre espace de travail Azure Databricks.
En haut de la page Vue d’ensemble de votre groupe de ressources, sélectionnez Supprimer le groupe de ressources.
Entrez le nom du groupe de ressources dp203-xxxxxxx pour confirmer que vous souhaitez le supprimer, puis sélectionnez Supprimer.
Au bout de quelques minutes, votre groupe de ressources et les groupes de ressources de l’espace de travail géré qui lui sont associés seront supprimés.
Want to print your doc?
This is not the way.
Try clicking the ⋯ next to your doc name or using a keyboard shortcut (
CtrlP
) instead.