azure
Support formation Microsoft Azure
azure
Support formation Microsoft Azure
Labs 203 | Azure Date Engineer

Lab 18 | Découvrir Azure Databricks

Gonzague Ducos
Azure Databricks est une version basée sur Microsoft Azure de la plate-forme open source populaire Databricks.
À l’instar d’Azure Synapse Analytique, un espace de travail Azure Databricks fournit un point central pour la gestion des clusters, des données et des ressources Databricks sur Azure.
Cet exercice devrait durer environ 30 minutes.

Avant de commencer

Vous aurez besoin d’un dans lequel vous disposez d’un accès de niveau administratif.

Approvisionner un espace de travail Azure Databricks

Dans cet exercice, vous allez utiliser un script pour provisionner un nouvel espace de travail Azure Databricks.
Conseil : Si vous disposez déjà d’un espace de travail Azure Databricks Standard ou d’essai, vous pouvez ignorer cette procédure et utiliser votre espace de travail existant.
Dans un navigateur web, connectez-vous au à l’adresse https://portal.azure.com.
Utilisez le bouton [>_] à droite de la barre de recherche en haut de la page pour créer un Cloud Shell dans le portail Azure, en sélectionnant un environnement PowerShell et en créant un stockage si vous y êtes invité. Cloud Shell fournit une interface de ligne de commande dans un volet situé au bas du portail Azure, comme illustré ici : ​
Remarque : Si vous avez déjà créé un Cloud Shell qui utilise un environnement Bash, utilisez le menu déroulant en haut à gauche du volet Cloud Shell pour le remplacer par PowerShell.
Notez que vous pouvez redimensionner la coque du nuage en faisant glisser la barre de séparation en haut du volet ou en utilisant les icônes , et X en haut à droite du volet pour réduire, agrandir et fermer le volet. Pour plus d’informations sur l’utilisation d’Azure Cloud Shell, consultez la .
Dans le volet PowerShell, entrez les commandes suivantes pour cloner ce référentiel :
rm -r dp-203 -f
git clone https://github.com/MicrosoftLearning/dp-203-azure-data-engineer dp-203
Une fois le référentiel cloné, entrez les commandes suivantes pour accéder au dossier de cet atelier et exécuter le script setup.ps1 qu’il contient :
cd dp-203/Allfiles/labs/23
./setup.ps1
Si vous y êtes invité, choisissez l’abonnement que vous souhaitez utiliser (cela ne se produira que si vous avez accès à plusieurs abonnements Azure).
Attendez que le script soit terminé - cela prend généralement environ 5 minutes, mais dans certains cas, cela peut prendre plus de temps. Pendant que vous attendez, consultez l’article dans la documentation Azure Databricks.

Créer un cluster

Azure Databricks est une plateforme de traitement distribué qui utilise des clusters Apache Spark pour traiter les données en parallèle sur plusieurs nœuds. Chaque cluster se compose d’un nœud pilote pour coordonner le travail et de nœuds de travail pour effectuer les tâches de traitement.
Dans cet exercice, vous allez créer un cluster à nœud unique pour réduire les ressources de calcul utilisées dans l’environnement de labo (dans lequel les ressources peuvent être limitées). Dans un environnement de production, vous créez généralement un cluster avec plusieurs nœuds de travail.
Conseil : Si vous disposez déjà d’un cluster avec une version d’exécution 13.3 LTS dans votre espace de travail Azure Databricks, vous pouvez l’utiliser pour effectuer cet exercice et ignorer cette procédure.
Dans le portail Azure, accédez au groupe de ressources dp203-xxxxxxx créé par le script (ou au groupe de ressources contenant votre espace de travail Azure Databricks existant)
Sélectionnez votre ressource Azure Databricks Service (nommée databricksxxxxxxx si vous avez utilisé le script d’installation pour la créer).
Dans la page Vue d’ensemble de votre espace de travail, utilisez le bouton Lancer l’espace de travail pour ouvrir votre espace de travail Azure Databricks dans un nouvel onglet du navigateur. Connectez-vous si vous y êtes invité. ​Conseil : Lorsque vous utilisez le portail Databricks Workspace, divers conseils et notifications peuvent s’afficher. Ignorez-les et suivez les instructions fournies pour accomplir les tâches de cet exercice.
Consultez le portail de l’espace de travail Azure Databricks et notez que la barre latérale sur le côté gauche contient des liens pour les différents types de tâches que vous pouvez effectuer.
Sélectionnez le lien (+) Nouveau dans la barre latérale, puis sélectionnez Cluster.
Dans la page Nouveau cluster, créez un cluster avec les paramètres suivants :
Nom du cluster : cluster du nom d’utilisateur (nom de cluster par défaut)
Mode cluster : Nœud unique
Mode d’accès : Utilisateur unique (avec votre compte utilisateur sélectionné)
Version d’exécution de Databricks : 13.3 LTS (Spark 3.4.1, Scala 2.12)
Utiliser l’accélération des photons : sélectionné
Type de nœud : Standard_DS3_v2
Résilier après 30 minutes d’inactivité
Attendez que le cluster soit créé. Cela peut prendre une minute ou deux.
Remarque : Si votre cluster ne démarre pas, il se peut que votre abonnement dispose d’un quota insuffisant dans la région où votre espace de travail Azure Databricks est approvisionné. Pour plus d’informations, consultez . Si cela se produit, vous pouvez essayer de supprimer votre espace de travail et d’en créer un nouveau dans une autre région. Vous pouvez spécifier une région en tant que paramètre pour le script d’installation comme suit : ./setup.ps1 eastus

Utiliser Spark pour analyser un fichier de données

Comme dans de nombreux environnements Spark, Databricks prend en charge l’utilisation de blocs-notes pour combiner des notes et des cellules de code interactives que vous pouvez utiliser pour explorer les données.
Dans la barre latérale, utilisez le lien (+) Nouveau pour créer un Bloc-notes.
Remplacez le nom du bloc-notes par défaut (Bloc-notes sans titre [date]) par Explorer les produits et, dans la liste déroulante Connecter, sélectionnez votre cluster s’il n’est pas déjà sélectionné. Si le cluster n’est pas en cours d’exécution, le démarrage peut prendre environ une minute.
Téléchargez le fichier sur votre ordinateur local, en l’enregistrant sous products.csv. Ensuite, dans le bloc-notes Explorer les produits, dans le menu Fichier, sélectionnez Charger les données vers DBFS.
Dans la boîte de dialogue Charger les données, notez le répertoire cible DBFS dans lequel le fichier sera téléchargé. Sélectionnez ensuite la zone Fichiers et téléchargez le fichier products.csv que vous avez téléchargé sur votre ordinateur. Une fois le fichier téléchargé, sélectionnez Suivant
Dans le volet Accéder aux fichiers à partir de blocs-notes, sélectionnez l’exemple de code PySpark et copiez-le dans le presse-papiers. Vous l’utiliserez pour charger les données du fichier dans un DataFrame. Sélectionnez ensuite Terminé.
Dans le bloc-notes Explorer les produits, dans la cellule de code vide, collez le code que vous avez copié ; qui devrait ressembler à ceci :
df1 = spark.read.format("csv").option("header", "true").load("dbfs:/FileStore/shared_uploads/user@outlook.com/products.csv")
Utilisez l’option de menu ▸ Exécuter la cellule en haut à droite de la cellule pour l’exécuter, en démarrant et en attachant le cluster si vous y êtes invité.
Attendez que la tâche Spark exécutée par le code se termine. Le code a créé un objet dataframe nommé df1 à partir des données du fichier que vous avez téléchargé.
Sous la cellule de code existante, utilisez l’icône + pour ajouter une nouvelle cellule de code. Ensuite, dans la nouvelle cellule, entrez le code suivant :
display(df1)
Utilisez l’option de menu ▸ Exécuter la cellule en haut à droite de la nouvelle cellule pour l’exécuter. Ce code affiche le contenu de la trame de données, qui doit ressembler à ceci :
ProductID
ProductName
Category
ListPrice
771
Mountain-100 Argent, 38
Vtt
3399.9900
772
Montagne-100 Argent, 42
Vtt
3399.9900
There are no rows in this table
Au-dessus du tableau des résultats, sélectionnez +, puis sélectionnez Visualisation pour afficher l’éditeur de visualisation, puis appliquez les options suivantes :
Type de visualisation : Barre
Colonne X : Catégorie
Colonne Y : ajoutez une nouvelle colonne et sélectionnez ProductID. Appliquer l’agrégation Count .
Enregistrez la visualisation et observez qu’elle s’affiche dans le bloc-notes, comme suit : ​

Créer et interroger une table

Alors que de nombreuses analyses de données sont à l’aise avec des langages comme Python ou Scala pour travailler avec des données dans des fichiers, de nombreuses solutions d’analytique de données sont construites sur des bases de données relationnelles ; dans lequel les données sont stockées dans des tables et manipulées à l’aide de SQL.
Dans le bloc-notes Explorer les produits, sous la sortie du graphique de la cellule de code précédemment exécutée, utilisez l’icône + pour ajouter une nouvelle cellule.
Entrez et exécutez le code suivant dans la nouvelle cellule :
df1.write.saveAsTable("products")

Une fois la cellule terminée, ajoutez une nouvelle cellule en dessous avec le code suivant :
%sql

SELECT ProductName, ListPrice
FROM products
WHERE Category = 'Touring Bikes';

Exécutez la nouvelle cellule, qui contient du code SQL pour renvoyer le nom et le prix des produits de la catégorie Motos de tourisme.
Dans la barre latérale, sélectionnez le lien Catalogue et vérifiez que la table products a été créée dans le schéma de base de données par défaut (qui est sans surprise nommé default). Il est possible d’utiliser le code Spark pour créer des schémas de base de données personnalisés et un schéma de tables relationnelles que les analystes de données peuvent utiliser pour explorer les données et générer des rapports analytiques.

Supprimer des ressources Azure Databricks

Maintenant que vous avez terminé d’explorer Azure Databricks, vous devez supprimer les ressources que vous avez créées pour éviter les coûts Azure inutiles et libérer de la capacité dans votre abonnement.
Fermez l’onglet du navigateur de l’espace de travail Azure Databricks et revenez au portail Azure.
Sur le portail Azure, dans la page d’accueil, sélectionnez Groupes de ressources.
Sélectionnez le groupe de ressources dp203-xxxxxxx (et non le groupe de ressources managé) et vérifiez qu’il contient votre espace de travail Azure Databricks.
En haut de la page Vue d’ensemble de votre groupe de ressources, sélectionnez Supprimer le groupe de ressources.
Entrez le nom du groupe de ressources dp203-xxxxxxx pour confirmer que vous souhaitez le supprimer, puis sélectionnez Supprimer.
Au bout de quelques minutes, votre groupe de ressources et les groupes de ressources de l’espace de travail géré qui lui sont associés seront supprimés.
Want to print your doc?
This is not the way.
Try clicking the ⋯ next to your doc name or using a keyboard shortcut (
CtrlP
) instead.