azure
Support formation Microsoft Azure
azure
Support formation Microsoft Azure
Labs 203 | Azure Date Engineer

Lab 19 | Utiliser Spark dans Azure Databricks

Gonzague Ducos
Azure Databricks est une version basée sur Microsoft Azure de la plate-forme open source populaire Databricks. Azure Databricks est basé sur Apache Spark et offre une solution hautement évolutive pour les tâches d’ingénierie et d’analyse de données qui impliquent l’utilisation de données dans des fichiers. L’un des avantages de Spark est la prise en charge d’un large éventail de langages de programmation, notamment Java, Scala, Python et SQL ; ce qui fait de Spark une solution très flexible pour les charges de travail de traitement des données, y compris le nettoyage et la manipulation des données, l’analyse statistique et l’apprentissage automatique, ainsi que l’analytique et la visualisation des données.
Cet exercice devrait durer environ 45 minutes.

Avant de commencer

Vous aurez besoin d’un dans lequel vous disposez d’un accès de niveau administratif.

Approvisionner un espace de travail Azure Databricks

Dans cet exercice, vous allez utiliser un script pour provisionner un nouvel espace de travail Azure Databricks.
Conseil : Si vous disposez déjà d’un espace de travail Azure Databricks Standard ou d’essai, vous pouvez ignorer cette procédure et utiliser votre espace de travail existant.
Dans un navigateur web, connectez-vous au à l’adresse https://portal.azure.com.
Utilisez le bouton [>_] à droite de la barre de recherche en haut de la page pour créer un Cloud Shell dans le portail Azure, en sélectionnant un environnement PowerShell et en créant un stockage si vous y êtes invité. Cloud Shell fournit une interface de ligne de commande dans un volet situé au bas du portail Azure, comme illustré ici : ​
Remarque : Si vous avez déjà créé un Cloud Shell qui utilise un environnement Bash, utilisez le menu déroulant en haut à gauche du volet Cloud Shell pour le remplacer par PowerShell.
Notez que vous pouvez redimensionner la coque du nuage en faisant glisser la barre de séparation en haut du volet ou en utilisant les icônes , et X en haut à droite du volet pour réduire, agrandir et fermer le volet. Pour plus d’informations sur l’utilisation d’Azure Cloud Shell, consultez la .
Dans le volet PowerShell, entrez les commandes suivantes pour cloner ce référentiel :
rm -r dp-203 -f
git clone https://github.com/MicrosoftLearning/dp-203-azure-data-engineer dp-203

Une fois le référentiel cloné, entrez les commandes suivantes pour accéder au dossier de cet atelier et exécuter le script setup.ps1 qu’il contient :
cd dp-203/Allfiles/labs/24
./setup.ps1

Si vous y êtes invité, choisissez l’abonnement que vous souhaitez utiliser (cela ne se produira que si vous avez accès à plusieurs abonnements Azure).
Attendez que le script soit terminé - cela prend généralement environ 5 minutes, mais dans certains cas, cela peut prendre plus de temps. Pendant que vous attendez, consultez l’article dans la documentation Azure Databricks.

Créer un cluster

Azure Databricks est une plateforme de traitement distribué qui utilise des clusters Apache Spark pour traiter les données en parallèle sur plusieurs nœuds. Chaque cluster se compose d’un nœud pilote pour coordonner le travail et de nœuds de travail pour effectuer les tâches de traitement.
Conseil : Si vous disposez déjà d’un cluster avec une version d’exécution 13.3 LTS dans votre espace de travail Azure Databricks, vous pouvez l’utiliser pour effectuer cet exercice et ignorer cette procédure.
Dans le portail Azure, accédez au groupe de ressources dp203-xxxxxxx créé par le script (ou au groupe de ressources contenant votre espace de travail Azure Databricks existant)
Sélectionnez votre ressource Azure Databricks Service (nommée databricksxxxxxxx si vous avez utilisé le script d’installation pour la créer).
Dans la page Vue d’ensemble de votre espace de travail, utilisez le bouton Lancer l’espace de travail pour ouvrir votre espace de travail Azure Databricks dans un nouvel onglet du navigateur. Connectez-vous si vous y êtes invité.
Conseil : Lorsque vous utilisez le portail Databricks Workspace, divers conseils et notifications peuvent s’afficher. Ignorez-les et suivez les instructions fournies pour accomplir les tâches de cet exercice.
Consultez le portail de l’espace de travail Azure Databricks et notez que la barre latérale sur le côté gauche contient des icônes pour les différentes tâches que vous pouvez effectuer.
Sélectionnez la nouvelle tâche (+), puis sélectionnez Cluster.
Dans la page Nouveau cluster, créez un cluster avec les paramètres suivants :
Nom du cluster : cluster du nom d’utilisateur (nom de cluster par défaut)
Mode cluster : Nœud unique
Mode d’accès : Utilisateur unique (avec votre compte utilisateur sélectionné)
Version d’exécution de Databricks : 13.3 LTS (Spark 3.4.1, Scala 2.12)
Utiliser l’accélération des photons : sélectionné
Type de nœud : Standard_DS3_v2
Résilier après 30 minutes d’inactivité
Attendez que le cluster soit créé. Cela peut prendre une minute ou deux.
Remarque : Si votre cluster ne démarre pas, il se peut que votre abonnement dispose d’un quota insuffisant dans la région où votre espace de travail Azure Databricks est approvisionné. Pour plus d’informations, consultez . Si cela se produit, vous pouvez essayer de supprimer votre espace de travail et d’en créer un nouveau dans une autre région. Vous pouvez spécifier une région en tant que paramètre pour le script d’installation comme suit : ./setup.ps1 eastus

Explorer les données à l’aide d’un notebook

Comme dans de nombreux environnements Spark, Databricks prend en charge l’utilisation de blocs-notes pour combiner des notes et des cellules de code interactives que vous pouvez utiliser pour explorer les données.
Dans le portail de l’espace de travail Azure Databricks de votre espace de travail, dans la barre latérale de gauche, sélectionnez Espace de travail. Sélectionnez ensuite le dossier ⌂ Accueil.
En haut de la page, dans le menu à côté de votre nom d’utilisateur, sélectionnez Importer. Ensuite, dans la boîte de dialogue Importer, sélectionnez URL et importez le bloc-notes à partir de https://github.com/MicrosoftLearning/dp-203-azure-data-engineer/raw/master/Allfiles/labs/24/Databricks-Spark.ipynb
Connectez le bloc-notes à votre cluster et suivez les instructions qu’il contient. exécuter les cellules qu’il contient pour explorer les données dans les fichiers.

Supprimer des ressources Azure Databricks

Maintenant que vous avez terminé d’explorer Azure Databricks, vous devez supprimer les ressources que vous avez créées pour éviter les coûts Azure inutiles et libérer de la capacité dans votre abonnement.
Fermez l’onglet du navigateur de l’espace de travail Azure Databricks et revenez au portail Azure.
Sur le portail Azure, dans la page Accueil, sélectionnez Groupes de ressources.
Sélectionnez le groupe de ressources dp203-xxxxxxx (et non le groupe de ressources managé) et vérifiez qu’il contient votre espace de travail Azure Databricks.
En haut de la page Vue d’ensemble de votre groupe de ressources, sélectionnez Supprimer le groupe de ressources.
Entrez le nom du groupe de ressources dp203-xxxxxxx pour confirmer que vous souhaitez le supprimer, puis sélectionnez Supprimer.
Au bout de quelques minutes, votre groupe de ressources et les groupes de ressources de l’espace de travail géré qui lui sont associés seront supprimés.
Want to print your doc?
This is not the way.
Try clicking the ⋯ next to your doc name or using a keyboard shortcut (
CtrlP
) instead.