azure
Support formation Microsoft Azure
azure
Support formation Microsoft Azure
DP-203

icon picker
Utiliser des notebooks Spark dans un pipeline Azure Synapse

Gonzague Ducos

Comprendre les notebooks et les pipelines Synapse

Utiliser des ressources de traitement externes pour effectuer des tâches spécifiques, dont pool Apache Spark dans votre espace de travail Azure Synapse Analytics sur lequel vous pouvez exécuter du code dans un notebook.
Exploration initiale des données et l’expérimentation interactive lors de la conception de processus de transformation de données.
Effectuer une optimisation finale du code et une refactorisation pour la maintenabilité
Inclure le notebook dans un pipeline
Conseils :
Gardez votre code organisé : .
Mettez en cache les résultats intermédiaires
Évitez les calculs inutiles
Évitez d’utiliser collect() sauf si c’est vraiment nécessaire
Utilisez l’interface utilisateur Spark pour la supervision et le débogage
Gardez les versions de vos dépendances cohérentes et à jour

Utiliser une activité de notebook Synapse dans un pipeline

Ajouter une activité de notebook et la configurer pour exécuter un notebook Spark dans un pipeline.
Paramètres spécifiques à une activité de notebook :
Notebook : le notebook que vous voulez exécuter. Vous pouvez sélectionner un notebook existant dans votre espace de travail Azure Synapse Analytics ou en créer un.
Pool Spark : le pool Apache Spark sur lequel le notebook doit être exécuté.
Taille de l’exécuteur : la taille de nœud des nœuds Worker dans le pool, qui détermine le nombre de cœurs de processeur et la quantité de mémoire allouée aux nœuds Worker.
Allouer dynamiquement des exécuteurs : configure l’allocation dynamique de Spark, qui permet au pool d’effectuer automatiquement un scale-up ou un scale-down pour prendre en charge la charge de travail.
Nombre minimal d’exécuteurs : le nombre minimal d’exécuteurs à allouer.
Nombre maximal d’exécuteurs : le nombre maximal d’exécuteurs à allouer.
Taille du pilote : taille de nœud pour le nœud de pilote.

Utiliser les paramètres dans un notebook

Créer une cellule de paramètres dans le notebook

Déclarer et initialiser des variables dans une cellule, que vous configurez ensuite en tant que cellule de paramètres en activant l’option dans l’interface de l’éditeur de notebook.
L’initialisation d’une variable garantit qu’elle a une valeur par défaut.

Définir des paramètres de base pour l’activité de notebook

Pour définir des valeurs de paramètre, développez et éditez la section Paramètres de base des paramètres de l’activité.
L’expression @pipeline().RunId retourne l’identificateur unique de l’exécution actuelle du pipeline.
Want to print your doc?
This is not the way.
Try clicking the ⋯ next to your doc name or using a keyboard shortcut (
CtrlP
) instead.