Utiliser des notebooks Spark dans un pipeline Azure Synapse
Gonzague Ducos
Comprendre les notebooks et les pipelines Synapse
Utiliser des ressources de traitement externes pour effectuer des tâches spécifiques, dont pool Apache Spark dans votre espace de travail Azure Synapse Analytics sur lequel vous pouvez exécuter du code dans un notebook.
Exploration initiale des données et l’expérimentation interactive lors de la conception de processus de transformation de données.
Effectuer une optimisation finale du code et une refactorisation pour la maintenabilité
Inclure le notebook dans un pipeline
Conseils :
Gardez votre code organisé : .
Mettez en cache les résultats intermédiaires
Évitez les calculs inutiles
Évitez d’utiliser collect() sauf si c’est vraiment nécessaire
Utilisez l’interface utilisateur Spark pour la supervision et le débogage
Gardez les versions de vos dépendances cohérentes et à jour
Utiliser une activité de notebook Synapse dans un pipeline
Ajouter une activité de notebook et la configurer pour exécuter un notebook Spark dans un pipeline.
Paramètres spécifiques à une activité de notebook :
Notebook : le notebook que vous voulez exécuter. Vous pouvez sélectionner un notebook existant dans votre espace de travail Azure Synapse Analytics ou en créer un.
Pool Spark : le pool Apache Spark sur lequel le notebook doit être exécuté.
Taille de l’exécuteur : la taille de nœud des nœuds Worker dans le pool, qui détermine le nombre de cœurs de processeur et la quantité de mémoire allouée aux nœuds Worker.
Allouer dynamiquement des exécuteurs : configure l’allocation dynamique de Spark, qui permet au pool d’effectuer automatiquement un scale-up ou un scale-down pour prendre en charge la charge de travail.
Nombre minimal d’exécuteurs : le nombre minimal d’exécuteurs à allouer.
Nombre maximal d’exécuteurs : le nombre maximal d’exécuteurs à allouer.
Taille du pilote : taille de nœud pour le nœud de pilote.
Utiliser les paramètres dans un notebook
Créer une cellule de paramètres dans le notebook
Déclarer et initialiser des variables dans une cellule, que vous configurez ensuite en tant que cellule de paramètres en activant l’option dans l’interface de l’éditeur de notebook.
L’initialisation d’une variable garantit qu’elle a une valeur par défaut.
Définir des paramètres de base pour l’activité de notebook
Pour définir des valeurs de paramètre, développez et éditez la section Paramètres de base des paramètres de l’activité.
L’expression @pipeline().RunId retourne l’identificateur unique de l’exécution actuelle du pipeline.