Comprendre les notebooks et les pipelines Synapse

Utiliser des ressources de traitement externes pour effectuer des tâches spécifiques, dont pool Apache Spark dans votre espace de travail Azure Synapse Analytics sur lequel vous pouvez exécuter du code dans un notebook.

Exploration initiale des données et l’expérimentation interactive lors de la conception de processus de transformation de données.

Effectuer une optimisation finale du code et une refactorisation pour la maintenabilité

Inclure le notebook dans un pipeline

Conseils :

Gardez votre code organisé : .

Mettez en cache les résultats intermédiaires

Évitez les calculs inutiles

Évitez d’utiliser collect() sauf si c’est vraiment nécessaire

Utilisez l’interface utilisateur Spark pour la supervision et le débogage

Gardez les versions de vos dépendances cohérentes et à jour

Utiliser une activité de notebook Synapse dans un pipeline

Ajouter une activité de notebook et la configurer pour exécuter un notebook Spark dans un pipeline.

⁠

Paramètres spécifiques à une activité de notebook :

Notebook : le notebook que vous voulez exécuter. Vous pouvez sélectionner un notebook existant dans votre espace de travail Azure Synapse Analytics ou en créer un.

Pool Spark : le pool Apache Spark sur lequel le notebook doit être exécuté.

Taille de l’exécuteur : la taille de nœud des nœuds Worker dans le pool, qui détermine le nombre de cœurs de processeur et la quantité de mémoire allouée aux nœuds Worker.

Allouer dynamiquement des exécuteurs : configure l’allocation dynamique de Spark, qui permet au pool d’effectuer automatiquement un scale-up ou un scale-down pour prendre en charge la charge de travail.

Nombre minimal d’exécuteurs : le nombre minimal d’exécuteurs à allouer.

Nombre maximal d’exécuteurs : le nombre maximal d’exécuteurs à allouer.

Taille du pilote : taille de nœud pour le nœud de pilote.

Utiliser les paramètres dans un notebook

Créer une cellule de paramètres dans le notebook

Déclarer et initialiser des variables dans une cellule, que vous configurez ensuite en tant que cellule de paramètres en activant l’option dans l’interface de l’éditeur de notebook.

L’initialisation d’une variable garantit qu’elle a une valeur par défaut.

⁠