Skip to content
azure
Support formation Microsoft Azure
  • Pages
    • Présentation du support
    • Organisation des formations Power BI
    • Azure Synapse Analytics
      • Composants
        • Pools SQL Serverless
        • Pools SQL dédiés
        • PySpark
        • Delta Lake
      • Extraits de codes
    • SumUp
    • Labs 203 | Azure Date Engineer
      • Lab 01 | Découvrir Azure Synapse Analytics
      • Lab 02 | Interroger des fichiers à l’aide d’un pool SQL serverless
      • Lab 03 | Transformer des fichiers à l’aide d’un pool SQL serverless
      • Lab 04 | Analyser les données dans une base de données de lac
      • Lab 05 | Analyser les données d’un lac de données avec Spark
      • Lab 06 | Transformer des données à l’aide de Spark dans Synapse Analytique
      • Lab 07 | Utiliser Delta Lake avec Spark dans Azure Synapse Analytics
      • Lab 08 | Explorer un entrepôt de données relationnelles
      • Lab 09 | Charger des données dans un entrepôt de données relationnel
      • Lab 10 | Créer un pipeline de données dans Azure Synapse Analytique
      • Lab 11 | Utiliser un notebook Apache Spark dans un pipeline
      • Lab 12-14 | Utiliser Azure Synapse Link pour Azure Cosmos DB
      • Lab 13 | Utiliser Azure Synapse Link pour SQL
      • Lab 14 | Prise en main d’Azure Stream Analytique
      • Lab 15 | Ingérer des données en temps réel avec Azure Stream Analytique et Azure Synapse Analytique
      • Lab 16 | Créer un rapport en temps réel avec Azure Stream Analytique et Microsoft Power BI
      • Lab 17-22 | Utiliser Microsoft Purview avec Azure Synapse Analytique
      • Lab 18 | Découvrir Azure Databricks
      • Lab 19 | Utiliser Spark dans Azure Databricks
      • Lab 20 | Utiliser Delta Lake dans Azure Databricks
      • Lab 21 | Utiliser un entrepôt SQL dans Azure Databricks
      • Lab 22 | Automatiser un notebook Azure Databricks avec Azure Data Factory
    • Gestion des autorisations
    • DP-203
      • Commencez avec l’ingénierie des données sur Azure
      • Présentation d'Azure Data Lake Storage Gen2
      • Utiliser un pool SQL serverless Azure Synapse pour interroger des fichiers dans un lac de données
      • Utiliser des pools SQL serverless Azure Synapse pour transformer des données dans un lac de données
      • Créer une base de données lake dans Azure Synapse Analytics
      • Sécuriser les données et gérer les utilisateurs dans les pools SQL serverless Azure Synapse
      • Analyser des données avec Apache Spark dans Azure Synapse Analytics
      • Transformer des données avec Spark dans Azure Synapse Analytics
      • Utiliser Delta Lake dans Azure Synapse Analytics
      • Analyser les données dans un entrepôt de données relationnelles
      • Charger des données dans un entrepôt de données relationnel
      • Gérer et superviser les activités d’un entrepôt de données dans Azure Synapse Analytics [WiP]
      • Sécuriser un entrepôt de données dans Azure Synapse Analytics [WiP]
      • Créer un pipeline de données dans Azure Synapse Analytics
      • icon picker
        Utiliser des notebooks Spark dans un pipeline Azure Synapse
      • Intégrer Microsoft Purview et Azure Synapse Analytics
      • Implémenter Azure Synapse Link avec Azure Cosmos DB
      • Utiliser des entrepôts SQL dans Azure Databricks
      • Untitled page
    • Sécuriser votre compte de Stockage Azure

Utiliser des notebooks Spark dans un pipeline Azure Synapse

Gonzague Ducos

Comprendre les notebooks et les pipelines Synapse

Utiliser des ressources de traitement externes pour effectuer des tâches spécifiques, dont pool Apache Spark dans votre espace de travail Azure Synapse Analytics sur lequel vous pouvez exécuter du code dans un notebook.
Exploration initiale des données et l’expérimentation interactive lors de la conception de processus de transformation de données.
Effectuer une optimisation finale du code et une refactorisation pour la maintenabilité
Inclure le notebook dans un pipeline
Conseils :
Gardez votre code organisé : .
Mettez en cache les résultats intermédiaires
Évitez les calculs inutiles
Évitez d’utiliser collect() sauf si c’est vraiment nécessaire
Utilisez l’interface utilisateur Spark pour la supervision et le débogage
Gardez les versions de vos dépendances cohérentes et à jour

Utiliser une activité de notebook Synapse dans un pipeline

Ajouter une activité de notebook et la configurer pour exécuter un notebook Spark dans un pipeline.
Paramètres spécifiques à une activité de notebook :
Notebook : le notebook que vous voulez exécuter. Vous pouvez sélectionner un notebook existant dans votre espace de travail Azure Synapse Analytics ou en créer un.
Pool Spark : le pool Apache Spark sur lequel le notebook doit être exécuté.
Taille de l’exécuteur : la taille de nœud des nœuds Worker dans le pool, qui détermine le nombre de cœurs de processeur et la quantité de mémoire allouée aux nœuds Worker.
Allouer dynamiquement des exécuteurs : configure l’allocation dynamique de Spark, qui permet au pool d’effectuer automatiquement un scale-up ou un scale-down pour prendre en charge la charge de travail.
Nombre minimal d’exécuteurs : le nombre minimal d’exécuteurs à allouer.
Nombre maximal d’exécuteurs : le nombre maximal d’exécuteurs à allouer.
Taille du pilote : taille de nœud pour le nœud de pilote.

Utiliser les paramètres dans un notebook

Créer une cellule de paramètres dans le notebook

Déclarer et initialiser des variables dans une cellule, que vous configurez ensuite en tant que cellule de paramètres en activant l’option dans l’interface de l’éditeur de notebook.
L’initialisation d’une variable garantit qu’elle a une valeur par défaut.

Définir des paramètres de base pour l’activité de notebook

Pour définir des valeurs de paramètre, développez et éditez la section Paramètres de base des paramètres de l’activité.
L’expression @pipeline().RunId retourne l’identificateur unique de l’exécution actuelle du pipeline.
Want to print your doc?
This is not the way.
Try clicking the ··· in the right corner or using a keyboard shortcut (
CtrlP
) instead.