Skip to content
azure
Support formation Microsoft Azure
  • Pages
    • Présentation du support
    • Organisation des formations Power BI
    • Azure Synapse Analytics
      • Composants
        • Pools SQL Serverless
        • Pools SQL dédiés
        • PySpark
        • Delta Lake
      • Extraits de codes
    • SumUp
    • Labs 203 | Azure Date Engineer
      • Lab 01 | Découvrir Azure Synapse Analytics
      • Lab 02 | Interroger des fichiers à l’aide d’un pool SQL serverless
      • Lab 03 | Transformer des fichiers à l’aide d’un pool SQL serverless
      • Lab 04 | Analyser les données dans une base de données de lac
      • Lab 05 | Analyser les données d’un lac de données avec Spark
      • Lab 06 | Transformer des données à l’aide de Spark dans Synapse Analytique
      • Lab 07 | Utiliser Delta Lake avec Spark dans Azure Synapse Analytics
      • Lab 08 | Explorer un entrepôt de données relationnelles
      • Lab 09 | Charger des données dans un entrepôt de données relationnel
      • Lab 10 | Créer un pipeline de données dans Azure Synapse Analytique
      • Lab 11 | Utiliser un notebook Apache Spark dans un pipeline
      • Lab 12-14 | Utiliser Azure Synapse Link pour Azure Cosmos DB
      • Lab 13 | Utiliser Azure Synapse Link pour SQL
      • Lab 14 | Prise en main d’Azure Stream Analytique
      • Lab 15 | Ingérer des données en temps réel avec Azure Stream Analytique et Azure Synapse Analytique
      • Lab 16 | Créer un rapport en temps réel avec Azure Stream Analytique et Microsoft Power BI
      • Lab 17-22 | Utiliser Microsoft Purview avec Azure Synapse Analytique
      • Lab 18 | Découvrir Azure Databricks
      • Lab 19 | Utiliser Spark dans Azure Databricks
      • Lab 20 | Utiliser Delta Lake dans Azure Databricks
      • Lab 21 | Utiliser un entrepôt SQL dans Azure Databricks
      • Lab 22 | Automatiser un notebook Azure Databricks avec Azure Data Factory
    • Gestion des autorisations
    • DP-203
      • Commencez avec l’ingénierie des données sur Azure
      • Présentation d'Azure Data Lake Storage Gen2
      • Utiliser un pool SQL serverless Azure Synapse pour interroger des fichiers dans un lac de données
      • Utiliser des pools SQL serverless Azure Synapse pour transformer des données dans un lac de données
      • Créer une base de données lake dans Azure Synapse Analytics
      • Sécuriser les données et gérer les utilisateurs dans les pools SQL serverless Azure Synapse
      • Analyser des données avec Apache Spark dans Azure Synapse Analytics
      • Transformer des données avec Spark dans Azure Synapse Analytics
      • Utiliser Delta Lake dans Azure Synapse Analytics
      • Analyser les données dans un entrepôt de données relationnelles
      • Charger des données dans un entrepôt de données relationnel
      • Gérer et superviser les activités d’un entrepôt de données dans Azure Synapse Analytics [WiP]
      • Sécuriser un entrepôt de données dans Azure Synapse Analytics [WiP]
      • icon picker
        Créer un pipeline de données dans Azure Synapse Analytics
      • Utiliser des notebooks Spark dans un pipeline Azure Synapse
      • Intégrer Microsoft Purview et Azure Synapse Analytics
      • Implémenter Azure Synapse Link avec Azure Cosmos DB
      • Utiliser des entrepôts SQL dans Azure Databricks
      • Untitled page
    • Sécuriser votre compte de Stockage Azure

Créer un pipeline de données dans Azure Synapse Analytics

Gonzague Ducos

Comprendre les pipelines dans Azure Synapse Analytics

Concepts principaux des pipelines

Activités

Tâches exécutables dans un pipeline
Définir un flux d’activités en les connectant dans une séquence.
Résultat d’une activité particulière (réussite, échec ou achèvement) peut être utilisé pour diriger le flux vers l’activité suivante dans la séquence.

Runtime d’intégration

Le pipeline nécessite des ressources de calcul et un contexte d’exécution dans lequel s’exécuter.

Services liés

Certaines activités peuvent dépendre de services externes.
Définis au niveau de l’espace de travail Azure Synapse Analytics, et peuvent être partagés entre plusieurs pipelines

Groupes de données

Les données spécifiques qui sont consommées et produites par les activités d’un pipeline sont définies à l’aide de jeux de données.
Définit le schéma pour chaque objet de données qui sera utilisé dans le pipeline
Définis au niveau de l’espace de travail Azure Synapse Analytics, et peuvent être partagés entre plusieurs pipelines.
A un service lié associé pour se connecter à sa source
Les activités peuvent avoir des jeux de données en tant qu’entrées ou sorties

Créer un pipeline dans Azure Synapse Studio

Pour définir la séquence logique d’activités, vous pouvez les connecter à l’aide des conditions de dépendance Réussite, Échec et Terminé, qui sont affichées sous forme de petites icônes sur le bord droit de chaque activité.

Définition d’un pipeline avec JSON

Environnement de développement graphique : méthode de prédilection pour créer un pipeline.
{
"name": "CopyPipeline",
"properties": {
"description": "Copy data from a blob to Azure SQL table",
"activities": [
{
"name": "CopyFromBlobToSQL",
"type": "Copy",
"inputs": [
{
"name": "InputDataset"
}
],
"outputs": [
{
"name": "OutputDataset"
}
],
"typeProperties": {
"source": {
"type": "BlobSource"
},
"sink": {
"type": "SqlSink",
"writeBatchSize": 10000,
"writeBatchTimeout": "60:00:00"
}
},
"policy": {
"retry": 2,
"timeout": "01:00:00"
}
}
]
}
}

Définir des flux de données

Data Flow est un type d’activité couramment utilisé pour définir un flux de données et une transformation. Les flux de données sont constitués de :
Sources : données d’entrée à transférer.
Transformations : différentes opérations que vous pouvez appliquer aux données à mesure qu’elles circulent dans le flux de données.
Récepteurs (sink) : cibles dans lesquelles les données seront chargées.
Interface de conception graphique distincte dans laquelle créer et configurer les éléments de flux de données requis.
Partie importante de la création d’un flux de données consiste à définir des mappages pour les colonnes au fur et à mesure que les données circulent à travers les différentes phases

Exécuter un pipeline

Publier un pipeline et utiliser un déclencheur pour l’exécuter :
Immédiatement
À intervalles explicitement planifiés
En réponse à un événement, tel que l’ajout de nouveaux fichiers de données à un dossier dans un lac de données
La capacité à superviser les exécutions de pipeline passées et en cours est utile à des fins de résolution des problèmes.
Want to print your doc?
This is not the way.
Try clicking the ··· in the right corner or using a keyboard shortcut (
CtrlP
) instead.