Comprendre les pipelines dans Azure Synapse Analytics
Concepts principaux des pipelines
Activités
Tâches exécutables dans un pipeline
Définir un flux d’activités en les connectant dans une séquence.
Résultat d’une activité particulière (réussite, échec ou achèvement) peut être utilisé pour diriger le flux vers l’activité suivante dans la séquence.
Runtime d’intégration
Le pipeline nécessite des ressources de calcul et un contexte d’exécution dans lequel s’exécuter.
Services liés
Certaines activités peuvent dépendre de services externes.
Définis au niveau de l’espace de travail Azure Synapse Analytics, et peuvent être partagés entre plusieurs pipelines
Groupes de données
Les données spécifiques qui sont consommées et produites par les activités d’un pipeline sont définies à l’aide de jeux de données.
Définit le schéma pour chaque objet de données qui sera utilisé dans le pipeline
Définis au niveau de l’espace de travail Azure Synapse Analytics, et peuvent être partagés entre plusieurs pipelines.
A un service lié associé pour se connecter à sa source
Les activités peuvent avoir des jeux de données en tant qu’entrées ou sorties
Créer un pipeline dans Azure Synapse Studio
Pour définir la séquence logique d’activités, vous pouvez les connecter à l’aide des conditions de dépendance Réussite, Échec et Terminé, qui sont affichées sous forme de petites icônes sur le bord droit de chaque activité.
Définition d’un pipeline avec JSON
Environnement de développement graphique : méthode de prédilection pour créer un pipeline.
{
"name":"CopyPipeline",
"properties":{
"description":"Copy data from a blob to Azure SQL table",
"activities":[
{
"name":"CopyFromBlobToSQL",
"type":"Copy",
"inputs":[
{
"name":"InputDataset"
}
],
"outputs":[
{
"name":"OutputDataset"
}
],
"typeProperties":{
"source":{
"type":"BlobSource"
},
"sink":{
"type":"SqlSink",
"writeBatchSize":10000,
"writeBatchTimeout":"60:00:00"
}
},
"policy":{
"retry":2,
"timeout":"01:00:00"
}
}
]
}
}
Définir des flux de données
Data Flow est un type d’activité couramment utilisé pour définir un flux de données et une transformation. Les flux de données sont constitués de :
Sources : données d’entrée à transférer.
Transformations : différentes opérations que vous pouvez appliquer aux données à mesure qu’elles circulent dans le flux de données.
Récepteurs (sink) : cibles dans lesquelles les données seront chargées.
Interface de conception graphique distincte dans laquelle créer et configurer les éléments de flux de données requis.
Partie importante de la création d’un flux de données consiste à définir des mappages pour les colonnes au fur et à mesure que les données circulent à travers les différentes phases
Exécuter un pipeline
Publier un pipeline et utiliser un déclencheur pour l’exécuter :
Immédiatement
À intervalles explicitement planifiés
En réponse à un événement, tel que l’ajout de nouveaux fichiers de données à un dossier dans un lac de données
Loading…
La capacité à superviser les exécutions de pipeline passées et en cours est utile à des fins de résolution des problèmes.