azure
Support formation Microsoft Azure
azure
Support formation Microsoft Azure
DP-203

icon picker
Créer un pipeline de données dans Azure Synapse Analytics

Gonzague Ducos

Comprendre les pipelines dans Azure Synapse Analytics

Concepts principaux des pipelines

Activités

Tâches exécutables dans un pipeline
Définir un flux d’activités en les connectant dans une séquence.
Résultat d’une activité particulière (réussite, échec ou achèvement) peut être utilisé pour diriger le flux vers l’activité suivante dans la séquence.

Runtime d’intégration

Le pipeline nécessite des ressources de calcul et un contexte d’exécution dans lequel s’exécuter.

Services liés

Certaines activités peuvent dépendre de services externes.
Définis au niveau de l’espace de travail Azure Synapse Analytics, et peuvent être partagés entre plusieurs pipelines

Groupes de données

Les données spécifiques qui sont consommées et produites par les activités d’un pipeline sont définies à l’aide de jeux de données.
Définit le schéma pour chaque objet de données qui sera utilisé dans le pipeline
Définis au niveau de l’espace de travail Azure Synapse Analytics, et peuvent être partagés entre plusieurs pipelines.
A un service lié associé pour se connecter à sa source
Les activités peuvent avoir des jeux de données en tant qu’entrées ou sorties

Créer un pipeline dans Azure Synapse Studio

Pour définir la séquence logique d’activités, vous pouvez les connecter à l’aide des conditions de dépendance Réussite, Échec et Terminé, qui sont affichées sous forme de petites icônes sur le bord droit de chaque activité.

Définition d’un pipeline avec JSON

Environnement de développement graphique : méthode de prédilection pour créer un pipeline.
{
"name": "CopyPipeline",
"properties": {
"description": "Copy data from a blob to Azure SQL table",
"activities": [
{
"name": "CopyFromBlobToSQL",
"type": "Copy",
"inputs": [
{
"name": "InputDataset"
}
],
"outputs": [
{
"name": "OutputDataset"
}
],
"typeProperties": {
"source": {
"type": "BlobSource"
},
"sink": {
"type": "SqlSink",
"writeBatchSize": 10000,
"writeBatchTimeout": "60:00:00"
}
},
"policy": {
"retry": 2,
"timeout": "01:00:00"
}
}
]
}
}

Définir des flux de données

Data Flow est un type d’activité couramment utilisé pour définir un flux de données et une transformation. Les flux de données sont constitués de :
Sources : données d’entrée à transférer.
Transformations : différentes opérations que vous pouvez appliquer aux données à mesure qu’elles circulent dans le flux de données.
Récepteurs (sink) : cibles dans lesquelles les données seront chargées.
Interface de conception graphique distincte dans laquelle créer et configurer les éléments de flux de données requis.
Partie importante de la création d’un flux de données consiste à définir des mappages pour les colonnes au fur et à mesure que les données circulent à travers les différentes phases

Exécuter un pipeline

Publier un pipeline et utiliser un déclencheur pour l’exécuter :
Immédiatement
À intervalles explicitement planifiés
En réponse à un événement, tel que l’ajout de nouveaux fichiers de données à un dossier dans un lac de données
La capacité à superviser les exécutions de pipeline passées et en cours est utile à des fins de résolution des problèmes.
Want to print your doc?
This is not the way.
Try clicking the ⋯ next to your doc name or using a keyboard shortcut (
CtrlP
) instead.