Support formation Microsoft Azure

Pages

DP-203

Créer un pipeline de données dans Azure Synapse Analytics

Gonzague Ducos

⁠

Différences par rapport à Azure Data Factory - Azure Synapse Analytics⁠

⁠

Comprendre les pipelines dans Azure Synapse Analytics

Concepts principaux des pipelines

⁠

Activités

Tâches exécutables dans un pipeline

Définir un flux d’activités en les connectant dans une séquence.

Résultat d’une activité particulière (réussite, échec ou achèvement) peut être utilisé pour diriger le flux vers l’activité suivante dans la séquence.

Runtime d’intégration

Le pipeline nécessite des ressources de calcul et un contexte d’exécution dans lequel s’exécuter.

Services liés

Certaines activités peuvent dépendre de services externes.

Définis au niveau de l’espace de travail Azure Synapse Analytics, et peuvent être partagés entre plusieurs pipelines

Groupes de données

Les données spécifiques qui sont consommées et produites par les activités d’un pipeline sont définies à l’aide de jeux de données.

Définit le schéma pour chaque objet de données qui sera utilisé dans le pipeline

Définis au niveau de l’espace de travail Azure Synapse Analytics, et peuvent être partagés entre plusieurs pipelines.

A un service lié associé pour se connecter à sa source

Les activités peuvent avoir des jeux de données en tant qu’entrées ou sorties

Créer un pipeline dans Azure Synapse Studio

⁠

Pour définir la séquence logique d’activités, vous pouvez les connecter à l’aide des conditions de dépendance Réussite, Échec et Terminé, qui sont affichées sous forme de petites icônes sur le bord droit de chaque activité.

Définition d’un pipeline avec JSON

Environnement de développement graphique : méthode de prédilection pour créer un pipeline.

{

"name": "CopyPipeline",

"properties": {

"description": "Copy data from a blob to Azure SQL table",

"activities": [

{

"name": "CopyFromBlobToSQL",

"type": "Copy",

"inputs": [

{

"name": "InputDataset"

}

"outputs": [

{

"name": "OutputDataset"

}

"typeProperties": {

"source": {

"type": "BlobSource"

"sink": {

"type": "SqlSink",

"writeBatchSize": 10000,

"writeBatchTimeout": "60:00:00"

}

"policy": {

"retry": 2,

"timeout": "01:00:00"

}

]

}

Définir des flux de données

Data Flow est un type d’activité couramment utilisé pour définir un flux de données et une transformation. Les flux de données sont constitués de :

Sources : données d’entrée à transférer.

Transformations : différentes opérations que vous pouvez appliquer aux données à mesure qu’elles circulent dans le flux de données.

Récepteurs (sink) : cibles dans lesquelles les données seront chargées.

Interface de conception graphique distincte dans laquelle créer et configurer les éléments de flux de données requis.

Partie importante de la création d’un flux de données consiste à définir des mappages pour les colonnes au fur et à mesure que les données circulent à travers les différentes phases