Créer une base de données lake dans Azure Synapse Analytics
Gonzague Ducos
Les analystes de données et les ingénieurs se retrouvent souvent obligés de choisir entre :
la flexibilité de stockage des fichiers de données dans un lac de données,
avec les avantages d’un schéma structuré dans une base de données relationnelle.
Lesbases de données lake dans Azure Synapse Analytics combinent ces deux approches et de tirer parti :
d’un schéma relationnel explicite de tables
de vues
de relations
découplées du stockage basé sur des fichiers.
Objectifs :
Comprendre les concepts et les composants de la base de données lake
Décrire les modèles de base de données dans Azure Synapse Analytics
Créer une base de données de lac
Comprendre les concepts de base de données lake
Une base de données lake fournit une couche de métadonnéesrelationnelles sur un ou plusieurs fichiers dans un lac de données, qui inclut :
des définitions pour les tables, y compris les noms de colonnes et les types de données,
des relations entre les colonnes des clés primaires et étrangères.
Les tables référencent les fichiers dans le lac de données, ce qui vous permet d’appliquer la sémantique relationnelle à l’utilisation des données et de l’interroger à l’aide de SQL.
Le stockage des fichiers de données est découplédu schéma de base de données, permettant une plus grande flexibilité que ce qu’un système de base de données relationnelle.
Schéma de base de données lake
Définir les tables qui représentent les entités pour lesquelles on stocke des données
interface de conception de base de données graphique, utilisant la plupart des meilleures pratiques pour la conception de base de données
Stockage de base de données lake
Données des tables stockées dans le lac de données sous forme de fichiers Parquet ou CSV
Fichiers peuvent être gérés indépendamment des tables de base de données
Calcul de base de données lake
pool SQL serverless Azure Synapse pour exécuter des requêtes SQL
pool Apache Spark Azure Synapse avec l’API Spark SQL
Explorer les modèles de base de données
Base de données lake à partir d’un schéma vide
Collection complète de modèles de base de données
Créer une base de données de lac
Soit vide, soit à partir de modèle, puis ajout et personnalisation des tables
Création de table en spécifiant le type et l’emplacement ou à partir des fichiers existants
Recommandé : stocker tous les fichiers de base de données dans un format cohérent dans le même dossier racine dans le lac de données
Le Concepteur permet :
Spécifier des paramètres de nom et de stockage pour chaque table.
Spécifier des noms, l’utilisation des clés, la nullabilité et les types de données pour chaque colonne.
Définissez des relations entre les colonnes clés dans les tables
Utiliser une base de données lake
Utilisation d’un pool SQL serverless
USE RetailDB;
GO
SELECT CustomerID, FirstName, LastName
FROM Customer
ORDERBY LastName;
Utilisation d’un pool Apache Spark
%%sql
INSERT INTO `RetailDB`.`Customer` VALUES (123,'John','Yang')
SELECT * FROM `RetailDB`.`Customer` WHERE CustomerID =123