responsable de l’intégration, de la transformation et du regroupement des données de divers systèmes de données structurés et non structurés dans des structures adaptées à la création de solutions d’analytique
veille également à ce que les pipelines de données et les magasins de données restent très performants, efficaces, organisés et fiables, en fonction d’un ensemble spécifique d’exigences et de contraintes stratégiques
Qu’est-ce que l’engineering données ?
3 types de données :
Données structurées : systèmes sources basés sur des tables comme une base de données relationnelle ou un fichier plat tel qu’un fichier CSV séparé par des virgules.
L’élément principal d’un fichier structuré est que les lignes et les colonnes sont alignées de manière cohérente dans le fichier.
Données semi-structurées : fichiers JSON (JavaScript Object Notation), qui peuvent nécessiter un aplatissement avant de les charger dans votre système source.
Une fois aplaties, ces données n’ont pas besoin de rentrer parfaitement dans une structure de table.
Données non structurées : données stockées sous forme de paires clé-valeur qui n’adhèrent pas aux modèles relationnels standard (NoSQL).
Autres types de données non structurées couramment utilisées : format de données portable (PDF), documents de traitement de texte et images.
Opérations de données
Intégration des données : implique d’établir des liens entre les services opérationnels et analytiques et les sources de données pour obtenir un accès sécurisé et fiable aux données sur plusieurs systèmes.
Transformation des données :
Données opérationnelles doivent être transformées en une structure et un format appropriés pour l’analyse, souvent dans le cadre d’un processus d’extraction, transformation et chargement (ETL),
De plus en plus utilisée, variation dans laquelle vous extrayez, chargez et transformez (ELT) les données pour ingérer rapidement les données dans un lac de données et appliquer des techniques de traitement du « Big Data » pour les transformer. Quelle que soit l’approche utilisée, les données sont préparées pour répondre aux besoins analytiques en aval
Regroupement des données : processus qui réunit des données extraites de plusieurs sources de données dans une structure cohérente, généralement pour prendre en charge l’analytique et le reporting. En règle générale, les données des systèmes opérationnels sont extraites, transformées et chargées dans des magasins analytiques tels qu’un lac de données ou un entrepôt de données.
Concepts importants de l’engineering données
Données opérationnelles et analytiques :
Données opérationnelles : généralement des données transactionnelles générées et stockées par des applications, souvent dans une base de données relationnelle ou non relationnelle.
Les données analytiques sont des données qui ont été optimisées pour l’analyse et le reporting, souvent dans un entrepôt de données.
Diffusion de données : données de streaming font référence à des sources perpétuelles de données qui génèrent des valeurs de données en temps réel, souvent liées à des événements spécifiques. Appareils Internet des objets (IoT) et les flux de réseaux sociaux.
Pipelines de données : orchestrer des activités qui transfèrent et transforment des données. Principal moyen par lequel les ingénieurs Données implémentent des solutions d’extraction, de transformation et de chargement (ETL) reproductibles qui peuvent être déclenchées selon une planification ou en réponse à des événements.
Lacs de données : référentiel de stockage qui contient de grandes quantités de données dans des formats bruts natifs.
Données proviennent de plusieurs sources hétérogènes et peuvent être structurées, semi-structurées ou non structurées. L’idée est de stocker des éléments dans leur état d’origine sans leur faire subir de transformation. Cette approche diffère d’un entrepôt de données classique, qui transforme et traite les données au moment de l’ingestion.
Entrepôts de données : référentiel central de données intégrées provenant d’une ou plusieurs sources hétérogènes. Les entrepôts de données stockent les données actuelles et historiques dans des tables relationnelles organisées dans un schéma qui optimise les performances des requêtes analytiques.
Apache Spark : Apache Spark est un framework de traitement parallèle qui tire parti d’un traitement en mémoire et d’un stockage de fichiers distribué. Il s’agit d’un outil logiciel open source (OSS) courant pour les scénarios de Big Data.
Engineering données dans Microsoft Azure
Données opérationnelles générées par des applications et des appareils, sont stockées dans des services de stockage de données Azure comme Azure SQL Database, Azure Cosmos DB et Microsoft Dataverse.
Données opérationnelles sont capturées, ingérées et regroupées dans des magasins analytiques.
Principales technologies Azure utilisées pour implémenter des charges de travail d’engineering données sont les suivantes :
Azure Synapse Analytics
Azure Data Lake Storage Gen2
Azure Stream Analytics
Azure Data Factory
Azure Databricks
Les magasins de données analytiques qui sont remplis avec des données produites par les charges de travail d’engineering données prennent en charge la modélisation et la visualisation des données pour le reporting et l’analyse, souvent à l’aide d’outils de visualisation sophistiqués comme Microsoft Power BI
Données de streaming : capturées dans des services de répartiteur d’événements comme Azure Event Hubs.