De nombreuses solutions BI n’ont pas su saisir les opportunités de stocker des données non structurées en raison des coûts et de la complexité de ces types de données dans les bases de données.
Les lacs de données constituent aujourd’hui une solution courante à ce problème.
Les lacs de données fournissent un stockage basé sur des fichiers, généralement dans un système de fichiers distribué qui prend en charge une scalabilité élevée pour de grands volumes de données.
Les organisations peuvent stocker des fichiers structurés, semi-structurés et non structurés dans le lac de données, puis les consommer dans des technologies de traitement du Big Data, comme Apache Spark.
Azure Data Lake Storage Gen2 fournit une solution cloud pour le stockage de lac de données dans Microsoft Azure et soutient de nombreuses solutions d’analytique à grande échelle basées sur Azure.
Comprendre Azure Data Lake Storage Gen2
Un Data Lake (lac de données) est un référentiel de données qui est stocké dans son format naturel, généralement sous la forme d’objets blob ou de fichiers.
Azure Data Lake Storage est une solution de lac de données complète, évolutive et économique pour l’analytique hautes performances intégré à Azure.
Azure Data Lake Storage allie un système de fichiers à une plateforme de stockage pour vous permettre d’identifier rapidement des insights dans vos données.
Data Lake Storage s’appuie sur les capacités du stockage Blob Azure pour les optimiser spécifiquement pour les charges de travail analytiques. Cette intégration permet d’obtenir :
des performances en analytique,
les fonctionnalités de hiérarchisation
les fonctionnalités de gestion du cycle de vie des données du stockage Blob,
et du Stockage Azure :
les fonctionnalités de haute disponibilité,
les fonctionnalités de sécurité
les fonctionnalités de durabilité
Avantages
Accès compatible Hadoop
Data Lake Storage permet le traitement des données comme si elles étaient stockées dans un système HDFS (Hadoop Distributed File System).
Avec cette fonctionnalité, vous pouvez stocker les données dans un même emplacement et y accéder en utilisant des technologies de calcul, notamment :
Azure Databricks,
Azure HDInsight
Azure Synapse Analytics
sans déplacer les données entre les environnements.
L’Ingénieur Données a également la possibilité d’utiliser des mécanismes de stockage comme le format Parquet, fortement compressé et utilise un stockage en colonnes interne.
Sécurité
Data Lake Storage prend en charge les listes de contrôle d’accès (ACL) et les autorisations POSIX (Portable Operating System Interface) qui n’héritent pas des autorisations du répertoire parent.
Vous pouvez définir des autorisations au niveau du répertoire ou du fichier pour les données stockées au sein du lac de données, ce qui offre un système de stockage beaucoup plus sécurisé.
Configurable avec Hive et Spark ou des utilitaires comme l’Explorateur Stockage Azure qui s’exécute sur Windows, macOS et Linux.
Toutes les données qui sont stockées sont chiffrées au repos avec des clés gérées par Microsoft ou le client.
Performances
Organise les données stockées dans une hiérarchie de répertoires et de sous-répertoires qui ressemble davantage à un système de fichiers, pour faciliter la navigation.
Par conséquent, le traitement des données nécessite moins de ressources de calcul, ce qui réduit le temps et le coût.
Redondance des données
Tire parti des modèles de réplication d’objets blob Azure qui fournissent la redondance des données dans un centre de données unique avec le stockage localement redondant (LRS) ou dans une région secondaire à l’aide de l’option de stockage géoredondant (GRS). Cette fonctionnalité garantit que vos données sont toujours disponibles et protégées en cas de catastrophe.
Conseil
Un Ingénieur Données doit prendre en compte la structure, la sécurité et la gouvernance des données. Les facteurs susceptibles d’affecter l’organisation et la structure des lacs doivent être pris en compte, comme :
Types de données à stocker
Manière de transformer les données
Utilisateurs devant accéder aux données
Différents modèles d’accès typiques
Cette approche permet de déterminer comment planifier la gouvernance du contrôle d’accès sur votre lac. Les Ingénieurs Données doivent s’assurer de manière proactive que le lac ne devienne pas un « marécage de données » inaccessible et peu utile pour les utilisateurs en raison de l’absence de gouvernance des données et de mesures concernant la qualité des données. Établir une ligne de base et les meilleures pratiques suivantes pour Azure Data Lake permet de garantir une implémentation correcte et robuste afin que l’organisation puisse se développer et obtenir des insights pour aller plus loin.
Activer Azure Data Lake Storage Gen2 dans Stockage Azure
Azure Data Lake Storage Gen2 n’est pas un service Azure autonome, mais plutôt une capacité configurable d’un Stockage Azure StorageV2 (usage général V2).
Dans un compte Stockage Azure : sélectionner l’option Activer l’espace de noms hiérarchique dans la page Avancé lors de la création du compte de stockage dans le portail Azure.
Si déjà d’un compte Stockage Azure, utiliser l’Assistant Mise à niveau de Data Lake Gen2 dans Paramètres du Compte de stockage.
Comparer Azure Data Lake Store et le stockage Blob Azure
Stockage Blob Azure
Azure Data Lake Storage Gen2
Les objets blob sont stockés en tant que hiérarchie à un seul niveau dans un espace de noms plat. Caractère « / » permett d’organiser les objets blob en « dossiers » virtuels.
S’appuie sur le stockage d’objets blob et optimise les E/S des données volumineuses à l’aide d’un espace de noms hiérarchique qui organise les données d’objet blob en répertoireset stocke les métadonnées relatives à chaque répertoire et aux fichiers qu’il contient.
Comprendre les phases du traitement du Big Data
Architectures Big Data avec ces éléments :
Un entrepôt de données d’entreprise.
Une analytique avancée sur du Big Data.
Une solution d’analytique en temps réel.
Quatre phases communes à toutes les architectures dans le traitement de solutions de Big Data communes :
Ingestion : la phase d’ingestion identifie la technologie et les processus qui sont utilisés pour acquérir les données sources. Ces données peuvent provenir :
de fichiers,
de journaux
d’autres types de données non structurées qui doivent être placés dans le lac de données.
Technologie selon fréquence de transfert des données :
- Déplacement par lots des données : pipelines dans Azure Synapse Analytics ou Azure Data Factory
- ingestion de données en temps réel : Apache Kafka pour HDInsight ou Stream Analytics
Stocker : identifie l’endroit où les données ingérées doivent être placées.
Azure Data Lake Storage Gen2 fournit une solution de stockage sécurisée et évolutive qui est compatible avec les technologies de traitement du Big Data.
Préparation et apprentissage : technologies utilisées pour la préparation des données, ainsi que pour l’apprentissage et le scoring des modèles des solutions de Machine Learning. Les technologies couramment utilisées pendant cette phase sont Azure Synapse Analytics, Azure Databricks, Azure HDInsight et Azure Machine Learning.
Modéliser et traiter : technologies qui présentent les données aux utilisateurs, comme Microsoft Power BI, ou des magasins de données analytiques comme Azure Synapse Analytics ou une combinaison de plusieurs technologiesselon les besoins métier.
Utiliser Azure Data Lake Storage Gen2 dans les charges de travail d’analytique données
Quelques types courants de charge de travail analytique
Traitement et analytique du Big Data (3V)
Entrepôt de données
Evolution de l’entreposage de données, pour intégrer de grands volumes de données stockées sous forme de fichiers dans un lac de données avec des tables relationnelles dans un entrepôt de données.
L’entrepôt de données peut utiliser des tables externes pour définir une couche de métadonnéesrelationnelles sur les fichiers du lac de données et créer une architecture hybride de type « data lakehouse » ou « base de données de lac », puis prendre en charge les requêtes analytiques pour la création de rapports et la visualisation.
Exemple d’implémentation représenté dans l’image :
Azure Synapse Analytics héberge des pipelines pour effectuer des processus ETL à l’aide de la technologie Azure Data Factory.
Chargées dans un lac de données hébergé dans un conteneur Azure Data Lake Storage Gen2.
Traitées et chargées dans un entrepôt de données relationnelles au sein d’un pool SQL dédié Azure Synapse Analytics.
Prise en charge de la visualisation des données et de la création de rapports à l’aide de Microsoft Power BI.
Analytique données en temps réel
Contrairement aux charges de travail de traitement par lots traditionnelles, la diffusion en continudes données nécessite une solution en mesure de capturer et de traiter un flux de données dépendant des événements de données dès qu’ils surviennent.
Exemple d’implémentation représenté dans l’image :
Les événements de streaming sont capturés dans une file d’attente afin d’être traités avec Azure Event Hubs.
Les données sont traitées, souvent pour agréger des données sur des fenêtres temporelles.
Azure Stream Analytics crée des travaux pour interroger et agréger les données des événements dès qu’ils surviennent.
Azure Stream Analytics écrit les résultats dans un récepteur de sortie, comme Azure Data Lake Storage Gen2.
Science des données et machine learning
Analyse statistique de grands volumes de données avec Apache Spark et Python. Azure Data Lake Storage Gen 2 fournit un magasin de données.
Le Machine Learning est une discipline de la science des données concernant l’apprentissage de modèles prédictifs.
Azure Machine Learning est un service cloud permettant aux scientifiques des données d’exécuter du code Python dans des notebooks à l’aide de ressources de calcul distribuées allouées dynamiquement.
Données dans des conteneurs Azure Data Lake Storage Gen2 pour effectuer l’apprentissage des modèles. Ceux-ci peuvent ensuite être déployés en tant que services web de production pour prendre en charge les charges de travail d’analytique prédictive.