une solution unifiée et intelligente pour l’ingénierie des données

Databricks, la société de données et d’IA, a annoncé aujourd’hui le lancement de Databricks LakeFlow, une nouvelle solution qui unifie et simplifie tous les aspects de l’ingénierie des données, depuis l’ingestion des données jusqu’à la transformation et l’orchestration. Avec LakeFlow, les équipes data peuvent désormais ingérer simplement et efficacement des données à grande échelle à partir de bases de données telles que MySQL, Postgres et Oracle, et d’applications d’entreprise telles que Salesforce, Dynamics, Sharepoint, Workday, NetSuite et Google Analytics. Databricks introduit également le mode temps réel pour Apache SparkTM, qui permet un traitement de streaming à latence ultra faible.

LakeFlow automatise le déploiement, l’exploitation et la surveillance des pipelines à l’échelle de la production grâce à la prise en charge CI/CD intégrée et aux flux de travail avancés prenant en charge le déclenchement, le branchement et l’exécution conditionnelle. Les contrôles de qualité des données et la surveillance de l’état de santé sont intégrés dans des systèmes d’alerte comme PagerDuty. LakeFlow simplifie et efficace la création et l’exploitation de pipelines de données de qualité production tout en répondant aux cas d’utilisation d’ingénierie de données les plus complexes, permettant aux équipes de données les plus occupées de répondre à la croissance de la demande de données fiables et d’IA.

Relever les défis liés à la création et à l’exploitation de pipelines de données fiables

L’ingénierie des données est essentielle pour démocratiser les données et l’IA au sein des entreprises, mais elle reste un domaine difficile et complexe. Les équipes chargées des données doivent ingérer des données provenant de systèmes cloisonnés et souvent propriétaires, notamment des bases de données et des applications d’entreprise, ce qui nécessite souvent la création de connecteurs complexes et fragiles. De plus, la préparation des données implique de maintenir une logique complexe, et les pannes et les pics de latence peuvent entraîner des perturbations opérationnelles et des clients mécontents. Le déploiement de pipelines et la surveillance de la qualité des données nécessitent généralement des outils supplémentaires et disparates, ce qui complique encore davantage le processus. Les solutions existantes sont fragmentées et incomplètes, ce qui entraîne une mauvaise qualité des données, des problèmes de fiabilité, des coûts élevés et un retard croissant.

LakeFlow relève ces défis en simplifiant tous les aspects de l’ingénierie des données grâce à une expérience unique et unifiée construite sur la plateforme Databricks Data Intelligence avec des intégrations approfondies avec Unity Catalog pour une gouvernance de bout en bout et une informatique sans serveur permettant une exécution hautement efficace et évolutive.

Principales caractéristiques de LakeFlow

LakeFlow Connect : ingestion de données simple et évolutive à partir de n’importe quelle source de données. LakeFlow Connect propose une large gamme de connecteurs natifs et évolutifs pour les bases de données telles que MySQL, Postgres, SQL Server et Oracle, ainsi que pour les applications d’entreprise telles que Salesforce, Dynamics, Sharepoint, Workday et NetSuite. Ces connecteurs sont entièrement intégrés à Unity Catalog, permettant une solide gouvernance des données. LakeFlow Connect intègre les capacités à faible latence et à haute efficacité d’Arcion, qui a été acquise par Databricks en novembre 2023. LakeFlow Connect rend toutes les données, quels que soient leur taille, leur format ou leur emplacement, disponibles pour une analyse par lots et en temps réel.

LakeFlow Pipelines : simplification et automatisation des pipelines de données en temps réel. Construit sur la technologie Delta Live Tables hautement évolutive de Databricks, LakeFlow Pipelines permet aux équipes de données de mettre en œuvre la transformation des données et l’ETL en SQL ou Python. Les clients peuvent désormais activer le mode temps réel pour un streaming à faible latence sans aucune modification de code. LakeFlow élimine le besoin d’orchestration manuelle et unifie le traitement par lots et par flux. Il offre un traitement incrémental des données pour un rapport qualité/prix optimal. LakeFlow Pipelines simplifie la création et l’exploitation des transformations de données en streaming et par lots, même les plus complexes.

Travaux LakeFlow : orchestrez les flux de travail sur la plateforme de Data Intelligence. LakeFlow Jobs fournit une orchestration, une santé et une livraison automatisées des données, de la planification des blocs-notes et des requêtes SQL à la formation ML et à la mise à jour automatique des tableaux de bord. Il offre des capacités de flux de contrôle améliorées et une observabilité complète pour aider à détecter, diagnostiquer et atténuer les problèmes de données afin d’améliorer la fiabilité des pipelines. LakeFlow Jobs automatise le déploiement, l’orchestration et la surveillance des pipelines de données en un seul endroit, permettant ainsi aux équipes de données de tenir plus facilement leurs promesses de livraison de données.

Disponibilité

Avec LakeFlow, l’avenir de l’ingénierie des données est unifié et intelligent. LakeFlow sera bientôt disponible en avant-première, à commencer par LakeFlow Connect.

For Latest Updates Follow us on Google News

Related posts