Databricks ajoute la gouvernance des données et les fonctionnalités du marché

Parallèlement à l’open supply Delta Lake lors de son sommet annuel Facts + AI, le fournisseur de details lake Databricks a lancé mardi un nouveau marché de données ainsi que de nouvelles fonctionnalités d’ingénierie de données.

Le nouveau marché, qui sera disponible dans les mois à venir, permettra aux entreprises de partager des actifs de données et d’analyse tels que des tables, des fichiers, des modèles d’apprentissage automatique, des blocs-notes et des tableaux de bord, a déclaré la société, ajoutant que les données n’ont pas besoin d’être déplacées. ou répliqué à partir du stockage cloud à des fins de partage.

Le marché, selon la société, accélérera l’ingénierie des données et le développement d’applications, car or truck il permet aux entreprises d’accéder à un ensemble de données au lieu d’en développer un et de s’abonner à un tableau de bord pour l’analyse au lieu d’en créer un nouveau.

La place de marché de Databricks permet aux utilisateurs de partager et de monétiser des données

Databricks a déclaré que le marché permettra aux entreprises partageant des actifs de données de les monétiser furthermore facilement.

Le nouveau marché ressemble à celui de Snowflake marché des données dans la conception et la stratégie, ont déclaré les analystes.

“Chaque plate-forme d’entreprise majeure (y compris Snowflake) doit disposer d’un écosystème d’applications feasible pour être véritablement une plate-forme et Databricks ne fait pas exception. Il cherche à être un marché central pour les actifs de données et doit être considéré comme une opportunité immédiate pour les ISV et les applications. développeurs qui cherchent à construire au-dessus du lac Delta », a déclaré Hyoun Park, analyste en chef chez Amalgam Insights.

En comparant le marché de Databricks à celui de Snowflake, Doug Henschen, analyste principal chez Constellation Investigate, a déclaré que, dans sa forme actuelle, Databricks Details Marketplace est très nouveau et ne traite que du partage de données, à la fois en interne et en externe, contrairement à Snowflake qui a ajouté des intégrations et un help pour monétisation des données.

Dans un effort and hard work pour promouvoir la collaboration de données avec d’autres entreprises de manière sécurisée, la société a déclaré qu’elle introduisait un environnement, baptisé Cleanrooms, qui sera disponible dans les mois à venir.

Une salle blanche de données est un environnement sécurisé qui permet à une entreprise d’anonymiser, de traiter et de stocker des informations personnellement identifiables afin de les mettre ultérieurement à disposition pour la transformation des données d’une manière qui ne viole pas les règles de confidentialité.

Les salles blanches de Databricks fourniront un moyen de partager et de joindre des données entre les entreprises sans avoir besoin de réplication, a déclaré la société, ajoutant que ces entreprises pourront collaborer avec des consumers et des partenaires sur n’importe quel cloud avec la flexibilité d’exécuter des calculs et des rates de travail complexes à l’aide à la fois SQL et science des données outils, y compris Python, R et Scala.

La promesse de se conformer aux normes de confidentialité est une proposition intéressante, a déclaré Park, ajoutant que son test décisif sera son adoption dans les secteurs des companies financiers, gouvernementaux, juridiques et de la santé qui ont des directives réglementaires strictes.

Databricks met à jour l’ingénierie des données et les outils de gestion

Databricks a également lancé plusieurs ajouts aux outils d’ingénierie de données.

L’un des nouveaux outils, Enzyme, selon la société, est une nouvelle couche d’optimisation pour accélérer le processus d’extraction, de transformation, de chargement (ETL) dans Delta Stay Tables que la société a rendu généralement disponible en avril de cette année.

“La couche d’optimisation est axée sur la prise en charge des pipelines d’intégration de données incrémentielles automatisées à l’aide de Delta Dwell Tables grâce à une combinaison de approach de requête et d’analyse des exigences de modification des données”, a déclaré Matt Aslett, directeur de recherche chez Ventana Investigation.

Et cette couche, selon Henschen, devrait “cocher un autre ensemble de capacités attendues par les purchasers qui la rendront in addition compétitive en tant qu’alternative aux plates-formes d’entrepôt de données et de datamart conventionnelles”.

Databricks a également annoncé la prochaine génération de Spark Structured Streaming, baptisée Project Lightspeed, sur sa plate-forme Delta Lake qui, selon elle, réduira les coûts et réduira la latence en utilisant un écosystème étendu de connecteurs.

Databricks fait référence à Delta Lake comme un lac de données, construit sur une architecture de données offrant à la fois des capacités de stockage et d’analyse, contrairement à lacs de données, qui stockent les données au structure natif, et les entrepôts de données, qui stockent les données structurées (souvent au format SQL) pour une interrogation rapide.

“Les données en streaming sont un domaine dans lequel Databricks se différencie de certains des autres fournisseurs de information lakehouse et apparel de furthermore en as well as l’attention à mesure que les purposes en temps réel basées sur les données et les événements en streaming deviennent moreover courantes”, a déclaré Aslett.

La deuxième itération de Spark, selon Park, montre l’intérêt croissant de Databricks pour la prise en demand de sources de données as well as petites pour l’analyse et l’apprentissage automatique.

“L’apprentissage automatique n’est furthermore seulement un outil pour les mégadonnées massives, mais un précieux mécanisme de rétroaction et d’alerte pour les données en temps réel et distribuées”, a déclaré l’analyste.

De additionally, afin d’aider les entreprises dans la gouvernance des données, la société a lancé le Knowledge Lineage for Unity Catalog, qui sera généralement disponible sur AWS et Azure dans les semaines à venir.

« La disponibilité générale de Unity Catalog contribuera à améliorer les features de sécurité et de gouvernance des actifs Lakehouse, tels que les fichiers, les tables et les modèles ML. C’est essentiel pour protéger les données sensibles », a déclaré Sanjeev Mohan, ancien vice-président de la recherche pour le Significant Data et l’analyse. chez Gartner.

La société a également lancé Databricks SQL Serverless (sur AWS) pour offrir un support entièrement géré pour maintenir, configurer et faire évoluer l’infrastructure cloud sur le Lakehouse.

Certaines des autres mises à jour incluent une fonctionnalité de fédération de requêtes pour Databricks SQL et une nouvelle fonctionnalité pour SQL CLI, permettant aux utilisateurs d’exécuter des requêtes directement à partir de leurs ordinateurs locaux.

La fonctionnalité de fédération permet aux développeurs et aux scientifiques des données d’interroger des sources de données distantes, notamment PostgreSQL, MySQL, AWS Redshift et d’autres, sans avoir besoin d’extraire et de charger d’abord les données des systèmes sources, a déclaré la société.

Copyright © 2022 IDG Communications, Inc.