Apache Doris just ‘graduated’: Why care about this SQL data warehouse

Au cas où vous vous demanderiez qui “elle” est et dans quelle école elle est allée, Doris est un entrepôt de données analytiques de traitement massivement parallèle (MPP) open resource basé sur SQL qui était en cours de développement chez Apache Incubator.

La semaine dernière, Doris a obtenu le statut de projet de haut niveau, ce qui, selon l’Apache Program Basis (ASF), signifie qu’« il a prouvé sa capacité à être correctement autogéré ».

L’entrepôt de données a récemment été publié en model 1., sa huitième variation en cours de développement à l’incubateur (avec six versions de connecteur). Il a été conçu pour prendre en charge les rates de travail de traitement analytique en ligne (OLAP), souvent utilisées dans science des données scénarios.

Doris, à l’origine connue sous le nom de Palo, est née au sein du géant chinois de la recherche sur Web Baidu en tant que système d’entreposage de données pour son activité publicitaire avant d’être open resource en 2017 et d’entrer dans l’incubateur Apache en 2018.

Doris a des racines dans Apache Impala et Google Mesa

Doris, selon Apache Program Foundation, est basé sur l’intégration de Google Mesa et Apache Impala, un moteur de requête open supply MPP SQL, développé en 2012 et basé sur les fondements de Google F1.

Mesa, qui a été conçu pour être un système d’entreposage de données analytiques hautement évolutif vers 2014, a été utilisé pour stocker des données de mesure critiques liées aux activités de publicité sur Web de Google.

Selon ses développeurs, tant chez Baidu qu’à l’incubateur Apache, Doris offre une architecture de conception basic tout en offrant une disponibilité, une fiabilité, une tolérance aux pannes et une évolutivité élevées.

“La simplicité (de développement, de déploiement et d’utilisation) et la satisfaction de nombreuses exigences de service de données dans un seul système sont les principales caractéristiques de Doris”, a déclaré l’Apache Program Basis dans un communiqué, ajoutant que l’entrepôt de données prend en charge les rapports multidimensionnels, les portraits d’utilisateurs, les publicités. requêtes ponctuelles et tableaux de bord en temps réel.

Certaines des autres fonctionnalités de Doris incluent le stockage en colonnes, l’exécution parallèle, la technologie de vectorisation, l’optimisation des requêtes, ANSI SQL et l’intégration avec les écosystèmes de Huge Information by way of des connecteurs pour Apache Flink, Apache Hive, Apache Hudi, Apache Iceberg, Apache Spark et Elasticsearch, entre autres systèmes.

L’adoption des bases de données open source devrait augmenter

On s’attend à ce que l’adoption de bases de données open up source de niveau entreprise augmente. Dans le rapport State of the Open-Resource DBMS Market place 2019 de Gartner, la société de conseil a prédit que moreover de 70 % des nouvelles apps internes seront développées sur un système de gestion de base de données Open Resource (OSDBMS) ou une plate-forme de foundation de données basée sur OSDBMS. -a-Services (dbPaaS) d’ici fin 2022.

De plus, à mesure que les données prolifèrent et que le besoin d’analyse en temps réel des entreprises augmente, une base de données de traitement easy mais massivement parallèle, également open up resource, semble être le besoin de l’heure.

« À mesure que les volumes de données augmentaient, les bases de données MPP sont devenues le seul moyen réaliste de traiter les données assez rapidement ou à moindre coût pour répondre aux demandes des organisations », a déclaré David Menninger, directeur de recherche chez Ventana Analysis.

L’architecture cloud alimente l’intérêt pour les bases de données MPP

Les autres tendances qui alimentent les bases de données MPP sont la disponibilité d’instances de serveurs basées sur le cloud relativement peu coûteuses, qui peuvent être utilisées dans le cadre de la configuration MPP, éliminant ainsi le besoin de se procurer et d’installer le matériel physique utilisé par ces systèmes, a déclaré Menninger.

Prenant en demand Doris, Menninger a déclaré que bien qu’il existe de nombreuses solutions de foundation de données MPP, dont certaines sont open resource, il n’y a pas vraiment d’alternative open up supply MPP MySQL.

“MySQL lui-même et MariaDB ont été étendus pour prendre en charge des rates de travail analytiques in addition importantes, mais ils ont été initialement conçus pour le traitement des transactions”, a déclaré Menninger, ajoutant que la base de données open up resource PostreSQL Greenplum et les expert services hyperscaler tels que Google BigQuery, Amazon RedShift et Microsoft Synapse pourraient être considérés comme des rivaux de Doris.

En outre, ClickHouse, Apache Druid et Apache Pinot pourraient également être considérés comme des rivaux, a déclaré Sanjeev Mohan, ancien vice-président de la recherche pour le large details et l’analyse chez Gartner.

Selon la Fondation Apache, l’utilisation de Doris pourrait présenter de multiples avantages, tels que la simplicité architecturale et des temps de requête furthermore rapides.

L’une des raisons de la simplicité de Doris est sa non-dépendance à plusieurs composants pour des tâches telles que la gestion des courses, la synchronisation et la conversation. Ses temps de requête rapides peuvent être attribués à la vectorisation, un processus qui permet à un programme ou à un algorithme de fonctionner sur plusieurs ensembles de valeurs à la fois plutôt que sur une seule valeur.

Selon les développeurs de la Fondation Apache, un autre avantage de l’entrepôt de données est la prise en cost de la simultanéité ultra-élevée de Doris, ce qui signifie qu’il peut gérer les demandes de dizaines de milliers d’utilisateurs pour traiter les données et obtenir des informations à partir de la base de données en même temps.

Le besoin d’une simultanéité élevée a augmenté parce que la plupart des organisations permettent à leurs employés d’accéder aux données afin de générer des informations basées sur les données, contrairement aux seuls cadres de la suite C ayant accès aux analyses.

Copyright © 2022 IDG Communications, Inc.