-
Drill a été créé chez MapR, qui sont toujours le 1er commiter dessus.
-
37 commiters, 4 ans d’existence
-
réellement ANSI SQL
-
On peut requêter directement les données dans le FS (HDFS, MapR-FS, RDBMS, MongoDB, Kafka, etc.), pas besoin de définir un schéma comme pour Hive
-
Drill utilise son propre moteur de ressources (PAS Yarn) : Drillbits
-
Drill utilise Zookeeper pour le fallback
-
Drill utilise un moteur d’exécution In Memory
-
Plutôt bien adapté pour de la Dataviz, en lien avec un outil de BI.
-
PAS fait du transactionnel, ou de l’anatyc In Memory (comme pour le Machine Learning)
-
Drill est tout particulièrement efficace pour requêter du Parquet
-
-
Impala principalement développé par Cloudera
-
Hive
-
75 commiters, 8 ans d’existence
-
pour le batch processing (et les traitements ETL), principalement car très scallable
-
PAS fait pour de la dataviz (donc à ne pas coupler à un outil de BI)
-
Le HiveServer2 est le composant de Hive recevant les query
-
→ Hive, Drill et Cloudera tournent sur MapR
-
MapReduce et Tez sont 2 moteurs d’exécution : Tez étant le plus récent des 2
-
le moteur d’exécution de Drill est plus performant que celui de Hive (meilleure latence)
-
Dans l’absolu, Drill et Hive sont complémentaires
Données OpenData donnant la dispo des Velib sur Paris.
-
Drill est capable de requêter Hive
-
Dans ce cas Dril utilise SON moteur d’exécution, MAIS utilise les Meta Data de Hive (le MetaCatalog)
-
-
Pour convertir du csv en Parquet sous Drill :
create table parquet_velib as select * from hive.velib.velib;
-
très intéressant pour du traitement ETL
-
→ Les slides et l’enregistrement seront bientôt disponibles sur le site de MapR