Skip to content

Latest commit

 

History

History
18 lines (15 loc) · 1.41 KB

File metadata and controls

18 lines (15 loc) · 1.41 KB

Spark SQL允許Spark執行用SQL, HiveQL或者Scala表示的關係查詢。這個模組的核心是一個新類型的RDD-SchemaRDD。 SchemaRDDs由物件組成,行物件用有一個模式(scheme) 來描述行中每一列的資料類型。SchemaRDD與關聯式資料庫中的表(table)很相似。可以通過存在的RDD、一個Parquet文件、一個JSON資料庫或者對儲存在Apache Hive中的資料執行HiveSQL查詢中創建。

本章的所有例子都利用了Spark分布式系统中的樣本資料,可以在spark-shell中運行它們。