缓存表的案例与解析：列式存储

时间：2023-06-25 理论教育版权反馈

【摘要】：在这种情况下，强烈推荐调用sqlContext.cacheTable（...）。图3.6 Driver界面中缓存表前的Storage界面通过results的show方法，触发缓存操作，这时仅仅将results对应的“name”列缓存内存中。当前的两个分区都已经全部缓存到列内存中。

缓存表的案例与解析：列式存储

这部分内容可用于性能调优，通过将数据缓存到内存来提高性能。

Spark SQL可以通过调用sqlContext.cacheTable（＂tableName＂）方法来缓存使用柱状格式的表。然后，Spark将会仅仅浏览需要的列并且自动地压缩数据以减少内存的使用以及垃圾回收的压力。可以通过调用sqlContext.uncacheTable（＂tableName＂）方法在内存中删除表。

注意：如果调用schemaRDD.cache（）而不是sqlContext.cacheTable（...），表将不会用柱状格式来缓存（即列式存储）。在这种情况下，强烈推荐调用sqlContext.cacheTable（...）。

可以在SQLContext上使用setConf方法或者在用SQL时运行“SET key=value”命令来配置内存缓存，属性部分配置信息如表3.1所示。

表3.1 用“SETkey=value”命令的部分属性配置