目录Spark_SQL性能调优性能调优选项几种压缩选项的特点可选的调优选项代码示例Spark_SQL性能调优众所周知,正确的参数配置对提升Spark的使用效率具有极大助力,帮助相关数据开发、分析人员更...
目录
Spark_SQL性能调优性能调优选项
几种压缩选项的特点
可选的调优选项
代码示例
Spark_SQL性能调优
众所周知,正确的参数配置对提升Spark的使用效率具有极大助力,帮助相关数据开发、分析人员更高效地使用Spark进行离线批处理和SQL报表分析等作业。
性能调优选项
几种压缩选项的特点
spark.sql.parquet.compressed.codec 默认值为snappy 这个参数代表使用哪种压缩编码器。可选的选项包括uncompressed/snappy/gzip/lzo
uncompressed这个顾名思义就是不用压缩的意思
可选的调优选项
代码示例
初始化设置Spark Application配置
构建SparkSession实例对象
import org.apache.commons.lang3.SystemUtils
import org.apache.spark.SparkConf
import org.apache.spark.sql.streaming.OutputMode
import org.apache.spark.sql.{DataFrame, SparkSession}
object PerformanceTuneDemo {
def main(args: Array[String]): Unit = {
// 构建SparkSession实例对象,设置相关属性参数值
val sparkConf = new SparkConf()
.setAppName(this.getClass.getSimpleName.stripSuffix("$"))
.set("spark.sql.session.timeZone", "Asia/Shanghai")
.set("spark.sql.files.maxPartitionBytes", "134217728")
.set("spark.sql.files.openCostInBytes", "134217728")
.set("spark.sql.shuffle.partitions", "3")
.set("spark.sql.autoBroadcastJoinThreshold", "67108864")
// 构建SparkSession实例对象
val spark: SparkSession = SparkSession.builder()
.config(sparkConf)
.getOrCreate()
}
}
到此这篇关于Spark SQL关于性能调优选项详解的文章就介绍到这了,更多相关Spark SQL性能调优内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!










