当前位置: 首页 > news >正文

国内建站源码网站制作中动态展示怎么做

国内建站源码,网站制作中动态展示怎么做,产品广告设计,做游戏必备的几个网站目录 概述主要功能自适应调整Shuffle分区数量原理默认环境配置修改配置 结束 概述 自适应查询执行#xff08;AQE#xff09;是 Spark SQL中的一种优化技术#xff0c;它利用运行时统计信息来选择最高效的查询执行计划#xff0c;自Apache Spark 3.2.0以来默认启用该计划。… 目录 概述主要功能自适应调整Shuffle分区数量原理默认环境配置修改配置 结束 概述 自适应查询执行AQE是 Spark SQL中的一种优化技术它利用运行时统计信息来选择最高效的查询执行计划自Apache Spark 3.2.0以来默认启用该计划。从Spark 3.0开始AQE有三个主要功如下 自适应查询AQE(Adaptive Query Execution) 自适应调整Shuffle分区数量 原理默认环境配置修改配置 动态调整Join策略动态优化倾斜的 Join 主要功能 自适应调整Shuffle分区数量 当spark.sql.adaptive.enabled和spark.sql.adaptive.coalescePartitions.enabled配置均为true时自适应调整Shuffle分区数量功能就启动了 属性名称默认值功能版本spark.sql.adaptive.enabledtrue必备条件之一3.0.0spark.sql.adaptive.coalescePartitions.enabledtrue必备条件之二3.0.0spark.sql.adaptive.advisoryPartitionSizeInBytes64 MB自适应优化期间shuffle分区的建议大小以字节为单位。当Spark合并小的shuffle分区或拆分倾斜的shuffler分区时它就会生效。3.0.0spark.sql.adaptive.coalescePartitions.parallelismFirsttrue当为true时Spark在合并连续的shuffle分区时会忽略Spark.sql.adaptive.advisoryPartitionSizeInBytes默认64MB指定的目标大小并且只遵循Spark.sql.adaptive.salecePartitions.minPartitionSize默认1MB指定的最小分区大小以最大限度地提高并行性。这是为了在启用自适应查询执行时避免性能回归。建议将此配置设置为false并遵守spark.sql.adaptive.advisoryPartitionSizeInBytes指定的目标大小。3.2.0 原理 Spark在处理海量数据的时候其中的Shuffle过程是比较消耗资源的也比较影响性能因为它需要在网络中传输数据。 shuffle 中的一个关键属性是分区的数量。 分区的最佳数量取决于数据自身大小但是数据大小可能在不同的阶段、不同的查询之间有很大的差异这使得这个数字很难精准调优。 如果分区数量太多每个分区的数据就很小读取小的数据块会导致IO效率降低并且也会产生过多的task, 这样会给Spark任务带来更多负担。 如果分区数量太少那么每个分区处理的数据可能非常大处理这些大分区的数据可能需要将数据溢写到磁盘例如排序或聚合操作这样也会降低计算效率。 Spark初始会设置一个较大的Shuffle分区个数这个数值默认是200后续在运行时会根据动态统计到的数据信息将小的分区合并也就是慢慢减少分区数量。 测试时将以SELECT workorder,unitid,partid,partname,routeid,lineid from ods.xx where dt 2023-06-24 group by workorder,unitid,partid ,partname ,routeid,lineid 语句进行测试为了看出 Shuffle 的效果group 字段多了一些 将初始的 Shuffle 分区数量设置为 5所以在 Shuffle 过程中数据会产生5 个分区。如果没有开启自适应调整Shuffle分区数量这个策略Spark会启动5个Recuce任务来完成最后的聚合。但是这里面有3个非常小的分区为每个分区分别启动一个单独的任务会浪费资源并且也无法提高执行效率。如下图 开启自适应调整 Shuffle 分区数量之后Spark 会将这3个数据量比较小的分区合并为 1 个分区让1个reduce任务处理 默认环境配置 测试案例: 案例环境使用的是 spark 3.2.4 kyuubi 1.7.1 版本使用一张 20 亿的表做优化测试的也可以准备一个 json 文件加载后转成 DataFrame SELECT workorder,unitid,partid,partname,routeid,lineid from ods.xx where dt 2023-06-24 group by workorder,unitid,partid ,partname ,routeid,lineid 由上两个图可以看出21任务每个任务只是 3~4 M 这样原因是因 spark.sql.adaptive.coalescePartitions.parallelismFirst true修改配置 spark.sql.adaptive.coalescePartitions.parallelismFirstfalse可以看出两三千万的数据shuffle 处理上还是有倾斜的但海量数据下基本上是接近64m的。 结束 至此自适应调整Shuffle分区数量就结束了。
http://www.eeditor.cn/news/122042/

相关文章:

  • 单位门户网站可以做百度百科深圳营销型网站建设服务
  • 如何建设一个不备案的网站获取网站访客qq 原理
  • 别人冒用我们公司做的网站怎么关掉我做网站推广
  • 江苏网站备案暂住证企业cms开源
  • 河南网站建设公司价格5站合一 网站建设
  • 专注移动网站建设网站开发翻译
  • 网站地图 格式在线花钱做网站
  • 服务器做jsp网站教程视频wp上的wordpress
  • 重庆网站建设论坛山东省建设备案网站审批表
  • 怎么让百度搜索到自己的网站施工企业负责人每月带班时间不少于
  • 顺义企业建站网站建设客户开发方案
  • 网站开发技术学习中山网站快照优化公司
  • 餐饮网站界面做电销有什么资料网站
  • 网站建设熊掌号里属于什么领域东莞网上做公司网站
  • psd简单的网站首页黑龙江新闻最新消息今天
  • 中山市网站制作网站公司建设个服务号多少钱
  • 校园网站界面建设seo属于技术还是营销
  • 网站建设广告词教育培训学校网站建设策划
  • 自己做的网站打开太慢wordpress 淘宝客 采集
  • 学做电商网站设计lamp 搭建wordpress
  • seo怎么做网站优秀案例品牌型网站建设特点
  • 西宁中小企业网站建设长沙市建设局官方网站
  • 南昌网站建设博客移动端网站欣赏
  • 鞍山在百度做个网站多少钱电商税收新政策2021
  • windows 建网站免费禁用黄app软件排行
  • 做网站公司名字推荐网站开发一个网站
  • 内含各种专业的网站搭建模板wordpress网页图标
  • 成都全美网站建设环球资源网网站特色
  • 做网站后期自己可以维护吗网站顶部广告素材
  • 内蒙e登记官网最新包头seo哪家专业