当前位置: 首页 > news >正文

宿迁建设局网站a类证查询昌图网站推广

宿迁建设局网站a类证查询,昌图网站推广,怎样自己开发一款软件,会计可以做网站么下面介绍如何使用pyspark处理计算超大数据的统计指标#xff0c;主要为#xff1a;最大值、最小值、均值、方差、标准差、中位数、众数、非重复值等。 # 加载稽核数据 rd_sql fselect * from database.table spark_data spark.sql(rd_sql)# 计算众数 由于spar…下面介绍如何使用pyspark处理计算超大数据的统计指标主要为最大值、最小值、均值、方差、标准差、中位数、众数、非重复值等。 # 加载稽核数据 rd_sql fselect * from database.table spark_data spark.sql(rd_sql)# 计算众数 由于spark 2.4版本未内置相关函数 需要自定义 import pyspark.sql.functions as F # 自定义mode的计算 def sparkdf_mode(df, cols):# 构建一个空数据框mode_df pd.DataFrame()# 循环每一列for col in cols:# 先过滤空值filtered_df df.filter(F.col(col).isNotNull())# 加个判断 防止数据全空置时报错if filtered_df.count()0:# 统计出现次数 排序grouped_counts filtered_df.groupBy(col).count().orderBy(F.col(count).desc())# 获取计数值最大的第一行first_row grouped_counts.first()# 转sparkdfpdf spark.createDataFrame([first_row], grouped_counts.columns).toPandas()[col]else:# 数据全空置 赋值Nonepdf pd.DataFrame({col: [None]}) # 拼接mode_df pd.concat([mode_df, pdf], axis1)return mode_dffrom pyspark.sql.functions import col, count, when, approx_count_distinct # 分开统计 先统计字符类型 # 统计指标 string_stats spark_data.select(string_colsdate_cols).summary(max,min).toPandas() # 非空值数量 string_nonull spark_data.select([count(when(col(c).isNotNull(), c)).alias(c) for c in (string_colsdate_cols)]).toPandas() # 非重复值 string_unique spark_data.agg(*[approx_count_distinct(col(c)).alias(c) for c in (string_colsdate_cols)]).toPandas() # 众数 string_mode sparkdf_mode(spark_data, (string_colsdate_cols)) # 添加空值占位 null_rows pd.DataFrame(None, indexnp.arange(len(string_stats), len(string_stats) 3), columnsstring_stats.columns) string_stats string_stats.append(null_rows) # 上下拼接 string_data pd.concat([string_stats.iloc[:, 1:], string_nonull, string_unique, string_mode]) print(fstring_data稽核完成)# 统计数值类型 # 统计指标 float_stats spark_data.select(float_cols).summary(max,min,mean,50%,stddev).toPandas() print(ffloat_stats稽核完成) # 非空值 float_nonull spark_data.select([count(when(col(c).isNotNull(), c)).alias(c) for c in float_cols]).toPandas() # 非重复值 float_unique spark_data.agg(*[approx_count_distinct(col(c)).alias(c) for c in float_cols]).toPandas() # 众数 float_mode sparkdf_mode(spark_data, float_cols) # 上下拼接 float_data pd.concat([float_stats.iloc[:, 1:], float_nonull, float_unique, float_mode]) print(ffloat_data稽核完成)# 合并转置 pdf pd.concat([string_data, float_data], axis1).T # 重命名 pdf.columns [max, min, mean, median, std, nonull_cnt, unique_cnt, mode] # pdf转为sdf sdf spark.createDataFrame(pdf) # 创建临时视图 用于sqlAPI操作 sdf.createOrReplaceTempView(temp_view) # 插入库表 spark.sql(finsert overwrite table database.table select * from temp_view) # 用完删除临时视图 spark.catalog.dropTempView(temp_view) # 关闭spark spark.stop()
http://www.eeditor.cn/news/121841/

相关文章:

  • 网站开发需要什么工程师深圳市建设工程交易服务网宝安
  • 宠物网站设计案例网络系统设计的步骤
  • 电商网站建设讯息网站建设优化推广哈尔滨
  • 哈尔滨网站专业制作电视台网站模版
  • 高校网站建设要点做承兑 汇票一般会用哪些网站
  • wordpress cms管理站内seo和站外seo区别
  • 设计网站logowordpress 上传至
  • 淄博张店做网站的公司wordpress添加图片不显示
  • 找个网站看看长沙建网站联系电话
  • 苏州企业网站推广网站怎样制作流程
  • 宁夏水利建设工程网站食品电子商务网站建设论文
  • 国外设计网站怎么登陆wordpress标签logo
  • 国家住房和城乡建设部网站wordpress怎么pjax
  • 淘宝 客要推广网站怎么做北京企业网站开发多少钱
  • 对建设网站未来发展的建议wordpress安装没反应
  • 开封建设网站电脑做微信推送的网站
  • 四川建设数字证书网站免费的企业名录
  • 英德市住房和城乡建设局网站怎么做房产网站
  • 长沙网站设计建设北京设计公司名称
  • seo网站建站网络营销10大平台
  • 龙岩做网站的地方广告设计公司营业执照
  • 一个阿里云服务器可以放几个网站做网站的属于什么行业
  • wordpress教程下载网站主题粉色做网站背景图片
  • 响应式网站怎么写管理软件是什么
  • 平利县城乡建设局网站阳萎早谢吃什么药最好
  • 温州网站排名优化公司哪家好网站里的做菠菜
  • 常见的网络营销方式有哪些电子商务沙盘seo关键词
  • 网站终端制作金湖县网站建设
  • 做网站练手买软件网站建设
  • 网站和微信网站设计论文经济可行性分析