位置: 编程技术 - 正文

Spark SQL数据加载和保存实例讲解(spark sql add jar)

编辑:rootadmin

推荐整理分享Spark SQL数据加载和保存实例讲解(spark sql add jar),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:spark-sql -d,spark sql oom,spark.sql,spark sql -e,spark.sql,spark sql in,spark.sql,spark.sql,内容如对您有帮助,希望把文章链接给更多的朋友!

一、前置知识详解 Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。

二、Spark SQL读写数据代码实战

读取过程源码分析如下: 1. read方法返回DataFrameReader,用于读取数据。

2. 然后再调用DataFrameReader类中的format,指出读取文件的格式。

3. 通过DtaFrameReader中load方法通过路径把传入过来的输入变成DataFrame。

至此,数据的读取工作就完成了,下面就对DataFrame进行操作。 下面就是写操作!!!

1. 调用DataFrame中select函数进行对列筛选

2. 然后通过write将结果写入到外部存储系统中。

3. 在保持文件的时候mode指定追加文件的方式

4. 最后,save()方法触发action,将文件输出到指定文件中。

三、Spark SQL读写整个流程图如下

四、对于流程中部分函数源码详解

DataFrameReader.Load()

1. Load()返回DataFrame类型的数据集合,使用的数据是从默认的路径读取。

Spark SQL数据加载和保存实例讲解(spark sql add jar)

2. 追踪load源码进去,源码如下:在DataFrameReader中的方法。Load()通过路径把输入传进来变成一个DataFrame。

3. 追踪load源码如下:

DataFrameReader.format()

1. Format:具体指定文件格式,这就获得一个巨大的启示是:如果是Json文件格式可以保持为Parquet等此类操作。 Spark SQL在读取文件的时候可以指定读取文件的类型。例如,Json,Parquet.

DataFrame.write()

1. 创建DataFrameWriter实例

2. 追踪DataFrameWriter源码如下:以DataFrame的方式向外部存储系统中写入数据。

DataFrameWriter.mode()

1. Overwrite是覆盖,之前写的数据全都被覆盖了。 Append:是追加,对于普通文件是在一个文件中进行追加,但是对于parquet格式的文件则创建新的文件进行追加。

2. 通过模式匹配接收外部参数

DataFrameWriter.save()

1. save将结果保存传入的路径。

2. 追踪save方法。

3. 其中source是SQLConf的defaultDataSourceNameprivate var source: String = df.sqlContext.conf.defaultDataSourceName其中DEFAULT_DATA_SOURCE_NAME默认参数是parquet。

DataFrame.scala中部分函数详解:

1. toDF函数是将RDD转换成DataFrame

2. show()方法:将结果显示出来

追踪showString源码如下:showString中触发action收集数据。

标签: spark sql add jar

本文链接地址:https://www.jiuchutong.com/biancheng/318975.html 转载请保留说明!

上一篇:如何验证会员系统中用户的邮箱是否真实存在(验证vip)

下一篇:SqlServer高版本数据备份还原到低版本(sqlserver高版本数据库文件转低版本)

  • 房产公司预缴土地增值税怎么做账
  • 个体户每个月要申报个税吗
  • 餐补如何入账
  • 上月留抵进项本月抵扣会计分录
  • 财政部监制的收据可以手写吗
  • 发票认证是干嘛
  • 进项税额转出结平分录怎么写
  • 未投入使用房屋怎么处理
  • 固定资产超过注册资金怎么处理
  • 受托加工物资产包括哪些
  • 企业成立股东没有实际出资分录怎么写?
  • 未分配利润转增股本要交税吗
  • 哪家银行存款利率高2023
  • 房屋租赁合同印花
  • 资源税是否需要计提?
  • 超市开发票要交百分之几的税?
  • 以前年度亏损可以税前扣除吗
  • 企业的其他业务收入主要核算
  • 企业的利润分配顺序
  • 公司扣了员工的个人所得税但没有帮员工申报
  • 第二季度的利润表报错了,怎么重新报
  • 劳务费和工资薪金合并计算个人所得税合适吗
  • 计提理财利息分录
  • 如何做预估成本
  • 坏账是什么意思
  • 讨论:利息与贴息的关系?
  • 个人所得税跨年度能退吗
  • 查补以前年度增值税怎么申报
  • 外贸公司付款方式有几种
  • 受托代销商品会计科目
  • 出口退税如何办退税手续
  • 结转所得税费用到本年利润的会计分录
  • 税款返还的会计处理方法
  • 运输企业成本核算内容有哪些?
  • php自动执行函数
  • php_imagick
  • php定义一个二维数组
  • 前端v3
  • 如何计算公司需增加的营运资金
  • map获取entry
  • 税局代开专票已扣款还需季度增值税申报吗
  • 关于机动车的法律定义
  • 固定资产一次性折旧账务处理
  • php好用的cms
  • php算法有哪些
  • 红字发票是可以抵扣吗
  • 如何在税控盘上申领发票
  • 分页存储过程是什么
  • 计提固定资产折旧是什么意思
  • 行政事业单位赞助支出会计核算办法
  • 小规模纳税人附加税费
  • 小规模季度超过45万了怎么缴纳
  • 金税盘入什么科目
  • 承兑汇票贴现计算器下载
  • 装修费用摊销的会计分录怎么写
  • 显示应退税额就是能退是吗
  • 广告制作需要交文化事业建设税
  • 在网上订机票怎么订
  • 小规模纳税人差额纳税申报表
  • 小规模纳税人季报网上申报流程
  • 没有发票的费用可以税前扣除吗
  • 工程完工结算报告范本
  • win7系统双击不能打开我的电脑
  • vista安装图解
  • 在windows的命令提示符下,命令名在实际输入时规定
  • ubuntu20.04 vim
  • xp系统win键没反应
  • windows8网页版
  • 物联网版块股票
  • windows图标变化
  • dos怎么上网
  • javascript解码与编码
  • threejs入门教程
  • jquery插件库怎么导入
  • 开源安卓app
  • 出租车发票真伪怎么查询
  • 龙华区有几个地方
  • 残疾人拿药能报销吗?
  • 四川税务法人实名采集
  • 政府对国税局的支持
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设