位置: 编程技术 - 正文

Spark SQL数据加载和保存实例讲解(spark sql add jar)

编辑:rootadmin

推荐整理分享Spark SQL数据加载和保存实例讲解(spark sql add jar),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:spark-sql -d,spark sql oom,spark.sql,spark sql -e,spark.sql,spark sql in,spark.sql,spark.sql,内容如对您有帮助,希望把文章链接给更多的朋友!

一、前置知识详解 Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。

二、Spark SQL读写数据代码实战

读取过程源码分析如下: 1. read方法返回DataFrameReader,用于读取数据。

2. 然后再调用DataFrameReader类中的format,指出读取文件的格式。

3. 通过DtaFrameReader中load方法通过路径把传入过来的输入变成DataFrame。

至此,数据的读取工作就完成了,下面就对DataFrame进行操作。 下面就是写操作!!!

1. 调用DataFrame中select函数进行对列筛选

2. 然后通过write将结果写入到外部存储系统中。

3. 在保持文件的时候mode指定追加文件的方式

4. 最后,save()方法触发action,将文件输出到指定文件中。

三、Spark SQL读写整个流程图如下

四、对于流程中部分函数源码详解

DataFrameReader.Load()

1. Load()返回DataFrame类型的数据集合,使用的数据是从默认的路径读取。

Spark SQL数据加载和保存实例讲解(spark sql add jar)

2. 追踪load源码进去,源码如下:在DataFrameReader中的方法。Load()通过路径把输入传进来变成一个DataFrame。

3. 追踪load源码如下:

DataFrameReader.format()

1. Format:具体指定文件格式,这就获得一个巨大的启示是:如果是Json文件格式可以保持为Parquet等此类操作。 Spark SQL在读取文件的时候可以指定读取文件的类型。例如,Json,Parquet.

DataFrame.write()

1. 创建DataFrameWriter实例

2. 追踪DataFrameWriter源码如下:以DataFrame的方式向外部存储系统中写入数据。

DataFrameWriter.mode()

1. Overwrite是覆盖,之前写的数据全都被覆盖了。 Append:是追加,对于普通文件是在一个文件中进行追加,但是对于parquet格式的文件则创建新的文件进行追加。

2. 通过模式匹配接收外部参数

DataFrameWriter.save()

1. save将结果保存传入的路径。

2. 追踪save方法。

3. 其中source是SQLConf的defaultDataSourceNameprivate var source: String = df.sqlContext.conf.defaultDataSourceName其中DEFAULT_DATA_SOURCE_NAME默认参数是parquet。

DataFrame.scala中部分函数详解:

1. toDF函数是将RDD转换成DataFrame

2. show()方法:将结果显示出来

追踪showString源码如下:showString中触发action收集数据。

标签: spark sql add jar

本文链接地址:https://www.jiuchutong.com/biancheng/318975.html 转载请保留说明!

上一篇:如何验证会员系统中用户的邮箱是否真实存在(验证vip)

下一篇:SqlServer高版本数据备份还原到低版本(sqlserver高版本数据库文件转低版本)

  • 简易计税方法是什么意思
  • 个税手续费返还比例
  • 报废固定资产产生的净损益属于利得吗
  • 开具了红字发票信息表的税额需要转出吗
  • 发生销售折让可以不开具
  • 建筑施工企业销售费用包括哪些
  • 一般纳税人应交增值税明细科目设置
  • 报销餐费有增值税吗
  • 企业购进货物暂估入库的会计分录如何处理?
  • 实收资本未完全到账,需要缴纳印花税吗
  • 公司外部人员可以直接在公司报销吗
  • 哪些可用商业汇票结算?
  • 合同中止发票已入账怎么处理?
  • 失控进项发票转出 补税做账
  • 总公司在异地和分公司交社保
  • 培训机构开发票的税率是多少钱
  • 贸易公司收到货款会计分录
  • 购车保险属于什么费用
  • 公司装修期间物业怎么办
  • 计提坏账的应收账款收回
  • 企业所得税汇算表
  • 房屋出租收入是多少
  • 王者荣耀中白起的台词
  • 企业原材料成本有哪些
  • 跨行汇入会计分录
  • PHP中set error handler函数用法小结
  • 应纳消费税包不包括代收代缴
  • 公司购买写字楼怎么入账
  • 税务申报逾期罚款不交
  • php的运算符主要包括哪些?
  • 应付帐款借方余额怎么算
  • php语言设计模式之单例模式
  • javascript怎么用
  • typescriptlang
  • 起征点适用于
  • sync命令是什么意思
  • 逾期未退押金是否确认收入
  • 交所得税会计分录例题
  • 如何简单去除
  • 如何更改电子税务局办税人员
  • 增值税专用发票和普通发票的区别
  • 固定资产停止使用还要折旧吗
  • 发票项目要求
  • 税票和发票的区别图片
  • 开一般户需要开户许可证吗
  • 数据库双亲结点
  • 建账盘存库存商品的分录
  • 金蝶结转销售成本
  • 外商投资的企业有哪些
  • 应收账款逾期什么意思
  • 税法规定的增值税是指
  • 原材料报废卖掉会计分录
  • 退休返聘人员工伤怎么赔偿
  • 增值税普通发票查询真伪
  • 备用金超过时间会怎么样
  • 购买办公楼分期合同
  • 长期挂账的其他应付款税务风险
  • 预付房租收到发票怎么写摘要
  • ubuntu一键重装
  • 最简单最快乐
  • 怎么u盘装系统win10
  • symsrv.dll 病毒专杀
  • 笔记本搜索功能用不了
  • win10如何动态桌面
  • windows10周年更新
  • win8自启动在哪儿设置
  • windows允许访问
  • jquery ajax异步提交表单数据的方法
  • 2015-04-04---CCAction详解(欠了大家好几天了)
  • unity接入安卓sdk
  • Sublime Text + decoda 调试Quick-cocos2d-x 游戏
  • JavaScript中的math.pi
  • javascript代码规范
  • androidapk网站
  • 出租车发票真伪怎么查询
  • 江苏税务局开票在哪看的
  • 福建失业金领取几个月
  • 江西省税务局发票查询平台官网
  • 税务总局官网投诉
  • 纳税人就是负税人对还是错
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设