位置: 编程技术 - 正文

Spark SQL数据加载和保存实例讲解(spark sql add jar)

编辑:rootadmin

推荐整理分享Spark SQL数据加载和保存实例讲解(spark sql add jar),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:spark-sql -d,spark sql oom,spark.sql,spark sql -e,spark.sql,spark sql in,spark.sql,spark.sql,内容如对您有帮助,希望把文章链接给更多的朋友!

一、前置知识详解 Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。

二、Spark SQL读写数据代码实战

读取过程源码分析如下: 1. read方法返回DataFrameReader,用于读取数据。

2. 然后再调用DataFrameReader类中的format,指出读取文件的格式。

3. 通过DtaFrameReader中load方法通过路径把传入过来的输入变成DataFrame。

至此,数据的读取工作就完成了,下面就对DataFrame进行操作。 下面就是写操作!!!

1. 调用DataFrame中select函数进行对列筛选

2. 然后通过write将结果写入到外部存储系统中。

3. 在保持文件的时候mode指定追加文件的方式

4. 最后,save()方法触发action,将文件输出到指定文件中。

三、Spark SQL读写整个流程图如下

四、对于流程中部分函数源码详解

DataFrameReader.Load()

1. Load()返回DataFrame类型的数据集合,使用的数据是从默认的路径读取。

Spark SQL数据加载和保存实例讲解(spark sql add jar)

2. 追踪load源码进去,源码如下:在DataFrameReader中的方法。Load()通过路径把输入传进来变成一个DataFrame。

3. 追踪load源码如下:

DataFrameReader.format()

1. Format:具体指定文件格式,这就获得一个巨大的启示是:如果是Json文件格式可以保持为Parquet等此类操作。 Spark SQL在读取文件的时候可以指定读取文件的类型。例如,Json,Parquet.

DataFrame.write()

1. 创建DataFrameWriter实例

2. 追踪DataFrameWriter源码如下:以DataFrame的方式向外部存储系统中写入数据。

DataFrameWriter.mode()

1. Overwrite是覆盖,之前写的数据全都被覆盖了。 Append:是追加,对于普通文件是在一个文件中进行追加,但是对于parquet格式的文件则创建新的文件进行追加。

2. 通过模式匹配接收外部参数

DataFrameWriter.save()

1. save将结果保存传入的路径。

2. 追踪save方法。

3. 其中source是SQLConf的defaultDataSourceNameprivate var source: String = df.sqlContext.conf.defaultDataSourceName其中DEFAULT_DATA_SOURCE_NAME默认参数是parquet。

DataFrame.scala中部分函数详解:

1. toDF函数是将RDD转换成DataFrame

2. show()方法:将结果显示出来

追踪showString源码如下:showString中触发action收集数据。

标签: spark sql add jar

本文链接地址:https://www.jiuchutong.com/biancheng/318975.html 转载请保留说明!

上一篇:如何验证会员系统中用户的邮箱是否真实存在(验证vip)

下一篇:SqlServer高版本数据备份还原到低版本(sqlserver高版本数据库文件转低版本)

  • 利润是非限定净现值吗
  • 交易性金融资产和其他权益工具投资的区别
  • 水果店个体户怎么交税 广州
  • 成本税率计算公式
  • 进项税额转出怎么结平
  • 费用类科目分类怎么避免出错
  • 买车的报税联是什么作用
  • 公司变更地址要股东签字吗
  • 收到房租费发票如何做账
  • 应收账款和应付账款对冲会计分录
  • 支票撕碎了怎么办
  • 职工出差餐费计入什么科目
  • 汇算清缴跨年发票
  • 收到抵物广告费的会计处理怎么做?
  • 出租包装物没收押金
  • 申报专项资金项目是什么
  • 税号里面字母是大写吗
  • 折价退回的会计处理
  • 普通合伙企业分配利润
  • 企业收到进项发票
  • 直接快递到国外的货物如何收汇?
  • 公司没成本票怎么暂估
  • 收回股东投资
  • 企业从境外收回所得税
  • 销售回款率的具体指标
  • 营业外支出的税额要进项转出吗
  • win11插耳机没声音
  • 工会经费如何计提会计分录
  • php字符串函数大全
  • 华为鸿蒙系统支持苹果手表吗
  • linux系统网络日志
  • 如何解决焦虑
  • 优胜美地国家公园简介
  • thinkphp隐藏index.php
  • 资产减值损失和存货跌价准备有什么区别
  • 投资收益属于营业成本吗
  • easyposer怎么导出
  • 生产加工型企业需要办理哪些
  • 个体户办营业执照网上怎么申请
  • 业务招待费可以开专票抵扣吗
  • 临时设施账务处理分录
  • 红字发票开错可以重开吗
  • phpcms专题页面模板
  • 百度地图api3.0
  • 无偿提供建筑服务缴纳增值税
  • 一税两费减免政策
  • 固定资产大修理和更新改造的区别
  • 年初未分配利润借方增加还是减少
  • 待抵扣进项税额是什么情况下用的
  • 三证合一办理流程及费用
  • 投资性房地产租金税率是多少
  • 银行收的账户管理费
  • 工伤保险交了就可以报销吗
  • 会计事务所给的发票
  • 企业收到政府补助金80 000元,存入银行
  • 提前还贷款计算机
  • 汽车费用包括哪些会计科目呢
  • sql语句的优化方式
  • linux系统bug
  • 怎么安装多个相同软件
  • win8系统停止服务
  • Percona Server 5.5.44-37.3/5.6.25-73.0 发布
  • 文件视图分为哪几种
  • unity3d跑酷游戏推荐
  • unity开发游戏教程
  • js基于什么语言
  • dos启动方式
  • js随机生成数
  • Linux修改tomcat默认端口号8080
  • 批处理注册reg文件
  • python简单加密
  • unity中canvas怎么调框大小
  • 防止shell命令注入
  • unity获取当前位置
  • js 拍照
  • dom操作的方法
  • 软件和集成电路企业税收优惠
  • 税务局纳税服务中心
  • 股权转让税务备案时间
  • 出口退税已提交数据撤回
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设