位置: 编程技术 - 正文

Spark SQL数据加载和保存实例讲解(spark sql add jar)

编辑:rootadmin

推荐整理分享Spark SQL数据加载和保存实例讲解(spark sql add jar),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:spark-sql -d,spark sql oom,spark.sql,spark sql -e,spark.sql,spark sql in,spark.sql,spark.sql,内容如对您有帮助,希望把文章链接给更多的朋友!

一、前置知识详解 Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。

二、Spark SQL读写数据代码实战

读取过程源码分析如下: 1. read方法返回DataFrameReader,用于读取数据。

2. 然后再调用DataFrameReader类中的format,指出读取文件的格式。

3. 通过DtaFrameReader中load方法通过路径把传入过来的输入变成DataFrame。

至此,数据的读取工作就完成了,下面就对DataFrame进行操作。 下面就是写操作!!!

1. 调用DataFrame中select函数进行对列筛选

2. 然后通过write将结果写入到外部存储系统中。

3. 在保持文件的时候mode指定追加文件的方式

4. 最后,save()方法触发action,将文件输出到指定文件中。

三、Spark SQL读写整个流程图如下

四、对于流程中部分函数源码详解

DataFrameReader.Load()

1. Load()返回DataFrame类型的数据集合,使用的数据是从默认的路径读取。

Spark SQL数据加载和保存实例讲解(spark sql add jar)

2. 追踪load源码进去,源码如下:在DataFrameReader中的方法。Load()通过路径把输入传进来变成一个DataFrame。

3. 追踪load源码如下:

DataFrameReader.format()

1. Format:具体指定文件格式,这就获得一个巨大的启示是:如果是Json文件格式可以保持为Parquet等此类操作。 Spark SQL在读取文件的时候可以指定读取文件的类型。例如,Json,Parquet.

DataFrame.write()

1. 创建DataFrameWriter实例

2. 追踪DataFrameWriter源码如下:以DataFrame的方式向外部存储系统中写入数据。

DataFrameWriter.mode()

1. Overwrite是覆盖,之前写的数据全都被覆盖了。 Append:是追加,对于普通文件是在一个文件中进行追加,但是对于parquet格式的文件则创建新的文件进行追加。

2. 通过模式匹配接收外部参数

DataFrameWriter.save()

1. save将结果保存传入的路径。

2. 追踪save方法。

3. 其中source是SQLConf的defaultDataSourceNameprivate var source: String = df.sqlContext.conf.defaultDataSourceName其中DEFAULT_DATA_SOURCE_NAME默认参数是parquet。

DataFrame.scala中部分函数详解:

1. toDF函数是将RDD转换成DataFrame

2. show()方法:将结果显示出来

追踪showString源码如下:showString中触发action收集数据。

标签: spark sql add jar

本文链接地址:https://www.jiuchutong.com/biancheng/318975.html 转载请保留说明!

上一篇:如何验证会员系统中用户的邮箱是否真实存在(验证vip)

下一篇:SqlServer高版本数据备份还原到低版本(sqlserver高版本数据库文件转低版本)

  • 可以抵扣的进项税额是什么意思
  • 铜川缴纳房屋契税怎么算
  • 确认了收入但是没收入
  • 公积金个人缴纳多少
  • 高新技术企业三级领域
  • 注册资本印花税按年申报还是按次申报
  • 发票丢失了可以报销吗
  • 计提个人部分保险
  • 两免三减半的概率是多少
  • 拆迁补偿费会计分录怎么写
  • 同一张记账凭证可以出现多笔分录吗
  • 仪器检测费发票哪一类
  • 学校捐赠收入需上交吗
  • 企业购进货物暂估入库的会计分录如何处理?
  • 服务类收入
  • 收到赞助费如何做分录
  • 详细解读财税[2014]75号文件
  • 吊装费用税率
  • 交强险是不是只要有发票就可以报销
  • 组合销售带来的收益
  • 增值税有留底怎么申请退税
  • 对公账户发工资的利弊
  • 用于研发的设备如何折旧
  • 试用产品无法收集
  • 孕妇能吃桂圆吗有什么好处
  • 现在我们来看看windows中的新增内容
  • 如何配置无线路由器参数
  • 成本核算的基本程序是什么
  • 递延所得税资产是什么意思
  • 债券转换为普通债权
  • 工程结算和决算一样吗
  • 被公司辞退有钱吗
  • 支出的科目有哪些
  • 如何批量清理桌面
  • php网站实例
  • vue组件继承element并重写方法
  • 买保安服装
  • vue3使用教程
  • chk命令
  • 微擎框架破解版v2.7.7
  • 事业收入如何确认
  • 债券发行费用包括
  • 二季度报表是累计数吗
  • 融资租赁利息一般多少
  • 公司购入车辆的增值税怎么算
  • 购进废旧物资进项税额
  • db2自增函数
  • 交易性金融资产属于流动资产
  • 基本账户的定义
  • 借款利息收入开发票
  • 行政事业单位的营业执照叫什么
  • 固定资产为什么要提减值准备
  • 土地储备委员会职责
  • 公司注册实收资本
  • 建筑服务的税率是
  • 企业中征码怎么查询
  • 如何判断会计政策变更
  • 暂估成本的两种形式
  • 做假账本怎么判
  • 企业为什么要设置仓库
  • mysql怎么取消密码
  • win7系统旗舰版和纯净版的区别
  • linux安装iso软件
  • vc运行程序exe停止工作
  • win10警告
  • win10进入安全模式后怎么恢复正常模式启动电脑
  • PHP time_nanosleep() 函数使用介绍
  • 苹果mac系统怎么更新
  • iphone服务器
  • css选择器类选择器
  • jqurey+Jscex打造游戏力度条
  • javascript中的107个基础知识收集整理 推荐
  • javascript给表单赋值
  • python 隐函数作图
  • javascript的对象
  • 江西省发票查询系统
  • 代发工资法律依据
  • 工会经费范围税率是多少
  • 安徽省税务局发票真伪查询平台
  • 逾期未申报扣几分
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设