null - 程序员宅基地

Spark SQL简介-程序员宅基地

技术标签： python Spark

Spark SQL简介

一、从Shark说起

1、在这之前我们要先理解Hive的工作原理：
在这里插入图片描述

Hive是一个基于Hadoop的数据仓库工具，提供了类似于关系数据库SQL的查询语言——HiveSQL，用户可以通过HiveSQL语句快速实现简单的MapReduce统计，Hive自身可以自动将HiveSQL语句快速转换成MapReduce任务进行运行。

2、Shark提供了类似于Hive的功能，与Hive不同的是，Shark把SQL语句转换成Spark作业，而不是MapReduce作业。

可以近似地认为：Shark仅将物理执行计划从MapReduce作业替换成了Spark作业，也就是通过Hive的HiveSQL解析功能，把HiveSQL翻译成Spark上的RDD操作。

在这里插入图片描述

Shark的设计导致了两个问题：
一、是执行计划优化完全依赖于Hive，不方便添加新的优化策略。

二、是因为Spark是线程级并行，而MapReduce是进程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使用另外一套独立维护的打了补丁的Hive源码分支。

3、Spark SQL架构如下：

在这里插入图片描述

Spark SQL在Hive兼容层面仅依赖HiveQL解析、Hive元数据，也就是说，从HQL被解析成抽象语法树（AST）起，就全部由Spark SQL接管了。Spark SQL执行计划生成和优化都由Catalyst（函数式关系查询优化框架）负责。

Spark SQL增加了DataFrame（即带有Schema信息的RDD），使用户可以在Spark SQL中执行SQL语句，数据既可以来自RDD，也可以是Hive、HDFS、Cassandra等外部数据源，还可以是JSON格式的数据。
Spark SQL目前支持Scala、Java、Python三种语言，支持SQL-92规范。

二、DataFrame概述

1、DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能。
Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询。

RDD是分布式的 Java对象的集合，但是，对象内部结构对于RDD而言却是不可知的。
DataFrame是一种以RDD为基础的分布式数据集，提供了详细的结构信息。
在这里插入图片描述
从Spark2.0以上版本开始，Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能。

SparkSession支持从不同的数据源加载数据，并把数据转换DataFrame，并且支持把DataFrame转换成SQLContext自身中的表，然后使用SQL语句来操作数据。SparkSession亦提供了HiveQL以及其他依赖于Hive的功能的支持。

在编写独立应用程序时，可以通过如下语句创建一个SparkSession对象

from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()

实际上，在启动进入pyspark以后，pyspark就默认提供了一个SparkContext对象（名称为sc）和一个SparkSession对象（名称为spark）

在这里插入图片描述

2、从不同类型的文件中加载数据创建DataFrame

#从不同类型的文件中加载数据创建DataFrame
df1 = spark.read.text("file:///home/hadoop/program1/people.txt")
df1.show()
df2 = spark.read.json("file:///home/hadoop/program1/people.json")
df2.show()
df1_1 = spark.read.format("text").load("file:///home/hadoop/program1/people.txt")
df1_1.show()
df2_1 = spark.read.format("json").load("file:///home/hadoop/program1/people.json")
df2_1.show()

结果：

在这里插入图片描述
3、DataFrame的保存

#DataFrame的保存
#例：把上面名称为df1的文件保存到不同格式文件中
df1.write.text("df1.txt")
df1.write.json("df1.json")
df1.write.format("text").save("df1.txt")
df1.write.format("json").save("df1.json")
df2.select("name","age").write.format("json").save("file:///home/hadoop/program1/df2.json") #选取指定的列保存

另一种存储方式Parquet。详细见下面链接。

很详细的Parquet存储讲解

当把该数据保存到一个文本文件中会新生成一个名称为df1.json的目录（不是文件）和一个名称df1.txt的目录（不是文件）

如果再次读取json或text文件生成DataFrame，可以直接用这个目录名称，不需要使用part-00000-093d3250-a36a-4ca4-affc-5144b2a2759a-c000.txt文件（当然，使用这个文件也可以）。
在这里插入图片描述

三、DataFrame的常用操作

printSchema()

打印出DataFrame的模式（Schema）信息。

在这里插入图片描述

select()

从DataFrame中选取部分列的数据。

在这里插入图片描述

filter()

实现条件查询，找到满足条件要求的记录。

在这里插入图片描述

groupBy()

用于对记录进行分组。

在这里插入图片描述

sort()

用于对记录进行排序。

在这里插入图片描述

四、从RDD转换得到DataFrame

Spark提供了如下两种方法实现从RDD转换得到DataFrame

1.利用反射机制推断RDD模式

利用反射机制来推断包含特定类型对象的RDD的模式（Schema），适用于数据结构已知时的RDD转换。

例：现在要把people.txt加载到内存中生成一个DataFrame，并查询其中的数据：

from pyspark.sql import Row
people = sc.textFile("file:///home/hadoop/program1/people.txt")      #生成RDD文件
people1 = people.map(lambda x:x.split(" ")).map(lambda x:Row(name=x[0],age=x[1]))   #得到新的RDD，每个元素都是Row对象
schemaPeople = spark.createDataFrame(people1)         #转换成DataFrame
schemaPeople.createOrReplaceTempView("people")      #注册为临时表,临时表名字为people
personsDF = spark.sql("select name,age from people where age>20")  #SQL语句查询
personsRDD = personsDF.rdd.map(lambda x:"Name: "+x.name+","+"Age "+x.age)   #格式化输出
personsRDD.collect()

结果：

['Name: Michael,Age 40', 'Name: Andy,Age 30']

2.使用编程方式定义RDD模式

使用编程接口构造一个模式（Schema），并将其应用在已知的RDD上，适用于数据结构未知时的RDD转换。

在这里插入图片描述

from pyspark.sql.types import *
from pyspark.sql import Row
#下面生成“表头”
schemaString = "name age"
fields = [StructField(field_name, StringType(), True) for field_name in schemaString.split(" ")]
schema = StructType(fields)
#下面生成“表中的记录”
lines = sc.textFile("file:///home/hadoop/program1/people.txt")
parts = lines.map(lambda x: x.split(" "))
people = parts.map(lambda x: Row(x[0], x[1].strip()))
#下面把“表头”和“表中的记录”拼装在一起
schemaPeople = spark.createDataFrame(people, schema)
schemaPeople.createOrReplaceTempView("people")
results = spark.sql("select name,age from people")
results.show()

结果

+-------+---+
|   name|age|
+-------+---+
|Michael| 40|
|   Andy| 30|
| Justin| 19|
+-------+---+

本文链接：https://blog.csdn.net/m0_46917254/article/details/123959257

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

oracle 12c 集群安装后的检查_12c查看crs状态-程序员宅基地

文章浏览阅读1.6k次。安装配置gi、安装数据库软件、dbca建库见下：http://blog.csdn.net/kadwf123/article/details/784299611、检查集群节点及状态：[root@rac2 ~]# olsnodes -srac1 Activerac2 Activerac3 Activerac4 Active[root@rac2 ~]_12c查看crs状态

解决jupyter notebook无法找到虚拟环境的问题_jupyter没有pytorch环境-程序员宅基地

文章浏览阅读1.3w次，点赞45次，收藏99次。我个人用的是anaconda3的一个python集成环境，自带jupyter notebook，但在我打开jupyter notebook界面后，却找不到对应的虚拟环境，原来是jupyter notebook只是通用于下载anaconda时自带的环境，其他环境要想使用必须手动下载一些库：1.首先进入到自己创建的虚拟环境(pytorch是虚拟环境的名字)activate pytorch2.在该环境下下载这个库conda install ipykernelconda install nb__jupyter没有pytorch环境

国内安装scoop的保姆教程_scoop-cn-程序员宅基地

文章浏览阅读5.2k次，点赞19次，收藏28次。选择scoop纯属意外，也是无奈，因为电脑用户被锁了管理员权限，所有exe安装程序都无法安装，只可以用绿色软件，最后被我发现scoop，省去了到处下载XXX绿色版的烦恼，当然scoop里需要管理员权限的软件也跟我无缘了（譬如everything）。推荐添加dorado这个bucket镜像，里面很多中文软件，但是部分国外的软件下载地址在github，可能无法下载。以上两个是官方bucket的国内镜像，所有软件建议优先从这里下载。上面可以看到很多bucket以及软件数。如果官网登陆不了可以试一下以下方式。_scoop-cn

Element ui colorpicker在Vue中的使用_vue el-color-picker-程序员宅基地

文章浏览阅读4.5k次，点赞2次，收藏3次。首先要有一个color-picker组件 <el-color-picker v-model="headcolor"></el-color-picker>在data里面data() { return {headcolor: ’ #278add ’ //这里可以选择一个默认的颜色} }然后在你想要改变颜色的地方用v-bind绑定就好了，例如：这里的:sty..._vue el-color-picker

迅为iTOP-4412精英版之烧写内核移植后的镜像_exynos 4412 刷机-程序员宅基地

文章浏览阅读640次。基于芯片日益增长的问题，所以内核开发者们引入了新的方法，就是在内核中只保留函数，而数据则不包含，由用户（应用程序员）自己把数据按照规定的格式编写，并放在约定的地方，为了不占用过多的内存，还要求数据以根精简的方式编写。boot启动时，传参给内核，告诉内核设备树文件和kernel的位置，内核启动时根据地址去找到设备树文件，再利用专用的编译器去反编译dtb文件，将dtb还原成数据结构，以供驱动的函数去调用。firmware是三星的一个固件的设备信息，因为找不到固件，所以内核启动不成功。_exynos 4412 刷机

Linux系统配置jdk_linux配置jdk-程序员宅基地

文章浏览阅读2w次，点赞24次，收藏42次。Linux系统配置jdkLinux学习教程，Linux入门教程（超详细）_linux配置jdk

随便推点

matlab(4)：特殊符号的输入_matlab微米怎么输入-程序员宅基地

文章浏览阅读3.3k次，点赞5次，收藏19次。xlabel('\delta');ylabel('AUC');具体符号的对照表参照下图：_matlab微米怎么输入

C语言程序设计-文件(打开与关闭、顺序、二进制读写)-程序员宅基地

文章浏览阅读119次。顺序读写指的是按照文件中数据的顺序进行读取或写入。对于文本文件，可以使用fgets、fputs、fscanf、fprintf等函数进行顺序读写。在C语言中，对文件的操作通常涉及文件的打开、读写以及关闭。文件的打开使用fopen函数，而关闭则使用fclose函数。在C语言中，可以使用fread和fwrite函数进行二进制读写。‍ Biaoge 于2024-03-09 23:51发布阅读量：7 ️文章类型：【 C语言程序设计】在C语言中，用于打开文件的函数是____，用于关闭文件的函数是____。

Touchdesigner自学笔记之三_touchdesigner怎么让一个模型跟着鼠标移动-程序员宅基地

文章浏览阅读3.4k次，点赞2次，收藏13次。跟随鼠标移动的粒子以grid（SOP）为partical（SOP）的资源模板，调整后连接【Geo组合+point spirit（MAT)】，在连接【feedback组合】适当调整。影响粒子动态的节点【metaball(SOP)+force(SOP)】添加mouse in（CHOP)鼠标位置到metaball的坐标，实现鼠标影响。..._touchdesigner怎么让一个模型跟着鼠标移动

【附源码】基于java的校园停车场管理系统的设计与实现61m0e9计算机毕设SSM_基于java技术的停车场管理系统实现与设计-程序员宅基地

文章浏览阅读178次。项目运行环境配置：Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX（Webstorm也行）+ Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：Springboot + mybatis + Maven +mysql5.7或8.0+html+css+js等等组成，B/S模式 + Maven管理等等。环境需要1.运行环境：最好是java jdk 1.8，我们在这个平台上运行的。其他版本理论上也可以。_基于java技术的停车场管理系统实现与设计

Android系统播放器MediaPlayer源码分析_android多媒体播放源码分析时序图-程序员宅基地

文章浏览阅读3.5k次。前言对于MediaPlayer播放器的源码分析内容相对来说比较多，会从Java-&amp;gt;Jni-&amp;gt;C/C++慢慢分析，后面会慢慢更新。另外，博客只作为自己学习记录的一种方式，对于其他的不过多的评论。MediaPlayerDemopublic class MainActivity extends AppCompatActivity implements SurfaceHolder.Cal..._android多媒体播放源码分析时序图

java 数据结构与算法 ——快速排序法-程序员宅基地

文章浏览阅读2.4k次，点赞41次，收藏13次。java 数据结构与算法 ——快速排序法_快速排序法

Spark SQL简介-程序员宅基地

Spark SQL简介

一、从Shark说起

二、DataFrame概述

三、DataFrame的常用操作

四、从RDD转换得到DataFrame

智能推荐

oracle 12c 集群安装后的检查_12c查看crs状态-程序员宅基地

解决jupyter notebook无法找到虚拟环境的问题_jupyter没有pytorch环境-程序员宅基地

国内安装scoop的保姆教程_scoop-cn-程序员宅基地

Element ui colorpicker在Vue中的使用_vue el-color-picker-程序员宅基地

迅为iTOP-4412精英版之烧写内核移植后的镜像_exynos 4412 刷机-程序员宅基地

Linux系统配置jdk_linux配置jdk-程序员宅基地

随便推点

matlab(4)：特殊符号的输入_matlab微米怎么输入-程序员宅基地

C语言程序设计-文件(打开与关闭、顺序、二进制读写)-程序员宅基地

Touchdesigner自学笔记之三_touchdesigner怎么让一个模型跟着鼠标移动-程序员宅基地

【附源码】基于java的校园停车场管理系统的设计与实现61m0e9计算机毕设SSM_基于java技术的停车场管理系统实现与设计-程序员宅基地

Android系统播放器MediaPlayer源码分析_android多媒体播放源码分析时序图-程序员宅基地

java 数据结构与算法 ——快速排序法-程序员宅基地

推荐文章

热门文章

相关标签