Spark SQL中StructField和StructType-程序员宅基地

技术标签: spark  Spark SQL  大数据  sql  

每一天都会进行更新,一起冲击未来

StructField和StructType

        StructType---定义数据框的结构

        StructType定义DataFrame的结构,是StructField对象的集合或者列表,通过printSchema可以打印出所谓的表字段名,StructType就是所有字段的集合。在创建dataframe的时候,将StructType作为字段的集合,按照顺序一一给各个字段。

        StructField--定义DataFrame列的元数据

        StructField来定义列名,列类型,可为空的列和元数据。

将StructField和StructType和DataFrame一起使用

        首先创建样例类

case class StructType(fields: Array[StructField])
 case class StructField(
 name: String, 
dataType: DataType, 
nullable: Boolean = true, 
metadata: Metadata = Metadata.empty)

        创建相关的数据以及字段名

//创建数据集合
val simpleData = Seq(
Row("James ","","Smith","36636","M",3000), 
Row("Michael ","Rose","","40288","M",4000), 
Row("Robert ","","Williams","42114","M",4000), 
Row("Maria ","Anne","Jones","39192","F",4000), 
Row("Jen","Mary","Brown","","F",-1) ) 
//创建StructType对象,里面是Array[StructField]类型
val simpleSchema = StructType(Array(
 StructField("firstname",StringType,true), 
StructField("middlename",StringType,true), 
StructField("lastname",StringType,true), 
StructField("id", StringType, true), 
StructField("gender", StringType, true), 
StructField("salary", IntegerType, true) )) 
//创建dataFrame
val df = spark.createDataFrame( 
spark.sparkContext.parallelize(simpleData),simpleSchema)
//打印Schema
 df.printSchema() 

        代码很简答,需要一个数据集合,创建一个StructType对象,里面包含StructField对象。

        前面说过,StructField对象里面包含的是列名以及各种信息。

        创建DataFrame。此时,元数据就是simpleData,所谓的Schema就是simpleSchema。

        看一下各个字段以及“表结构”

 

        其实上面的案例也比较有一些麻烦,下面来看一下另外一种方法,不用创建样例类

通过StructType.add进行操作

        通过StructType.add进行操作,意味着我们不用再去创建StructField对象,通过add方法,只需要写入字段名称和字段方法就可以完成这个操作。

//创建上下文环境 SparkSql环境
val sparkSQL = new SparkConf().setMaster("local[*]").setAppName("SparkSQL") 
val sparkSession = SparkSession.builder().config(sparkSQL).getOrCreate() 
import sparkSession.implicits._ 
//数据集合 
val simpData = Seq(Row("James", "", "Smith", "36636", "M", 3000), 
Row("Michael", "Rose", "", "40288", "M", 4000),
 Row("Robert", "", "Williams", "42114", "M", 4000), 
Row("Maria", "Anne", "Jones", "39121", "F", 4000), 
Row("Jen", "Mary", "Brown", "", "F", -1))
 //创建StructType对象,将字段进行累加 
val structType = new StructType()
.add("firstname", StringType) 
.add("middlename", StringType) 
.add("lastname", StringType) 
.add("id", StringType) 
.add("gender", StringType) 
.add("salary", StringType)
 //创建DataFrame
 val dataFrame = sparkSession.createDataFrame(
sparkSession.sparkContext.parallelize(simpData), structType) 
dataFrame.printSchema() 
sparkSession.close()

        同样也是需要数据集合以及StructType对象。不过这种操作更加的简便,重要的是不会报错,用最上面的方法创建样例类可能会报错,需要导入不同的包。

使用StructType进行嵌套字段

//创建Spark SQL环境
val sparkSQL = new SparkConf().setMaster("local[*]").setAppName("SparkSQL") 
val sparkSession = SparkSession.builder().config(sparkSQL).getOrCreate() 
import sparkSession.implicits._ 
//创建数据集,其中最里面的Row对象就是嵌套对象
val structData = Seq( Row(Row("James ", "", "Smith"), "36636", "M", 3100),
 Row(Row("Michael ", "Rose", ""), "40288", "M", 4300), 
Row(Row("Robert ", "", "Williams"), "42114", "M", 1400), 
Row(Row("Maria ", "Anne", "Jones"), "39192", "F", 5500),
 Row(Row("Jen", "Mary", "Brown"), "", "F", -1)) 
//通过StructType的add方法进行添加字段
val structType = new StructType()
.add("name",new StructType() 
.add("firstname",StringType) 
.add("middlename",StringType) 
.add("lastname",StringType)) 
.add("id",StringType) 
.add("gender",StringType) 
.add("salary",StringType)
//创建dataframe 
val dataFrame = 
sparkSession.createDataFrame(
sparkSession.sparkContext.parallelize(structData), structType) 
//打印schema
dataFrame.printSchema() 
sparkSession.close()

        因为name字段进行了嵌套,因此在"name"字段后面的类型里面不再是StringType.而是一个嵌套类型 StructType,这个嵌套类型里面再继续进行add。在这里面嵌套了三个字段。

        可以看上面Schema。那么字段的类型是Struct结构。这个Struct结构里面嵌套了三个字段。

        其实上面写错了,纠正一下,最后一个字段应该是IntegerType类型

        如果写StringType类型,虽然打印Schema没有报错,但是进行select的时候就会报错。所以需要进行修改,在这里说明一下。

        dataFrame.select("name").show(false)

        看一下嵌套字段的name

 

         本来以为Spark SQL的知识只有一点点,没有想到的是Spark SQL里面的知识很多很多,不单单是SQL语言,虽然可以结合Hive或者Mysql写SQL,但是结构化数据使用本身的DSL+SQL更加的简单。

        SQL是重中之重,SQL能解决90%问题,剩下解决不了的问题就交给RDD把        


版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_46300771/article/details/123183728

智能推荐

hdu 1229 还是A+B(水)-程序员宅基地

文章浏览阅读122次。还是A+BTime Limit: 2000/1000 MS (Java/Others)Memory Limit: 65536/32768 K (Java/Others)Total Submission(s): 24568Accepted Submission(s): 11729Problem Description读入两个小于10000的正整数A和B,计算A+B。...

http客户端Feign——日志配置_feign 日志设置-程序员宅基地

文章浏览阅读419次。HEADERS:在BASIC的基础上,额外记录了请求和响应的头信息。FULL:记录所有请求和响应的明细,包括头信息、请求体、元数据。BASIC:仅记录请求的方法,URL以及响应状态码和执行时间。NONE:不记录任何日志信息,这是默认值。配置Feign日志有两种方式;方式二:java代码实现。注解中声明则代表某服务。方式一:配置文件方式。_feign 日志设置

[转载]将容器管理的持久性 Bean 用于面向服务的体系结构-程序员宅基地

文章浏览阅读155次。将容器管理的持久性 Bean 用于面向服务的体系结构本文将介绍如何使用 IBM WebSphere Process Server 对容器管理的持久性 (CMP) Bean的连接和持久性逻辑加以控制,使其可以存储在非关系数据库..._javax.ejb.objectnotfoundexception: no such entity!

基础java练习题(递归)_java 递归例题-程序员宅基地

文章浏览阅读1.5k次。基础java练习题一、递归实现跳台阶从第一级跳到第n级,有多少种跳法一次可跳一级,也可跳两级。还能跳三级import java.math.BigDecimal;import java.util.Scanner;public class Main{ public static void main(String[]args){ Scanner reader=new Scanner(System.in); while(reader.hasNext()){ _java 递归例题

面向对象程序设计(荣誉)实验一 String_对存储在string数组内的所有以字符‘a’开始并以字符‘e’结尾的单词做加密处理。-程序员宅基地

文章浏览阅读1.5k次,点赞6次,收藏6次。目录1.串应用- 计算一个串的最长的真前后缀题目描述输入输出样例输入样例输出题解2.字符串替换(string)题目描述输入输出样例输入样例输出题解3.可重叠子串 (Ver. I)题目描述输入输出样例输入样例输出题解4.字符串操作(string)题目描述输入输出样例输入样例输出题解1.串应用- 计算一个串的最长的真前后缀题目描述给定一个串,如ABCDAB,则ABCDAB的真前缀有:{ A, AB,ABC, ABCD, ABCDA }ABCDAB的真后缀有:{ B, AB,DAB, CDAB, BCDAB_对存储在string数组内的所有以字符‘a’开始并以字符‘e’结尾的单词做加密处理。

算法设计与问题求解/西安交通大学本科课程MOOC/C_算法设计与问题求解西安交通大学-程序员宅基地

文章浏览阅读68次。西安交通大学/算法设计与问题求解/树与二叉树/MOOC_算法设计与问题求解西安交通大学

随便推点

[Vue warn]: Computed property “totalPrice“ was assigned to but it has no setter._computed property "totalprice" was assigned to but-程序员宅基地

文章浏览阅读1.6k次。问题:在Vue项目中出现如下错误提示:[Vue warn]: Computed property "totalPrice" was assigned to but it has no setter. (found in <Anonymous>)代码:<input v-model="totalPrice"/>原因:v-model命令,因Vue 的双向数据绑定原理 , 会自动操作 totalPrice, 对其进行set 操作而 totalPrice 作为计..._computed property "totalprice" was assigned to but it has no setter.

basic1003-我要通过!13行搞定:也许是全网最奇葩解法_basic 1003 case 1-程序员宅基地

文章浏览阅读60次。十分暴力而简洁的解决方式:读取P和T的位置并自动生成唯一正确答案,将题给测点与之对比,不一样就给我爬!_basic 1003 case 1

服务器浏览war文件,详解将Web项目War包部署到Tomcat服务器基本步骤-程序员宅基地

文章浏览阅读422次。原标题:详解将Web项目War包部署到Tomcat服务器基本步骤详解将Web项目War包部署到Tomcat服务器基本步骤1 War包War包一般是在进行Web开发时,通常是一个网站Project下的所有源码的集合,里面包含前台HTML/CSS/JS的代码,也包含Java的代码。当开发人员在自己的开发机器上调试所有代码并通过后,为了交给测试人员测试和未来进行产品发布,都需要将开发人员的源码打包成Wa..._/opt/bosssoft/war/medical-web.war/web-inf/web.xml of module medical-web.war.

python组成三位无重复数字_python组合无重复三位数的实例-程序员宅基地

文章浏览阅读3k次,点赞3次,收藏13次。# -*- coding: utf-8 -*-# 简述:这里有四个数字,分别是:1、2、3、4#提问:能组成多少个互不相同且无重复数字的三位数?各是多少?def f(n):list=[]count=0for i in range(1,n+1):for j in range(1, n+1):for k in range(1, n+1):if i!=j and j!=k and i!=k:list.a..._python求从0到9任意组合成三位数数字不能重复并输出

ElementUl中的el-table怎样吧0和1改变为男和女_elementui table 性别-程序员宅基地

文章浏览阅读1k次,点赞3次,收藏2次。<el-table-column prop="studentSex" label="性别" :formatter="sex"></el-table-column>然后就在vue的methods中写方法就OK了methods: { sex(row,index){ if(row.studentSex == 1){ return '男'; }else{ return '女'; }..._elementui table 性别

java文件操作之移动文件到指定的目录_java中怎么将pro.txt移动到design_mode_code根目录下-程序员宅基地

文章浏览阅读1.1k次。java文件操作之移动文件到指定的目录_java中怎么将pro.txt移动到design_mode_code根目录下

推荐文章

热门文章

相关标签