spark - 程序员宅基地

Spark on Yarn详解

标签： spark

Spark on Yarn详解 Spark 可以跑在很多集群上，比如跑在local上，跑在Standalone上，跑在Apache Mesos上，跑在Hadoop YARN上等等。不管你Spark跑在什么上面，它的代码都是一样的，区别只是–master的时候不一样。...

SparkCore、SparkSQL、SparkStreaming三者之间的区别和联系

标签： spark

【SparkCore、SparkSQL、SparkStreaming三者之间的区别和联系

Spark3.1.2单机安装部署

标签： spark 大数据 hadoop

spark3.1.2 单机安装部署概述 Spark是一个性能优异的集群计算框架，广泛应用于大数据领域。类似Hadoop，但对Hadoop做了优化，计算任务的中间结果可以存储在内存中，不需要每次都写入HDFS，更适用于需要迭代运算的...

Java-Spark系列1-spark概述

标签： spark big data Spark概述

大数据技术栈二.Spark概述2.1 MapReduce框架局限性2.2 Hadoop生态圈中的各种框架2.3 Spark2.3.1 Spark的优势2.3.2 Spark特点2.3.3 SPRAK 2 新特性一.大数据技术栈如下图，当前的一个大数据技术栈: 如上所示: ...

Spark -- 读取mysql的4种方式和各自的应用场景

标签： mysql spark 数据库

spark read mysql

spark环境配置

标签： spark 大数据

mv spark-2.1.2-bin-hadoop2.7 ./spark 解压到目标目录即完成安装， spark 解压后主要包含如下子目录： bin/ (工具程序目录) conf/ (配置文件目录) jars/ (scala Jar 包目录) python/ (python package 目录) ...

Spark大数据分析与实战笔记（第二章 Spark基础-03）

标签： spark 架构原理

然后，我们将通过实际的运行架构实例分析，来具体了解Spark在不同的集群模式下的运行架构和工作流程。Spark应用在集群.上运行时，包括了多个独立的进程,这些进程之间通过驱动程序(Driver Program)中的SparkContext...

漫谈大数据 - Spark on Hive & Hive on Spark

标签： sql hive spark

Spark on Hive & Hive on Spark你分清了吗

hive on spark 配置和 spark on hive

标签： spark hive

Hive on Spark：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。 Spark on Hive : Hive只作为存储元数据，Spark负责SQL解析优化，语法是SparkSQL语法，...

java-maven环境配置Unresolved dependency: ‘org.apache.spark:spark-tags_2.12:jar:3.4.0-SNAPSHOT

标签： java spark maven

java环境配置真是麻烦

Spark的操作实践

标签： spark big data scala

1.Spark基本知识总结 2.Spark的操作实践： 2.1 Spark的安装部署 2.2 Scala语言编程实践 2.3 基于Spark shell的WordCount实践 2.4 基于IDEA+Maven的Spark编程实践 2.5 pySpark实践 1. Spark基本知识的总结 Spark借鉴...

Spark-Shell操作

标签： spark 大数据 scala

Spark-Shell操作 spark-shell简述 spark-shell是REPL（Read-Eval-Print Loop，交互式解释器），它为我们提供了交互式执行环境，表达式计算完成以后就会立即输出结果，而不必等到整个程序运行完毕，因此可以及时...

spark读写clickhouse

标签： spark scala big data

spark读取clickhouse数据一：这种jdbc的连接加载的是全量表数据 val prop = new java.util.Properties prop.setProperty("user", "default") prop.setProperty("password", "123456") prop.setProperty("driver...

【hive on spark】hive on spark任务报错Connection to remote Spark driver was lost

标签： hive spark hadoop

hue执行不用引擎sql导致任务中断

Hadoop和Spark的对比

标签： spark hadoop big data

Hadoop和Spark都是并行计算，Hadoop一个作业称为一个Job，Job里面分为Map Task和Reduce Task阶段，每个Task都在自己的进程中运行，当Task结束时，进程也会随之结束；好处在于进程之间是互相独立的，每个task独享...

图解大数据 | 基于Spark RDD的大数据处理分析

标签： spark big data scala

RDD(弹性分布式数据集合)是Spark的基本数据结构，Spark中的所有数据都是通过RDD的形式进行组织。本文讲解RDD的属性、创建方式、广播与累加器等重要知识点，并图解RDD高频算子。

Spark详解（一、Spark概述）

标签： spark scala big data

Spark是一种基于内存的快速的、通用、可拓展的大数据分析计算引擎。一、Spark与MapReduce Hadoop框架中的MapReduce计算引擎，也是一种大数据分析计算引擎。那既然已经又来MR那我们为何还要开发Spark计算模型呢？...

【Spark学习】Spark思维导图（超详细！）

标签： spark

花了将近一个月时间学习了Spark，为了总结所学知识，我用ProcessOn绘制了几张Spark思维导图这里是Spark思维导图地址 Spark思维导图地址注意：需要有ProcessOn账号才能查看 1.Spark 入门 2.Spark Core 3.Spark ...

spark 参数配置及内存模型

标签： spark 大数据 hadoop

1spark 提交主要参数 1.1 num-executors 此数量代表 spark的executors数量，所有的task在executor中运行。 1.2 executor-cores 此数值代表每个 executor中可以并行运行的task数。一般一个任务使用1核，此值...

Spark提交任务

标签： spark scala java

Spark_Submit脚本参数 Spark-submit脚本提交任务时最简易的命令格式如下： ./bin/spark-submit \ --master spark://localhost:7077 \ 任务包任务参数而实际开发中用的一般是如下的格式 ./bin/spark-submit \ --...

Spark、Hive、Hbase比较

标签： hive spark hbase

1.spark spark是一个数据分析、计算引擎，本身不负责存储；可以对接多种数据源，包括：结构化、半结构化、非结构化的数据；其分析处理数据的方式有多种发，包括：sql、Java、Scala、python、R等；其中spark-sql...

如何处理Spark数据倾斜

标签：数据倾斜

一、什么是数据倾斜在分布式集群计算中，数据计算时候数据在各个节点分布不均衡，某一个或几个节点集中80%数据，而其它节点集中20%甚至更少数据，出现了数据计算负载不均衡的现象。数据倾斜在MR编程模型中是十分...

Spark-SQL连接Hive 的五种方法

标签： hive spark sql

因为 Spark Thrift Server 的接口和协议都和 HiveServer2 完全一致，因此我们部署好 Spark Thrift Server 后，可以直接使用 hive 的 beeline 访问 Spark Thrift Server 执行相关语句。3.运行bin/目录下的spark-sql....

pycharm连接spark

标签： python 大数据 pycharm

pychrm连接spark

Spark 指定分区数、文件并行读写、Spark IO读写常用处理方法

标签： spark 合并分区 spark写入写出 spark合并小文件

1、配置spark.sql.shuffle.partitions，适用场景spark.sql()合并分区 spark.conf.set("spark.sql.shuffle.partitions", 5) #后面的数字是你希望的分区数这样配置后，通过spark.sql()执行后写出的数据分区数就是...