spark

Spark入门（一篇就够了）

Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。尽管相对于而言具有较大优势，但并不能完全替代，主要用于替代中的计算模型。存储依然可以使用，但是中间结果可以存放在内存中；调度...

Spark入门教程（非常详细）从零基础入门到精通，看完这一篇就够了

标签： spark ajax javascript

Hive 是将 SQL 转为 MapReduce。SparkSQL 可以理解成是将 SQL 解析成：“RDD + 优化” 再执行在学习Spark SQL前，需要了解数据分类。

Spark环境搭建（保姆级教程）

标签： spark Spark环境搭建 pyspark环境配置

Spark 是一个大规模数据处理的统一分析引擎本文主要介绍Spark的相关配置，以及各种模式的代码提交，包括Local,Standalone,YARN。文末有相应资源下载网盘链接。

Spark详解

标签： spark

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。在之前的学习中，Hadoop的 MapReduce 是大家广为熟知的计算框架，那为什么咱们还要学习新的计算框架 Spark 呢，这里就不得不提到 Spark 和 Hadoop ...

Spark简介

标签： spark

Spark简介Spark是什么新的改变Spark集群架构合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建...

spark简介

标签： Spark简介

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，...

Spark端口

标签： spark

spark任务运行后，会将Driver所在机器绑定到4040端口，提供当前任务的监控页面。此端口号默认为4040，展示信息如下：调度器阶段和任务列表 RDD大小和内存使用情况环境信息正在运行的executors的信息 ...

Spark入门详解

标签： spark

一 Spark概述 1 11 什么是Spark 2 Spark特点 3 Spark的用户和用途二 Spark集群安装 1 集群角色 2 机器准备 3 下载Spark安装包 4 配置SparkStandalone 5 配置Job History ServerStandalone 6 ...

大数据｜Spark介绍

标签：大数据 spark

park为了解决以往分布式计算框架存在的一些问题(重复计算、资源共享、系统组合)，提出了一个分布式数据集的抽象数据模型：RDD(Resilient Distributed Datasets)弹性分布式数据集。

标签： spark

以Spark core为核心，提供了Spark SQL、Spark Streaming、MLlib几大功能组件中文文档：https://spark.apachecn.org/#/ github地址：https://github.com/apache/spark Spark Core Spark提供了多种资源调度框架，基于...

Spark的简介

标签： spark

1.spark是一门大规模数据处理的同一分析引擎. 2.Spark可以对任意类型的数据进行自定义计算,结构化,半结构化,非结构化的数据都可以进行处理. 3. Hadoop Spark 基础平台, 包含计算, 存储, 调度纯计算工具...

spark集群配置

标签： spark

1.集群部署规划表1-1集群部署规划主机名 master slave1 slave2 HDFS NameNode SecondaryNameNode DataNode ... Spark Master Worker Worker 2.安装Spark ...

Spark Streaming

标签： spark big data scala

Spark Streaming介绍随着大数据的发展，人们对大数据的处理要求也越来越高，传统的MapReduce等批处理框架在某些特定领域（如实时用户推荐、用户行为分析）已经无法满足人们对实时性的需求，因此诞生了一批如S4、...

Spark Shell 的使用

标签： spark 大数据

现在我们已经执行了行动操作，执行这些操作需要从磁盘读取数据，Spark在处理这些操作的时候，会把数据缓存起来，后续不管对该RDD执行转换操作还是行动操作，都将直接从内存读取，而不需要和磁盘进行交互。...

Centos7上安装配置Spark

标签： spark

该文章主要是描述单机版Spark的简单安装，版本为 spark-3.1.3-bin-hadoop3.2.tgz 1、Spark 下载、解压、安装 Spark官方网站： Apache Spark™ - Unified Engine for large-scale data analytics Spark下载地址：...

Spark SQL简介

标签： python Spark

Spark SQL简介一、从Shark说起 1、在这之前我们要先理解Hive的工作原理： Hive是一个基于Hadoop的数据仓库工具，提供了类似于关系数据库SQL的查询语言——HiveSQL，用户可以通过HiveSQL语句快速实现简单的...

Spark自带example

标签： spark

Spark自带examples案例 1.SparkPi 在SPARK_HOME目录下运行如下命令： bin/run-example org.apache.spark.examples.SparkPi 结果如下图所示：到此，案例成功运行，运行结果为：Pi is roughly 3.1402157010785055 2...

IDEA 本地运行Spark

标签： spark

IDEA 本地运行Spark1、背景2、环境准备3、具体流程3.1 IDEA创建maven项目3.2 pom.xml配置3.3 Demo程序示例3.4 结果输出3.5 总结改进 1、背景主要用于本地阅读Spark源码，同时也可以用于实战运行spark程序 2、环境...

Spark系列之Spark启动与基础使用

标签： Spark 大数据

Spark系列之Spark启动与基础使用

Spark框架

标签： spark 大数据分布式

Spark 框架模块包含：Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib，而后四项的能力都是建立在核心引擎之上。【Spark Core】：Spark的核心，Spark核心功能均由Spark Core模块提供，是...

如何关闭spark

标签： spark

2.关闭spark 进入以下目录：/usr/local/softwares/spark-2.3.2-bin-hadoop2.7/sbin 执行以下命令，关闭spark： ./stop-all.sh 3.关闭hadoop 进入以下目录：/usr/local/softwares/hadoop-2.7.2/sbin 执行以下...