深圳大数据学习:怎样进行大数据的入门级学习?-程序员宅基地

技术标签: 大数据学习  学习  入门  大数据  深圳  

深圳大数据学习:怎样进行大数据的入门级学习?

首先学习大数据需要对学习一门编程语言进行入门编程,一般是选择Java或Python,现在主流的方向是以Java作为入门编程语言学习,因为后期的Spark需要使用scala语言进行编程,而Scala和Java有千世万缕的联系,所以建议从Java开始学习,JavaEE方法向可以适当的学习一些SSM,大数据主要是对数据进行处理,对JavaEE端没有太大的需求,其次需要学习的是数据库MySQL作为广泛使用的一个数据库,可以作为入手,安装简单方便学习利于上手,并且可以学习SQL为后期学习Hive做准备.
这些学习完成后,可以开始接触Hadoop生态圈,Hadoop自身的三大组件HDFS,MapReduce,Yarn先入手学习,现有分布式思想,前面学习的Java语言也是MapReduce计算框架的编程语言,学习这些之后可以开始学习Hive数据仓库,主要是先学习基础操作前期学习了SQL语言而Hive编程语言是类SQL语言叫做HQL,上手起来会比较快,然后学习数仓建模,接下来做一个关于数据仓库的项目,在项目中学习Flume,sqoop和anzkaban.Hbase数据库也可以学习,使用方式可能跟传统数据库不一样,需要注意:二级索引,rowkey,列簇等应用.这部分学习完毕基本上Hadoop部分的日常开发是可以了.
除了Hadoop这个部分外,可以学习另外一个计算分析引擎Spark,Spark是基于内存的计算引擎,独有的RDD依赖和血缘关系、DAG和Stage让spark在计算数据时数据更快,spark默认使用的是scala语言编写,scala语言和Java语言类似,之前有Java基础上手Scala语言相对容易并且Spark中分为SparkCore核心,SparkSQL对接Hive,SparkStreaming实时,这些都可以完成日常离线和实时开发,而且SparkStreaming作为老牌的实时引擎相对使用比较广而且稳定,并且集合消息中间件Kafka可以做到实时数据消费,新型的Flink实时计算引擎也可以学习,现在是阿里巴巴推荐使用的.最后在做一些spark项目基本上就可以完成学习了

材料的话不建议看书,因为书不是每个人都会去认真看的可以去找一些视频看,千锋好程序大数据课程推出了很多优质免费的学习视频可以看看,书可以在系统学习完后再补充看.

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/QQ1494648730/article/details/102498343

智能推荐

Cloudera Manager 5.15.2离线安装笔记(一)_cdh-5.15.2-1.cdh5.15.2.p0.3-el7.parcel-程序员宅基地

文章浏览阅读1k次。Cloudera Manager 5.15.2离线安装笔记(一)工欲善其事必先利其器,想要学好一门技术首先得有趁手的工具,要想学好大数据技术,还是得有比较好的工具才行。本笔记记录的是安装Cloudera Manager的过程。CDH的全称是Cloudera’s Distribution Including Apache Hadoop,是hadoop众多发行版本中的一种,是由Cloudera维护..._cdh-5.15.2-1.cdh5.15.2.p0.3-el7.parcel

新版Android Studio火烈鸟 在新建项目工程时 无法选java的语言模板解决方法_androidstudio没有java语言选项-程序员宅基地

文章浏览阅读2w次,点赞52次,收藏65次。最近下载最新版androidstudio时 发现不能勾选java语言模板了如果快速点击下一步 新建项目 默认是kotlin语言模板 这可能和google主推kt语言有关。_androidstudio没有java语言选项

如何用java开发一个网站?_java开发网站-程序员宅基地

文章浏览阅读1w次,点赞25次,收藏196次。问题:如何用java开发一个网站?下载了最新的JDK软件、最新的Eclipse、数据库mysql以及tomcat、struts但是不知道怎么连接起来,在数据库连接的时候mysql-connector-java-5.1.44中没有Driver.jar,tomcat配置环境的时候也有问题,tomcat plugin没有和最新的JDK配套的怎么办?看了问题,我建议题主还是好好先学一轮基础的东西。基于问题我简单提几点:Eclipse是开发工具,最新的没问题。JDK其实不需要用最新,现在市面上大多数还是JDK_java开发网站

HDU 3605 Escape(最大流+状态压缩)_acm3605题答案csdn-程序员宅基地

文章浏览阅读338次。题意:现有n个人要移居到m个星球去,给定一个n*m的矩阵,第 i 行第 j 列如果为1,表示第 i 个人可以去第 j 个星球,如果为0,表示不可以去。然后给出这m个星球都最多分别能住多少人,问你n个人是不是都能找到星球住? (1 思路:看到这个n的范围我震惊了...然后不知道怎么做了... 明显的最大流问题,不过n数目太大,直接做肯定超时. 留意到m最多有10个,所_acm3605题答案csdn

Debug调试_r语言0如何进入debug模式-程序员宅基地

文章浏览阅读174次。一.Debug调试先设置断点--》Debug 试图和java试图交换最右边两个,如果debug试图不出现的话可以选择最左边的让他加进去Step over是下一步 红方框是可以停止二.快捷键_r语言0如何进入debug模式

mac谷歌浏览器怎么登陆账户_在 Mac 上的 Safari 浏览器中自动填充用户名和密码...-程序员宅基地

文章浏览阅读1.4k次。在 Mac 上的 Safari 浏览器中自动填充用户名和密码借助“自动填充”,您可以轻松填充先前存储的用户名和密码。您还可以在网站上设置密码时创建强密码。已输入信息的栏以黄色高亮显示。填充用户名和密码在 Mac 上的 Safari 浏览器应用 中,执行以下一项操作:如果您先前储存了网站的用户名和密码,请使用“自动填充”输入信息并登录。点按用户名栏,然后选取您的用户名(或使用触控栏)。如果您的 Ma..._mac下webdrive启动chrome自带账号和密码

随便推点

python not in string_每周一个 Python 模块 | string-程序员宅基地

文章浏览阅读50次。同时,也欢迎关注我的微信公众号 AlwaysBeta,更多精彩内容等你来。目的:包含用于处理文本的常量和类。string 模块可以追溯到最早的 Python 版本。先前在此模块中实现的许多功能已移至 str 对象方法。string 模块保留了几个有用的常量和类来处理 str 对象。函数 capwords()直接看下面的事例:import strings = 'The quick brown fox..._python not in string

python|简介和运行-程序员宅基地

文章浏览阅读628次,点赞18次,收藏25次。通过控制台的错误提示和错误代码行找问题,报错中有显示多个文件,需要关注的自己的代码文件和错误信息# 定义请求头header = {Win64;q=0.9'pyload = {"id":1,"code":"BJWT","name":"北京万泰","remark":"001","isEnabled":1}try:print('代码没有执行到!')加print调试代码找错误。

mongodb跨集合查询_MongoDB 存储和优化系列二-程序员宅基地

文章浏览阅读122次。在第一篇的文章末尾我们提到了索引,下面就将从不同的索引类型,索引的机制展开来介绍MongoDb的索引应用。为什么需要索引单字段索引复合索引多Key索引文本索引Hash索引索引的额外属性当你抱怨MongoDb的查询效率低下的时候,可能你就需要考虑索引了,先科普MongoDb里面的索引机制,当你往MongoDb插入数据的时候,每个文档经过底层的存储引擎持久化数据,会生成一个位置信息,通过..._mongodb跨集合查询

Android探索之旅 | 配置ccache,大大加快编译速度_ubuntu 编译安卓 速度慢-程序员宅基地

文章浏览阅读1k次。Android探索之旅 | 配置ccache,大大加快编译速度-- 作者 谢恩铭 转载请注明出处源码项目编译ccache配置一般来说,我们在编译大型项目时,总会用到make之类的命令。比如我们公司目前的Android项目代码,已经很大了,有几百万行的代码量。底层是C语言,Perl,C++,上层是Java。这样的项目每一次编译都需要耗费不少时间。如何才_ubuntu 编译安卓 速度慢

Python多进程Pool与Process区别,以及用Process实现Pool--part1_python pool 和process 区别-程序员宅基地

文章浏览阅读3k次,点赞4次,收藏8次。Python多进程Pool与Process主要区别(1)Process需要自己管理进程,起一个Process就是起一个新进程;(2)Pool是进程池,它可以开启固定数量的进程,然后将任务放到一个池子里,系统来调度多进程执行池子里的任务;Python中多进程主要是通过multiprocessing实现的,通过私有函数all查看,需带双下划线;import multiprocessing..._python pool 和process 区别

Spark MLlib分布式机器学习源码分析:决策树算法_sparkmlib 训练决策树模型-程序员宅基地

文章浏览阅读1k次。Spark是一个极为优秀的大数据框架,在大数据批处理上基本无人能敌,流处理上也有一席之地,机器学习则是当前正火热AI人工智能的驱动引擎,在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。本文结合机器学习思想与Spark框架代码结构来实现分布式机器学习过程,希望与大家一起学习进步~目录1.决策树理论2.Spark实例3.源码分析 本文采用的..._sparkmlib 训练决策树模型

推荐文章

热门文章

相关标签