我的数据分析师转型之路,从零到字节跳动数据分析师_从零进阶互联网数据分析师(已完结)百度云下载-程序员宅基地

技术标签: 数据分析  大数据  

从一个什么都不懂的小白,到现在字节跳动的数据分析师,我用了大概1年的时间,在这里想给大家分享一下我的转行经历,希望能有一些帮助。

我的数据分析师转型之路,从零到字节跳动数据分析师
出于隐私考虑,我就全部打码了。。。

先说一下个人背景,本科是工科相关,非计算机非统计学,硕士是金融相关,基本也算是和数据分析没什么关系,毕业之前有过迷茫,因为自己其实也不知道到底适不适合金融行业,而且上学的时候没有认真搞过什么银行、券商的实习,基本毕业就是凉凉的节奏。所幸毕业前,在和友人的一次偶然交谈中,得知了数据分析这个职业,发现自己似乎比较感兴趣,当时也没有其他路可以选,就决定孤注一掷,all in 数据分析,在此也感谢一下那位友人,人生确实是在于你能否做对几个关键的选择。

决定转型后,先是到网上恶补了一下数据分析师这个行业的整体情况,现在数据分析师其实很杂,不同企业对数据分析师有不同的定位,但大概总结一下的话,是可以分为两种:

偏技术型数据分析师和偏业务性数据分析师

技术型分析师更接近于数据挖掘工程师、算法工程师、大数据工程师这种概念,一般来说是需要比较好的数据结构知识和算法知识,对于非计算机专业的同学,转型会有一定难度。其实一开始我考虑的是这种分析师,但在后面刷了几百道leetcode题之后,决定放弃这条路(太难了)。

第二种就是偏业务型的数据分析师,也是市面上岗位最多的数据分析师,这种分析师的门槛会相对比较低一点,但做不好的话,很有可能就变成报表分析师,提数分析师。不过毕竟门槛还是比较低的,对于想转型的同学,业务型数据分析师会更加友好一些

明确了转型方向后,对于从零转型的同学来说,会有两个比较迫切的问题,我该从什么地方下手和我简历上啥都没有怎么办。对于第一个问题,我的选择是先列了一个我认为的业务型数据分析师所需要的能力矩阵,再针对性准备,简单来说主要包括这几个层面:

我的数据分析师转型之路,从零到字节跳动数据分析师

基本工具

数据分析师三板斧:Excel、SQL、Python

Excel、SQL、python是数据分析师必知必会的3个基本工具,下面我们一个个来看:

Excel

对于Excel的学习,如果你的意向的岗位不是那种纯excel的数据分析师岗位的话,建议大家不需要花费太多时间在excel上,我个人是几乎没花什么时间在excel上,主要的是要掌握vlookup、透视表和一些常用图表,不会的函数就直接百度。

SQL

核心!sql一定要熟,笔试基本必考,面试时候大概率让你手撕sql,写不出的话很容易凉凉。对于sql的学习,完全没有基础的同学可以先看这本《sql必知必会》,了解sql的一些基本知识,增改删查,主要看查询的部分。

我的数据分析师转型之路,从零到字节跳动数据分析师

看完这本书后你对sql的语法应该有了一些基本的了解,但如果不多练习的话,面试手写sql的那种场景,脑子很容易宕机,在这里强推几个练习网站。

1.牛客网编程

牛客网在线编程,强力推荐,可以自动批改sql正误,纯中文,还有题目讲解,这个题库我刷了2遍

我的数据分析师转型之路,从零到字节跳动数据分析师

2.Leetcode

也是一个比较知名的网站了,学计算机的可能都知道。英文的代码在线练习网站,但今天看了一下发现有中文了,但是很多题目都变成了收费题目,牛客网刷完感觉不够的话可以再来这看看

我的数据分析师转型之路,从零到字节跳动数据分析师

总结一下:对于sql的掌握就是看书了解基础,多刷题巩固,在面试中一般问题不大,当然也不排除有一些变态sql笔试题,这种就看缘分了。

Python

相对上面两个工具,python的学习难度会稍微大一些。python能干很多事,对于数据分析师来说,主要应掌握基础语法和数据科学的模块,主要包括pandas numpy 和机器学习库sklearn等,有同学可能会问业务型数据分析师也需要会算法吗?答案是虽然不是必须项,但是加分项,尤其是在从零转型情况下,是增加自己份量的一个筹码。

对于python的学习,建议大家不要报班交智商税,在coursera上有大把的资源,我学习的是密歇根大学的python课程《Python for everybody》,看完入门的话不是问题,课程是免费的。

我的数据分析师转型之路,从零到字节跳动数据分析师

学完这个课程你对python就有基本的了解了,但和sql一样,还是需要多练多运用才能真正融汇贯通。那么怎么练习python呢,在这里推荐一个可能很多人都知道的数据竞赛平台,没错就是kaggle,相信不少人都看过泰坦尼克号生存预测这个项目,这个项目的来源就是kaggle。在kaggle上打比赛,既能让你练习python,又能让你有一些项目可以放到简历上,一举两得。

我的数据分析师转型之路,从零到字节跳动数据分析师
红圈内就是泰坦尼克项目

入门的话可以先从泰坦尼克或者房价预测入手,但放到简历上的话,建议大家挑几个正式的比赛去做一下,这两个项目过于泛滥,含金量比较低了。我在kaggle里面打过很多个项目,最后选择了一个信用卡违约风险预测的项目,《Home Credit Default Risk》放到了简历上,除了kaggle之外,还有其他很不错的数据比赛平台,后面在项目篇会给大家再详细讲一下。

数据分析理论知识

统计学和机器学习两手都要抓、两手都要硬

理论知识这块,数据分析师最需要掌握知识是统计学和机器学习,但掌握到什么程度、掌握哪些领域,还是有些门道。

统计学

如果不是统计学专业的同学,一般面试官心里都有数,不会问你很难的问题,大学统计学范畴。对于统计学基础不怎么好,或者已经忘干净的同学,可以看网易公开课里可汗学院的课程恶补一下,我在准备的时候复习了一遍,感觉效果不错,捡回了不少遗忘的知识。​如果说没有时间看完全部课程,应该重点掌握哪块知识呢?假设检验,假设检验,假设检验,重要的事情说3遍,假设检验绝对是面试中统计学最高频的问题,和以后的工作也会最息息相关(a/b test)。

我的数据分析师转型之路,从零到字节跳动数据分析师

机器学习

机器学习相关的知识学习成本会比较高,对某些同学来说可能会有一定难度,但对于业务型数据分析师来说,一般不会要求你去推导算法公式,能做到明白不同算法的适用场景、优缺点、原理大概懂就基本可以了。

在机器学习这一块,我的学习路径是这样的:


视频课程:

首先入门强推吴恩达大牛的coursera(www.coursera.org)机器学习课!!千万别花钱报班了,入门看这个就够了!

我的数据分析师转型之路,从零到字节跳动数据分析师

看完觉得不过瘾想要进阶的话,可以继续看吴恩达大牛斯坦福大学的公开课,难度会比coursera上的课程更高一些,对于可以翻墙的同学,可以去youtube上找台湾国立大学林轩田老师的《机器学习基石》和《机器学习技法》,难度会再高一些。我当时是连续刷完了这3门课程,虽然刷完之后部分知识还是有理解不够深入的情况,但应付面试已经差不多了。

我的数据分析师转型之路,从零到字节跳动数据分析师
youtube机器学习课程

书籍

阅读书籍可以帮助你更好的把知识沉淀下来,除了上面视频课程之外,我还刷了2本书籍。第一本是西瓜书,第二本书是李航的统计学习方法,这两本就不用多说了,经典读物。内容可以挑着看,主要看一下常用的机器学习模型,svm、随机森林之类的。

我的数据分析师转型之路,从零到字节跳动数据分析师

 

我的数据分析师转型之路,从零到字节跳动数据分析师

数据分析项目实战

kaggle打的好,工作也好找

如果你已经学完了上面的python和机器学习课程的话,就可以进入实战阶段了,我的选择是去打比赛,既可以巩固学到的知识同时又可以解决简历中没有相关项目的问题。

打比赛和真实的数据分析工作其实非常接近,对于大部分常规数据科学比赛而言(比如泰坦尼克号/房价预测这种),大部分人的模型最后其实都大差不差,lgb/xgb搞一搞,再做个模型融合,决定成绩好坏的关键往往是在特征工程上,有时候一个magic feature就能让你的排名上升数百名。magic feature从何而来?是来自你对比赛业务的理解,只有你真正理解了业务,才能构思出好的特征,从而取得好的名次,这个业务型数据分析师的本质也是相通的,理解业务,改进业务。

我举个简单的例子,以我做的信用卡风险项目为例,比赛目标是根据用户的个人信息和一些行为数据来判断用户是否会违约。其中有一个特征是用户的工资,第二个特征是用户信用卡已使用的额度,从业务的角度考虑,如果一个用户使用信用卡的额度远高于他的工资,那么这个用户是不是很有可能就没有钱还信用卡,违约风险会比较大?基于这个假设,我设计了一个 信用卡使用额度 / 工资的特征,经过可视化发现,确实是这个比值越大,用户违约的风险就会越高,把这个特征放到模型里面,我的模型分数有了显著的提高。

这个就是一个基于业务理解做出假设、通过数据验证假设、改进业务的闭环,这也是你在面试中,应该向面试官表达的。

下面推荐几个常见的数据科学比赛平台:

1. Kaggle

首推,强烈推荐!kaggle的优势不仅在于比赛众多,更重要的是里面会有很多选手分享他们的思路和代码,是分享做的最好的一个平台,我的python和数据挖掘基本就是从kaggle练起来的。

2. 阿里天池

国内最有牌面的数据比赛平台,如果你能在阿里天池拿一个不错的名次,含金量就相当高了,但是难度很大,对于转型的同学基本不太可能,可以看看新人赛和一些分享之类的。

3.DataFountain

某数据比赛平台,难度相对天池会低一些,且比赛内容对于国内hr来说,可能会更熟悉一些,在这个平台上,我打了一个招商银行的比赛,1867个参赛选手中拿到了第34名,算是成绩最好的一次。

我的数据分析师转型之路,从零到字节跳动数据分析师

数据分析思维

没有比这个更重要的能力了

分析思维是数据分析师最最核心的竞争力,上面所学习的python、sql、机器学习知识等都是在工具层面,要想使用好他们,还需要分析思维的驾驭。在面试中,对分析思维的考察也是相当重要的一环。

对于分析思维的学习,我建议新人也是从读书开始,我看过的且比较推荐的书包括:

数据分析类:

《精益数据分析》、《增长黑客》、《数据化管理:洞悉零售及电子商务运营》、《数据挖掘与数据化运营实战 思路、方法、技巧与应用》

产品思维类,如果是想要从事互联网行业的数据分析师的话,产品思维也是必须要具备的,面试考察点之一

《从点子到产品:产品经理的价值观与方法论》、《俞军产品方法论》、《产品思维》

逻辑思维类:在面试中逻辑清晰的回答面试官的问题,会为你大大的加分

《金字塔原理》、《学会提问》、《麦肯锡思维》

看完这些书,我相信你已经具备了基本的数据分析思维。但书中的知识和实际工作毕竟还是有一些差距,在这里我结合我的工作经验,给大家列几个数据分析师真实工作场景中常遇到的问题,问题会比较偏向互联网行业,其他行业的同学可以作为参考。

1、假设抖音的人均活跃时长下降了,你该如何分析这个问题?

2、网易云音乐之前有一个每天给你推10首歌的功能,如果让你设计指标来衡量这个功能的效果,你会设计哪些指标?

3、很多信息流app在新用户第一次注册时,都会让他们去选择兴趣标签,如果想让你做这个功能的专题分析,你会怎么设计你的报告框架?

最后,希望大家都能找到理想的工作。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/zl1zl2zl3/article/details/104689559

智能推荐

c# 调用c++ lib静态库_c#调用lib-程序员宅基地

文章浏览阅读2w次,点赞7次,收藏51次。四个步骤1.创建C++ Win32项目动态库dll 2.在Win32项目动态库中添加 外部依赖项 lib头文件和lib库3.导出C接口4.c#调用c++动态库开始你的表演...①创建一个空白的解决方案,在解决方案中添加 Visual C++ , Win32 项目空白解决方案的创建:添加Visual C++ , Win32 项目这......_c#调用lib

deepin/ubuntu安装苹方字体-程序员宅基地

文章浏览阅读4.6k次。苹方字体是苹果系统上的黑体,挺好看的。注重颜值的网站都会使用,例如知乎:font-family: -apple-system, BlinkMacSystemFont, Helvetica Neue, PingFang SC, Microsoft YaHei, Source Han Sans SC, Noto Sans CJK SC, W..._ubuntu pingfang

html表单常见操作汇总_html表单的处理程序有那些-程序员宅基地

文章浏览阅读159次。表单表单概述表单标签表单域按钮控件demo表单标签表单标签基本语法结构<form action="处理数据程序的url地址“ method=”get|post“ name="表单名称”></form><!--action,当提交表单时,向何处发送表单中的数据,地址可以是相对地址也可以是绝对地址--><!--method将表单中的数据传送给服务器处理,get方式直接显示在url地址中,数据可以被缓存,且长度有限制;而post方式数据隐藏传输,_html表单的处理程序有那些

PHP设置谷歌验证器(Google Authenticator)实现操作二步验证_php otp 验证器-程序员宅基地

文章浏览阅读1.2k次。使用说明:开启Google的登陆二步验证(即Google Authenticator服务)后用户登陆时需要输入额外由手机客户端生成的一次性密码。实现Google Authenticator功能需要服务器端和客户端的支持。服务器端负责密钥的生成、验证一次性密码是否正确。客户端记录密钥后生成一次性密码。下载谷歌验证类库文件放到项目合适位置(我这边放在项目Vender下面)https://github.com/PHPGangsta/GoogleAuthenticatorPHP代码示例://引入谷_php otp 验证器

【Python】matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距-程序员宅基地

文章浏览阅读4.3k次,点赞5次,收藏11次。matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距

docker — 容器存储_docker 保存容器-程序员宅基地

文章浏览阅读2.2k次。①Storage driver 处理各镜像层及容器层的处理细节,实现了多层数据的堆叠,为用户 提供了多层数据合并后的统一视图②所有 Storage driver 都使用可堆叠图像层和写时复制(CoW)策略③docker info 命令可查看当系统上的 storage driver主要用于测试目的,不建议用于生成环境。_docker 保存容器

随便推点

网络拓扑结构_网络拓扑csdn-程序员宅基地

文章浏览阅读834次,点赞27次,收藏13次。网络拓扑结构是指计算机网络中各组件(如计算机、服务器、打印机、路由器、交换机等设备)及其连接线路在物理布局或逻辑构型上的排列形式。这种布局不仅描述了设备间的实际物理连接方式,也决定了数据在网络中流动的路径和方式。不同的网络拓扑结构影响着网络的性能、可靠性、可扩展性及管理维护的难易程度。_网络拓扑csdn

JS重写Date函数,兼容IOS系统_date.prototype 将所有 ios-程序员宅基地

文章浏览阅读1.8k次,点赞5次,收藏8次。IOS系统Date的坑要创建一个指定时间的new Date对象时,通常的做法是:new Date("2020-09-21 11:11:00")这行代码在 PC 端和安卓端都是正常的,而在 iOS 端则会提示 Invalid Date 无效日期。在IOS年月日中间的横岗许换成斜杠,也就是new Date("2020/09/21 11:11:00")通常为了兼容IOS的这个坑,需要做一些额外的特殊处理,笔者在开发的时候经常会忘了兼容IOS系统。所以就想试着重写Date函数,一劳永逸,避免每次ne_date.prototype 将所有 ios

如何将EXCEL表导入plsql数据库中-程序员宅基地

文章浏览阅读5.3k次。方法一:用PLSQL Developer工具。 1 在PLSQL Developer的sql window里输入select * from test for update; 2 按F8执行 3 打开锁, 再按一下加号. 鼠标点到第一列的列头,使全列成选中状态,然后粘贴,最后commit提交即可。(前提..._excel导入pl/sql

Git常用命令速查手册-程序员宅基地

文章浏览阅读83次。Git常用命令速查手册1、初始化仓库git init2、将文件添加到仓库git add 文件名 # 将工作区的某个文件添加到暂存区 git add -u # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,不处理untracked的文件git add -A # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,包括untracked的文件...

分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120-程序员宅基地

文章浏览阅读202次。分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120

【C++缺省函数】 空类默认产生的6个类成员函数_空类默认产生哪些类成员函数-程序员宅基地

文章浏览阅读1.8k次。版权声明:转载请注明出处 http://blog.csdn.net/irean_lau。目录(?)[+]1、缺省构造函数。2、缺省拷贝构造函数。3、 缺省析构函数。4、缺省赋值运算符。5、缺省取址运算符。6、 缺省取址运算符 const。[cpp] view plain copy_空类默认产生哪些类成员函数

推荐文章

热门文章

相关标签