一文带你了解爬虫_爬虫是什么-程序员宅基地

技术标签: python  爬虫简介  python爬虫  爬虫入门  Python  爬虫是什么  

六月分享主题:爬虫
HTTP详解
网页结构简介

前段时间我妈突然问我:儿子,爬虫是什么?我当时既惊讶又尴尬,惊讶的是为什么我妈会对爬虫好奇?尴尬的是我该怎么给她解释呢?

一、爬虫介绍

1.爬虫是什么

网络爬虫(web crawler 简称爬虫)就是按照一定规则从互联网上抓取信息的程序,既然是程序那和正常用户访问页面有何区别?爬虫与用户正常访问信息的区别就在于:用户是缓慢、少量的获取信息,而爬虫是大量的获取信息。
在这里插入图片描述

这里还需要注意的是:爬虫并不是Python语言的专利,Java、Js、C、PHP、Shell、Ruby等等语言都可以实现,那为什么Python爬虫会这么火?我觉得相比其他语言做爬虫Python可能就是各种库完善点、上手简单大家都在用,社区自然活跃,而社区活跃促成Python爬虫慢慢变成熟,成熟又促使更多用户来使用,如此良性循环,所以Python爬虫相比其他语言的爬虫才更火。

下面是一段hello world级别的Python爬虫,它等效于你在百度搜索关键字:python
在这里插入图片描述

2.爬虫案例

既然爬虫是大量抓取网页,那是不是爬虫都是不好的呢?答案当然不是,可以说我们的日常上网已经离不开爬虫了,为什么这么说?下面我就为大家盘点几个爬虫日常应用:

  1. 搜索引擎:如Google、百度、雅虎、搜狗、必应等等很多搜索引擎其本质就是一个(可能多个)巨大爬虫,这些搜索引擎工作原理是:页面收录->页面分析->页面排序->响应关键字查询,也就是说它会先把互联网上很多页面保存到服务器,然后分析网页内容建立关键字索引,最后用户输入关键字的时候去查询内容,然后根据相关性排序(百度害人的竞价排名毫无相关性可言),第一步的页面收录就是爬虫,百度查看一个网站有多少网页被收录方法,百度输入:site:你想查询的网站,如:site:blog.csdn.net。在这里插入图片描述
  2. 抢票软件:很多人在吐槽12306卡,可你不知道12306几乎每天都相当于淘宝双11的流量,这谁受得了。为什么每天都是如此高的流量?答案自然是爬虫了,为什么抢票软件可以抢票?因为它在不断的刷新和监控是否有余票,大大小小这么多抢票app,访问量之高可想而知。之前很多公司都出过抢票插件,如:百度、360、金山、搜狗等等,后来都被铁道部约谈下线了,而现在又流行抢票app,为什么抢票app可以,插件就不可以?可能是因为管理和可控性的原因。
  3. 惠惠购物助手:这是一款能进行多个网站比价并能知道最低价的一个网站,其工作原理也是通过大量爬虫爬取商品价格然后存储,这样就可以制作一个价格走势图,帮助你了解商品最低价。

在这里插入图片描述

二、爬虫的价值

从上面举的几个例子来看,爬虫对整个互联网的价值真的无法估量,那对于小我而言,爬虫能给我们带来哪些价值?

1.隐形的翅膀

如果你问我学完Python基础之后该学习什么技能?我会毫不犹疑的说爬虫,为什么是爬虫?

  1. 爬虫相对其他技能简单易学,且效果立即可见,会有一定的成就感
  2. 爬虫可以说是其他技能的基石,因为他是数据的来源,现在这个时代谁有数据谁才能称王,所以会爬虫绝对会让你如虎添翼
  3. 在国内,很多企业巴不得你啥都会,所以在应聘时,爬虫会是一个不错的加分项

2.看不见的商战

职场对话:

老板:小明给你个重要任务。
小明:就算996我也在所不辞(第一次接到老板的直接需求)!
老板:你能不能搞到竞争对手的商品价格?
小明:没问题(牛逼先吹出去),小事!
老板:这可不是小事,只要你能持续获取竞品价格,我们就可以标价低于他们一点点,持续如此大家就知道我们的价格肯定是比他们低,这样大家就直接来我们这里购买商品了,到时候庆功宴上你就是最大功臣(先画个饼)。
小明:老板牛逼,老板英明!

3.会爬虫就可以创业

工作之后很多同学会利用上班空余时间,来做自己的东西或者项目,别看开始是一个小打小闹的东西,慢慢丰富将来也许会成为一款成熟的产品。

而爬虫可以让你很轻松的实现自己的产品,做的好的话就可以创业。这里猪哥给大家列几个简单的创业项目,当然作为一个思维引导。
在这里插入图片描述
如果你想做一款好的产品,你需要从用户需求出发去思考,做解决目前存在的问题的产品或者目前还没有的服务,也许你的产品就是下一个头条。

三、盗亦有道

爬虫既然如此强大而优秀,那是不是会了爬虫就可以为所欲为?

延伸话题:其实我内心一直有一个疑问:为什么互联网公司都偏爱用动植物来命名或作为logo?如:蚂蚁金服、天猫、菜鸟、金东狗、腾讯企鹅,百度的熊掌、搜狗、途牛、美团的袋鼠。。。真的是太多了,难道仅仅是因为好记?我认为好记是一个原因,其根本原因是受到编程行业的影响,你想想编程行业有多少动植物:Java(咖啡)、Python(蟒蛇)、Go(囊地鼠)、PHP(大象)、Linux(企鹅)、Perl(骆驼)、Mysql(海豚)等等,具体为什么编程行业喜欢用动植物这猪哥就不清楚,还请明白的同学留言告知大家!

讲上面的延伸话题想表达的是,大自然世间万物,相生相克,衡而不祸!而爬虫也是如此,下面就为大家介绍一下约束爬虫的几个点。

1.robots协议

做过网站的同学也许知道,我们在建站的时候需要在网站根目录下放一个文件:robots.txt,这个文件是干什么用的呢?

Robots协议,也称为爬虫协议、机器人协议等,其全称为“网络爬虫排除标准(Robots Exclusion Protocol)”。网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

每个网站的根目录下都必须放置robots.txt文件,否则搜索引擎将不收录网站任何网页。

下面我们以百度为例子,来看看百度的robots.txt文件:
在这里插入图片描述
我们在百度robots协议的最下面,有这样一条:

User-agent: *
Disallow: /

这表示除上面那些定义过的爬虫以外其他爬虫都不允许爬取百度任何东西!

2.法律

我们都知道在发起请求时User-agent是可以自定义的,也就是说我们可以绕过robots协议和以User-agent来定义的反爬虫技术,所以robots协议可能更像一个君子协议,那咱们国家有没有法律明文规定呢?我们来了解一下非法侵入计算机信息系统罪

第二百八十五条 非法侵入计算机信息系统罪:违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

我们可以看到重点信息:入侵计算机获取数据是违法的,也就是说爬虫技术本身是无罪的,因为它是获取的公开信息,并未非法入侵计算机。但是如果你用爬取到的数据去从事商业化操作,那也许就构成了违法犯罪行为!

给大家介绍下因爬虫而被判刑的案件:

  1. 头条爬虫官司:https://dwz.cn/qBBHc2fq
  2. 酷米客公司官司:https://dwz.cn/9IpAOHGB
  3. 360和百度爬虫官司:https://dwz.cn/RGRa3HJc

我发现这几起案件的通性有两点:1、公司性质。2、竞争对手。3、让人家找到线索。

最后提醒大家:技术人,要守住自己的底线,违反国家法律法规的事情咱们坚决不能做!

3.反爬虫工程师

本来想采访一位携程反爬虫工程师,但是他说由于工作保密原因不便接受采访,所以只好尊重他的选择!

四、爬虫现状

之前猪哥说过互联网中有超过50%的流量来自爬虫,那我们就来简单聊聊目前爬虫的现状吧!

1.技术

反爬虫几乎和爬虫同时诞生,它们是相爱相杀的连个技术,如果没有爬虫就没有反扒,而反扒技术又反过来又可以促进爬虫技术的发展。

  1. 交互问题:各种变态的验证码充斥,尤其是12306,分分钟都想爆粗口,以后会越来越变态。。。
  2. js加密:最近很流行的一种反扒技术,会爬虫还得先学js,然后反爬虫工程师在js里面各种投毒,杀人诛心。。。
  3. IP限制:限制单个ip某段时间内访问次数

猪哥只介绍了一个反扒技术,当然都有现成的技术解决,但是作为爬虫员最重的并不是会使用工具或框架去应对反扒,而是能通过自己的思考和摸索破解反扒,因为反扒技术更新快且多样化。
在这里插入图片描述

2.就业

就业的话主要从招聘、薪资、就业形势三个方面分析,我从网上查阅了一些资料,然后整理以图片形式提供给大家参考。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
数据来源:职友集:https://dwz.cn/6PeU46QY

3.前景

现在很多人并不看好爬虫的前景,只搞爬虫的话技术只停留在当前水平,不再学习新知识,不再进步的话,那么是没有前途的,总有一天会被时代淘汰,其实其他职位也只如此。

每个职业都是有一个横向和纵向的发展,也就是所谓的广度和深度的意思。第一、如果专研得够深,你的爬虫功能很强大,性能很高,扩展性很好等等,那么还是很有前途的。第二、爬虫作为数据的来源,后面还有很多方向可以发展,比如可以往大数据分析、数据展示、机器学习等方面发展,前途不可限量,现在作为大数据时代,你占据在数据的的入口,还怕找不到发展方向?所以爬虫也许只是一个起点一个跳板,是你走向人生巅峰的一个基石,总有一天你会迎娶白富美!
在这里插入图片描述

五、总结

本期为大家讲解什么是爬虫、爬虫的价值、爬虫的合法性以及爬虫的现状,下期猪哥将采访一位牛逼的爬虫工程师,让他为大家讲讲实际工作中的一些知识以及作为一名爬虫工程师该掌握和学习哪些技能,让大家能更近距离接触爬虫,如果你有想对他提问的问题,可以在下方留言哦,我会抽取一些问题让他为大家解答,问题不限!

更多爬虫知识及案例,敬请扫描下方二维码关注猪哥爬虫专栏!
在这里插入图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/u014044812/article/details/92397575

智能推荐

PPAPI插件开发指南-程序员宅基地

文章浏览阅读1k次。转载请注明出处:http://www.cnblogs.com/fangkm/p/4401075.html前言插件一直是浏览器的重要组成部分,丰富浏览器的运行能力,实现一些HTML+JS实现不了本地应用(比如音视频、文件操作等)。早期广为熟知的是IE下的插件ActiveX,这是一项熟悉可能暴露年龄的技术,它基于COM规范,在IE占浏览器市场主流份额的时代,ActiveX可谓出尽了风头,但它并..._ppapi中postmessage调用

stm32cubemx 生成iar工程系统无法运行问题_cubemx生成的工程在iar上运行不起来-程序员宅基地

文章浏览阅读584次。stm32cubemx 生成iar工程系统无法运行问题stm32cubemx 生成的stm32f765工程无法正常运行,最后确认为操作系统不调度,处理方法如下:void SysTick_Handler(void){ /* USER CODE BEGIN SysTick_IRQn 0 */ SysTick->CTRL; HAL_IncTick(); if (xTaskGetSchedulerState() != taskSCHEDULER_NOT_STARTED) { /_cubemx生成的工程在iar上运行不起来

直方图均衡化的原理及C++实现_c++直方图均衡化原理-程序员宅基地

文章浏览阅读6.8k次。直方图均衡化的作用是图像增强。有两个问题比较难懂,一是为什么要选用累积分布函数,二是为什么使用累积分布函数处理后像素值会均匀分布。第一个问题。均衡化过程中,必须要保证两个条件:①像素无论怎么映射,一定要保证原来的大小关系不变,较亮的区域,依旧是较亮的,较暗依旧暗,只是对比度增大,绝对不能明暗颠倒;②如果是八位图像,那么像素映射函数的值域应在0和255之间的,不能越界。综合以上两个条_c++直方图均衡化原理

NFS和NIS服务器配置实例_nfs nis-程序员宅基地

文章浏览阅读764次。文章目录架设一台NFS服务器综合作业架设一台NFS服务器要求配置1、开放/nfs/shared目录,供所有用户查询资料2、开放/nfs/upload目录,为172.16.80.0/24网段主机可以上传目录,并将所有用户及所属组映射为nfs-upload,其UID和GID均为2103、将/home/tom目录仅共享给192.168.10.128这台主机,并只有用户tom可以完全访问该目录 /rhome/tom综合作业配置NIS服务集中管理客户端主机用户账号,要求客户端主机能够正常绑定服务器_nfs nis

EXP-00008: 遇到 ORACLE 错误 904_dummyflag-程序员宅基地

文章浏览阅读4k次。今天在用exp工具导出数据时出现如下提示:连接到: Oracle Database 11g Enterprise Edition Release 11.2.0.3.0 - 64bit ProductionWith the Partitioning, Automatic Storage Management, OLAP, Data Miningand Real Application T_dummyflag

linux中bond网卡是什么意思,linux 网卡bond-程序员宅基地

文章浏览阅读127次。SCC(超级计算集群)简介 SCC概述 超级计算集群(Super Computing Cluster,SCC)使用高速RDMA网络互联的CPU以及GPU等异构加速设备,面向高性能计算、人工智能/机器学习、科学/工程计算、数据分析、音视频处理等应用,提供极致计算性能和并行效率的计算集群服务。SCC实例类型 类型 CPU Memory 网络 存储 适用场景 ecs.scch5.16xlarge 64核..._跨rdma网卡bond

随便推点

Python爬虫学习路线(非常详细)_爬虫学习路线u,2024年最新滴滴 hr面试-程序员宅基地

文章浏览阅读495次,点赞23次,收藏8次。我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。这是我花了几天的时间去把Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。这是一套 100% 原创的学习路线,它坚持实用主义,追求前沿技术,不但为初学者规划好了具体的学习步骤,还指明了常见的陷阱和困难。

git提交本地文件到远程仓库-程序员宅基地

文章浏览阅读99次。建立远程仓库进入需要的建仓库的文件夹,初始化本地仓库将所有变化提交到暂存区4. 提交代码到本地仓库5. 关联远程仓库6. 拉取远程仓库7.强制将本地分支推送到远程分支8.推送成功...

docker登录报WARNING! Using --password via the CLI is insecure. Use --password-stdin.-程序员宅基地

文章浏览阅读1.7w次,点赞5次,收藏3次。当使用docker login -u xxx -p xx时,报WARNING! Using --password via the CLI is insecure. Use --password-stdin.提示解决:1. 将密码写入到一个文件中,例如/etc/docker_passwd文件2.使用以下命令执行登录:cat /etc/docker_passwd | docker login --username 用户名--password-stdin..._warning! using --password via the cli is insecure. use --password-stdin.

博客更新说明_马鸿凯_新浪博客-程序员宅基地

文章浏览阅读73次。由于新浪博客书写保存问题,以后博客所在目录为CSDNMa_Hong_Kaihttps://blog.csdn.net/Ma_Hong_Kai/article/details/82734720(至于剩下的未写完的会在CSDN上更新) ...

同样的工作、同样的做需求,为什么他们能进阿里-程序员宅基地

文章浏览阅读117次。引言古人云:“活到老,学到老。”互联网算是最辛苦的行业之一,“加班”对工程师来说已是“家常便饭”,同时互联网技术又日新月异,很多工程师都疲于应付,叫苦不堪。以至于长期以来流传一个很广的误解:35岁是程序员工作的终点。如何在繁忙的工作中做好技术积累,构建个人核心竞争力,相信是很多工程师同行都在思考的问题。同样的工作、同样的做需求,为什么有的人只能在现有岗位上缓慢前行,而有的人却能进阿里,本文..._15096683069

多媒体架构----Audio介绍_audio架构-程序员宅基地

文章浏览阅读1.3k次。前言:_audio架构

推荐文章

热门文章

相关标签