这款 Chrome 插件就能帮你完成网页抓取_原创

这款 Chrome 插件就能帮你完成网页抓取

APPSO 2020-05-15 09:04

不知大家是否总能在朋友圈看到类似的广告，「加班完成的 Excel 用 Python 只需 3 分钟」、「每天都能准点下班只因学会了 Python」，似乎 Python 已经成为了当代年轻人的必备技能。

▲朋友圈广告

的确，作为一门易于上手的编程语言，Python 在自动化办公中用处巨大，特别是对于网页数据的爬取，在这样一个大数据时代显得尤为重要。

爬取网页数据，也可以称为「网络爬虫」，能帮助我们快速搜集互联网的海量内容，从而进行深度的数据分析与挖掘。比如抓取各大网站的排行榜、抓取各大购物网站的价格信息等。而我们日常用的搜索引擎就是一个个「网络爬虫」。

但毕竟学习一门语言的成本太高了，有什么办法可以不学 Python 也能达到目的呢？当然有，借助 Chrome 浏览器的《Web Scraper》插件，让你在不用写代码的情况下，就能快速抓取海量内容。

懒人目录

抓取页面中多条信息——bilibili 排行榜为例

自动翻页抓取——豆瓣电影 Top250 为例

抓取二级页面内容——知乎热榜为例

抓取页面中的多条信息——BiliBili 排行榜为例

安装《Web Scraper》后，在浏览器按 F12 进入开发者模式，就能在最后一个标签页看到《Web Scraper》的菜单。需要注意的是，如果开发者模式面板不在下方，则会提示必须将其放到浏览器下方才能继续。

在菜单中选择「Create new sitemap - Create sitemap」以创建新的 sitemap，填入名称与起始地址就可以开始了。这里以 BiliBili 排行榜为例，介绍如何抓取页面中的多条信息，起始地址设为「https://www.bilibili.com/ranking」。

这里我们需要抓取「视频标题」、「播放量」、「弹幕数」、「up 主」以及「综合得分」，因此首先为每一条记录创建一个封装器。

点击「Add new selector」，id 填写「封装器」， type 选择「element」，然后点击「selector」，选择一条记录的外边框，外包框中需要包含上述所有信息，然后再选择第二条，这样就会发现页面中的所有记录都已自动选择，点击「Done selecting」完成数据的选择。还要记得勾选「Multiple」以保证抓取多条记录，最后保存该选择器即可。

返回后点击刚才的封装器，进入二级路径，创建「标题」选择器，id 填写「视频标题」，type 选择「text」，点击「selector」会发现第一条记录高亮显示，这是因为我们已提前将其设定为了封装器。选择包围框中的标题，再点击「Done selecting」完成标题的选择，注意这里不需要勾选「Multiple」，最后保存该选择器。

同样的，我们为「播放量」、「弹幕数」、「up 主」和「综合得分」分别建立选择器，选择后可以通过「Data pview」预览是否选中了想要的内容。另外还可以通过菜单栏中的「Sitemap bilibili_ranking - Selector graph」直观地查看树状结构。

继续在刚才的菜单下选择「Scrape」开始创建抓取任务，单个网页的间隔时间和响应时间默认即可。点击「Start scraping」开始抓取。这时候浏览器会自动打开新的页面，停留数秒后自动关闭，代表抓取已完成。

点击「Refresh Data」刷新数据，或点击「Sitemap bilibili_ranking - Browse」查看数据。通过「Sitemap bilibili_ranking - Export data as CSV」即可下载为 CSV 格式文件。

▲BiliBili 排行榜

使用 Excel 打开，由于《Web Scraper》抓取的内容是无序的，因此需要对「综合得分」进行降序排列，以恢复原始排行榜的结果。

自动翻页抓取——豆瓣电影 Top250 为例

Bilibili 排行榜只有 100 条记录，并且都在一个网页中，那么如果有分页显示的情况该怎么办呢？这里以豆瓣电影 Top250 为例介绍自动翻页抓取。

同样的，新建 sitemap，在填写起始地址前，我们先观察一下豆瓣电影 Top250 的构成，总共有 250 条记录，每页显示 10 条，共分为 25 页。

而每一页的网址都非常有规律，第一页的地址为「https://movie.douban.com/top250?start=0&filter=」，第二页仅仅是把地址中的「start=0」改为了「start=25」，因此我们填写起始地址时便可以填写「https://movie.douban.com/top250?start=[0-250:25]&filter=」，这里 start=[0-250:25] 表示以 25 的步长从 0 取到 250，因此 start 分别为 0、25、50 等等。这样《Web Scraper》就会按顺序一页一页抓取数据了。